Інформаційно-екстремальна кластеризація даних

Москаленко В’Ячеслав Васильович

УДК 681.518:004.93.1' В. В. МОСКАЛЕНКО

ШФОРМАЦШНО-ЕКСТРЕМАЛЬНА КЛАСТЕРИЗАЦ1Я ДАНИХ

Розглядаеться метод кластеризацп даних, що грунтуеться на шформацшно-екстре-мальному навчаннi та модиф1кацп методу к-середшх для бiнарного простору ознак розтз-навання. При цьому оптимiзацiя параметр1в кластеризаци, включаючи к1льк1сть класгерiв та м1тмальну к1льк1сть векгорiв-реалiзацiй в кластерах, здшснюеться на основi модифшэвано-го шформацшного критерiю функцюнально1 ефективностi за Кульбаком. З метою тдви-щення функцюнально1 ефективностi кластеризацп будуються гшерелшсо1дш вирiшальнi правила.

Вступ

Одним 1з перспективних напрям1в тдвищення функцiональноl ефективносп керування слабоформал1зованими процесами, що функцiонують за умов апрюрно! невизначеностi та ди зовнiшнiх неконтрольованих факторiв, е розробка та впровадження здатних самонавчатися систем тдтримки прийняття рiшень (СППР), що базуються на iдеях i методах машинного навчання та розтзнавання образiв [1,2]. При цьому важливого значення набувае розроблен-ня алгоритмiв кластер-аналiзу вхiдних даних, якi за результатами мониторингу керованого процесу формують алфавгт класiв розпiзнавання та систему виршальних правил. Оскiльки на практицi спостертаеться нечiткiсть (розмитiсть) кластерiв у просторi ознак розтзнаван-ня i часто вони мають складнi форми i взаемне розмiщення, то це ускладнюе, а iнколи унеможливлюе побудову чгтких вирiшальних правил в евклiдовому просторi засобами параметричнох' статистики, що е основною задачею шформацшного синтезу СППР [3,4].

Задача трансформацп апрюрно нечеткого розбиття в чiтке розбиття е^валентносп класiв розпiзнавання вирiшуеться в рамках iнформацiйно-екстремальноl iнтелектуальноl технологи (IEI-технологiя), в якш контейнери класiв розпiзнавання вщновлюються в бшар-ному просторi ознак розтзнавання [5]. При цьому шформацшний критерш функцiональноl ефективностi (КФЕ) шформацшно-екстремального навчання доцiльно вважати загальним критерiем якостi розбиття даних на кластери, оскшьки вiн дозволяе реалiзувати механiзми вщносно! валщацп результату кластеризацп даних та оптимiзацil параметрiв алгоритму кластеризацй [6,7].

У статп розглядаеться алгоритм кластеризацп даних на базi шформацшно-екстремаль-ного навчання та модифшацп методу £-середтх для бшарного простору ознак розтзнаван-ня за умови максимiзацil кiлькостi кластерiв та мiнiмальноl кiлькостi векторiв-реалiзацiй в кластерах при забезпеченш високо! достовiрностi чгтких гшерелшсощних вирiшальних правил.

1. Постановка задачi

Розглянемо СППР, що самонавчаеться в режимi кластер-аналiзу. Нехай вщома апрюр-

но некласифiкована багатовимiрна навчальна матриця || у(') ||, 1 = 1, К, ] = 1, п , деК, п -

кiлькiсть ознак розтзнавання i реалiзацiй образiв вiдповiдно. Необхщно в режимi кластер-аналiзу перетворити вхщну некласифiковану навчальну матрицю в нечгтку класифiковану i побудувати чгтке розбиття простору ознак розпiзнавання на класи розтзнавання

{Хт|т = 1,М}, якi характеризують функцiональнi стани керованого процесу, шляхом оптимiзацil координат структурованого вектора параметрiв функцiонування СППР:

8=<М,пт1п,ХБ,^хm1,хт2^т >, (1)

де М - кшьюсть кластерiв для алгоритму кластер-аналiзу (одночасно i потужшсть алфавiту класiв розпiзнавання); пт1п - мшмальна кiлькiсть векторiв-реалiзацiй в кластерах, що не може бути меншою за мшмальний обсяг репрезентативно1 навчальноl вибiрки для одного

класу; X Б - базовий кластер, що вщповщае одному з класт^в розбиття, вiдносно якого будуеться система контрольних допусюв (СКД) на ознаки розтзнавання; 5 - параметр поля контрольних допусюв на ознаки розтзнавання; х т1, х т2 - двiйковi вектори, що визначають координати першого та другого фокушв гшерелшсощного контейнера кластера Хт в бшарному просторi ознак ^б , як при нульовiй фокальнiй вщстат визначають геометричний центр кластера; ¿т - велика пiввiсь контейнера кластера Хт в просторi ознак ^б .

При цьому задано обмеження:

2 < М < п/Пт1и,Пт ^ птХп , с т < ¿т,с т <

¿(хс1 ©х) + а(хс2 ®х)-2сс >0,Ухе|х:а(хт1 ®х) + а(хт2 ®х) = 2ат} (2) 5 е [0; 5н/2] ,

де пт - кшькють реалiзацiй, що належать кластеру хт ; ст - фокальна вщстань

гшерелшсощного контейнера кластера хт ; ¿(хс1 ©x),d(xс2 ®х) - кодовi вiдстанi вiд

першого та другого фокушв контейнера сусiднього класу Х° до вектора х, що належить

поверхш кластера Хт вiдповiдно; сс - фокальна вiдстань гшерелшсощного контейнера

сусщнього кластера X° ; ¿(хт1 ©x),d(xm2 ®х) - кодовi вiдстанi вiд першого та другого

фокуав контейнера кластера Хт до векторах вщповщно; 5н - нормоване поле допускiв,

що визначае область значень параметра 5 .

Необхщно в процес навчання СППР визначити оптимальнi значення координат вектора параметрiв функцiонування (1), що забезпечують максимальне значення усередненого за множиною кластерiв розбиття КФЕ:

_ 1 М

' =МтХ=,МЕт' (3)

де Ет - iнформацiйний КФЕ СППР розтзнавати реалiзацil кластера Хт ;{к} - впорядко-вана множина кроюв самонавчання.

У режимi екзамену, тобто безпосередньо у робочому режимi СППР, необхщно прийняти ршення про належшсть реалiзацiй образу, що характеризують поточний функщональний стан процесу, до вщповщного кластера побудованого на етапi самонавчання розбиття м\.

2. Алгоритм самонавчання

Розглянемо основнi етапи реалiзацil базового алгоритму шформацшно-екстремально! кластеризацп даних:

1. Обчислення початкових центрiв кластерiв у евклiдовому просторi. Якщо при першому запуску базового алгоритму або при попередшх його запусках була вщсутня робоча область визначення шформацшного КФЕ, то розрахунок початкових центрiв здiйснюють за правилом рiвномiрного розподiлу центрiв у гiперкубi вхщних даних:

(¡1) , т -1 (¡2) (^К - -

УтД=У11 +МГ7(у12 - У!1 ), т = 1,М, 1 = 1,К,

де уЧ у(*2) - два найбiльш вiддаленi в евклiдовiй метрицi вектори-реалiзацil, що належать вхщнш некласифiкованiй матрицi {у(|) \1 = 1,К^ = 1,п}.

В протилежному випадку вже юнуе розбиття даних на кластерi i початковi координати центру кожного кластера можна визначити, як вибiркове середне значення х -I ознаки у векторах-реалiзацiях кластера:

1 Пт (j) - -

Ym,i =-ZyJii, m = 1,M, i = 1,N .

nm j=1 '

2. Змша нумерацп центрiв кластерiв таким чином, щоб центр базового кластера нумеру-вався першим, тобто Хо X Б.

3. Iнiцiалiзацiя лiчильника, що визначае поточний номер кластера: т := 0 .

4. т := т +1.

5. Якщо т = 1 (базовий кластер), то здшснюеться обчислення значень нижнього А^к [ та верхнього А^^ 1 контрольних допусюв для кожно! ознаки розпiзнавання за формулами

A

HK,i

A

BK,i

О о

y1 i(1--4 if y1 i(1--L)< AH i;

M 100 1Д 100 H,i

Ah i, if else;

о о

yi i(1 + -L), if yn(1 +-L)> ABi;

100 ' 100 B,i

Ab i, if else,

(5)

(6)

Де У1,1 - 1-та координата центру базового кластера Хо , вщносно якого будуеться СКД; - параметр поля контрольного допуску для 1-1 ознаки розтзнавання; А^д , 1 - нижнiй та верхнш нормованi допуски для 1-! ознаки розтзнавання.

Формування бшарно! матриц вхщних даних || х(^) || здшснюеться за правилом

x(j) = i

1, if Ahk,i < y(ij) < Abk,1 .

0, if else.

6. Обчислення значень координат двшкового еталонного вектора х m. При цьому у випадку наявносп розбиття даних (кластер Хт мютить nm агрегованих векторiв-реалi-зацiй) обчислення здшснюють за правилом

(7)

km,i

n„

1, if

nm j=1 0, if else;

1 "m (j)

— Z xU). > 0,5; f-1 m.i '

= xm1,i = xm2,i

(8)

де х т1, хт2 - двiйковi вектори, що вiдповiдають значенням фокуав контейнера до початку гшерелшсощно! корекцп.

В протилежному випадку - за правилом

km,i

1, if ahk,i < ym4 < abk,i;

0, if else;

= xm1,i = xm2,i

7. Iнiцiалiзацiя лiчильника крокiв змiни радiуса для контейнера кластера Хт : dm := 0 .

i. dm := dm +1.

9. Iнiцiалiзацiя динамiчного масиву An , що збертае значення nm для кожно! ггерацп

центрування кластера Хт: АПт := {} . Початок центрування контейнера кластера.

10. Додавання в динамiчний масив АПт поточного значення пт .

11. Очищення розмгтки векторiв-реалiзацiй кластера Х^^ для здшснення ново! розмiтки.

12. Об'еднання в кластер некластеризованих (нерозмiчених) двшкових векторiв-реалi-зацiй, для яких виконусться умова d(x т © х (-')) < dm, де d(x т © х (-')) - кодова вщстань

мiж двiйковими векторами х т та х

0)

13. Обчислення нового центру кластера Хт в евклщовому просторi за формулою (4).

14. Якщо т = 1(базовий кластер), то здiйснити обчислення верхшх та нижнiх конт-рольних допусюв за формулами (5), (6) та бшарно! матрицi вхiдних даних за правилом (7).

15. Обчислення двшкового еталонного вектора хт за правилом (8).

16. Якщо в динамiчному масивi АПт не зустрiчаeться значення пт, що вiдповiдаe новому об'еднанню векторiв-реалiзацiй в кластер, то здшснюеться перехiд до пункту 10, шакше - перехiд до пункту 17 для зупину центрування кластера Хт з метою уникнення автоколивального процесу .

17. Якщо dm < N , то перехщ до пункту 18, iнакше - до пункту 19.

18. Якщопт > пт,п , то перехiд до пункту 19, шакше - до пункту 8.

19. Якщо т < м, то перехщ до пункту 5, шакше - до пункту 20.

20. Обчислення усередненого шформацшного КФЕ Е (3).

21. ЗУПИН.

Як КФЕ кластеризацп використовусться модифшована iнформацiйна мiра Кульбака, в якiй розглядаеться вщношення повно! ймовiрностi правильного прийняття ршень Р( до повно! ймовiрнiсть помилкового прийняття ршень Р/ . Для двохальтернативних гшотез модифiкований критерiй Кульбака мае вигляд

р?т=р(и) • ой+р^) • <т

Е(к) =

р(к) _р(к) Чт Чт

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

1°ё2

р(к) Чт

ж

f,m

Р£=Р(Ш) • а (^)+Р(Ц2) • в $ п1

Р(Ш) =

п^ +п

2

;р(Ц2) =

12

п1 +п2

а (к) = 1 п(к)0(к) = 1 в (к)

а т = 1 _ и1т;°2т = 1 _ в т

1,т' 2,т

[п2 _п1+2 • (пх • 0(кт _п2 • в£?)] п2+(п: • _п2 • в2?)

'--1о§ 2 (-^-ТГТ")

п1 + п 2

п1 _ (п1 • °1(кт _ п2 • вт)

(к).

(9)

де Б(кт - перша достовiрнiсть, обчислена для т -го кластера на к -му крощ оптимiзащ! параметрiв СППР; Б^^т - друга дост^ршсть; а^ - помилка першого роду; в(д* -помилка другого роду; п^ , п2 - кiлькiсть реалiзацiй, що розмежовуються гiперповерхнею контейнера кластера хт .

Нормовану модифiкацiю критерiю (9) представимо у виглядi

л Л Е(к)

Е(к) _ Ет

Е

(10)

тах

де Етах - значення критерш при т = 1 i в т = 0.

При цьому робоча область визначення функцп шформацшного КФЕ обмежена як умова-ми (2), так i нерiвностями Б > 0,5 i Б > 0,5 .

Оптимiзацiю СКД на ознаки розпiзнавання доцшьно здiйснювати за паралельно-по-слiдовним алгоритмом, що забезпечуе прийнятну оперативнють та високу точнють обчислення КФЕ. При цьому за алгоритмом паралельно! оптимiзацil СКД визначаються квазюп-

тимальш контрольш допуски на ознаки розтзнавання, як1 для посл1довного алгоритму приймаються як стартов^

Розглянемо основт етапи реал1зацИ алгоритму навчання з оптим1зац1ею СКД на ознаки розтзнавання:

1. Реал1зуеться процедура паралельно! оптим1зацИ системи контрольних допусюв на ознаки розтзнавання [5]:

* —

5 = arg max{max E}, (11)

G 5 ge

де E - усереднений КФЕ для розбиття ; G§ - область допустимих значень контрольних допусюв на ознаки розтзнавання; GE - область допустимих значень шформацшно-го КФЕ.

2. Одержан1 за процедурою (11) квазюптимальт допуски приймаються як стартов! для процедури послщовно! оптим!зац!! контрольних допуск!в на ознаки розтзнавання.

3. Реал!зуеться ггерацшна процедура посл!довно! оптим!зац!! поля контрольних допусюв на ознаки розтзнавання:

* S _(s) _

{5k i} = arg{ ® max{max E }}, i = 1,N, (12)

s=1G 5i ge

—(s) . . .

де E - усереднений КФЕ кластеризации обчисленний на s -му прогон! послщовно! процедури оптим!заци; G 5. - область допустимих значень поля контрольних допусюв для i-! ознаки; Ge - область допустимих значень критерда оптим!заци; ® - символ операци повторення.

4. При оптимальному пол! СКД на ознаки {5 к i | i = 1, N} зд!йснюеться запуск процедури гшерелшсощно! корекц!! виршальних правил.

Перевагу застосування процедури гшерелшсощно! корекц!! виршальних правил у по-р!внянн! з г!персферичними вир!шальними правилами шюструе рис. 1.

а б

Рис. 1. Схеми застосування гшерелшсо!'дних i гшерелшсо!'дних контейнер!в кластер!в: а - п!двищення КФЕ кластеризаци; б - виявлення нового класу для донавчання

На рис.1,а показано, що застосування гiперелiсо!дно! корекци вирiшального правила дозволяе через вщсуттсть перетину кластерiв пiдвищити КФЕ i вiдповiдно достовiрнiсть розпiзнавання, а на рис. 1,б показано, що гшерелшсощна корекцiя форми контейнерiв пщви-щуе ефективтсть виявлення нових функцiональних статв у виглядi нового класу розтзна-вання.

Розглянемо основнi етапи реалiзацi! алгоритму гшерелшсощно! корекци виршальних правил, що вщновлюються в бiнарному просторi ознак розтзнавання:

1. Iнiцiалiзацiя лiчильника, що визначае поточний номер класу: m := 0 .

2. m := m +1.

3. Обнулення лiчильника кроюв змiни фокального радiусу: cm = 0 .

4. Формування для еталонного вектора xm множини (xj | v = 1,N}, що складаеться з N оточуючих його двiйкових векторiв з кодовою вiдстанню d(xm © x^) = cm, шляхом послiдовних N зсувiв влiво на один розряд операцп шверсп над послiдовно розмщеними cm розрядами в еталонному BeRi^i x m.

5. Розбиття множини вeкторiв (xj | v = 1,V} на p пар фокуав (Xj^p | p = 1, P} . При цьому для кожно! пари xj p =< xjp) , xjj^^ > повинна виконуватись умова

d(xmP) © x®2) = 2cm. ' _

6. Обнулення лiчильника пар фокусiв p = 1, P : p := 0 .

7.p:= p +1.

8. Iнiцiалiзацiя фокусiв координатами пари вeкторiв < xjPj, xjp2 > .

9. Обчислення iнформацiйного КФЕ Em за формолою (10).

10. Якщо p < P, то виконуеться пункт 7, шакше - пункт 11.

11. Визначення оптимально! пари фокушв контейнера класу Xj :

* * (p) (p) < xm1,xm2 > = argmaxEm(< >) .

(p}

12. cm := cm +1.

13. Якщо ст < dmта сm < N / 2, то виконуеться пункт 4, шакше - пункт 14.

* *

14. Визначення оптимального значення фокально! вщсташ: cm = arg max Em.

(cm}

15. Якщо m < M , то виконуеться пункт 2, шакше - пункт 16.

16. ЗУПИН.

Оптимiзацiя вибору кшькост кластeрiв розбиття м, базового кластера XБ е{хт|т = 1,м} та мiнiмально! кiлькостi вeкторiв-рeалiзацiй в кластeрi (40 < wm;n < n /M) здiйснюеться шляхом пошуку глобального максимуму КФЕ в робочш обласп визначення його функцп. При збшьшенш з певним кроком nmjn на етат паралель-но! оптимiзацi! СКД може бути вщсутня робоча область КФЕ. В такому разi як квазюпти-мальний вектор СКД для алгоритму послщовно! оптимiзацi! СКД можна використати вектор СКД з попереднього кроку за умови вибору того самого базового кластера. Вибiр значення nmjn впливае на стутнь узагальнення вхщних даних !х розбиттям лшшною структурою кластeрiв i на кшьюсть некластеризованих даних. Одночасна оптимiзацiя м та nmin здiйснюе оптимальне розбиття на кластери з однаковим ступенем узагальнення даних.

Таким чином, алгоритм самонавчання шформацшно-екстремально! СППР полягае в iтeрацiйнiй процeдурi наближення глобального максимуму шформацшного КФЕ (10) до його граничного значення шляхом оптимiзацi! парамeтрiв функщонування СППР.

3. Приклад реалiзащТ здатноТ самонавчатися системи пiдтримки прийняття

[.мшень

Запропонованi алгоритми рeалiзовано у виглядi iнтeлeктуально! СППР, що е складовою частиною АСК процесом вирощування великогабаритних сцинтиляцшних монокристалiв за модифiкованим методом Чохральського на установщ типу «РОСТ 5», яка експлуатуеться в науково-техшчному комплекс "1нститут монокристатв" (м. Харюв, Укра!на) [8].

Тeхнологiчний цикл вирощування подшений на iнтeрвали аналiзу даних, для кожного з яких проводиться окреме самонавчання СППР. У прикладi розглянемо самонавчання

СППР на часовому iнтервалi вiд моменту досягнення довжини кристала 25 см i до моменту досягнення довжини 40 см iз завданням стабшзацп дiаметра монокристала, який дорiвнюe 55 см.

Обсяг некласифшовано! навчально! матриц складае п = 450, а розмiрнiсть структурова-них векторiв-реалiзацiй, що визначае кiлькiсть ознак розшзнавання, становить N = 30 . При цьому 15 первинних ознак характеризують рiзнi параметри теплових умов вирощування i стану локальних регуляторiв, а як вторинш ознаки використовуються рiзницi першого та другого порядкiв над послщовностями найбiльш iнформативних трендiв основних ознак.

Для найбшьш достовiрноl оцшки ефективностi розробленого методу кластеризацп та обгрунтованосп отриманих структур кластерiв використовуеться зовшшня валiдацiя результату кластеризацп за статистикою Ренда, суть яко! полягае в порiвняннi результату кластеризацп з ручним розбиттям даних на класи [4,9]. Експертна апрюрна класифшащя навчально! вибiрки з аривних даних вирощування монокристашв здiйснювалась за оцшками лабораторного контролю оптичних характеристик (рентгено-дефектоскотя), за вимiрами вiдхилень дiаметра монокристала вщ норми та за даними юторп аварiйних ситуацiй. У результат вхiдну некласифiковану матрицю було розбито на п'ять клашв по 90 векторiв-реалiзацiй в кожному. Ц класи характеризували якiсть монокристалу i вiдповiднi функцю-нальнi стани АСК.

Вибiр оптимально! кiлькостi кластерiв для алгоритму кластеризацп здшснювався за максимумом усередненого КФЕ, а зовшшня валщащя такого вибору здшснювалась за максимумом шдексу Ренда, що показано на рис.2. Заштрихована дшянка графiка (тут i далi) позначае робочу область визначення шформацшного КФЕ.

Рис. 2. Графш залежност! усередненого нормованого шформацшного КФЕ та !ндексу Ренда вщ

задано!' к!лькост! кластер!в розбиття

Аналiз рис. 2 показуе, що алгоритм ефективно виршуе задачу визначення кшькосп кластерiв. При цьому за оптимальну кшьюсть кластерiв обираеться максимальне !х число, що забезпечуе максимум КФЕ навчання, тобто М = 5.

Вибiр оптимального значення пт^п мшмально! кшькосп векторiв-реалiзацiй в кластерi здiйснюеться за максимумом усередненого КФЕ (3), а зовшшня валщащя результату кластеризацп для кожного значення пт^п здшснюеться за максимумом шдексу Ренда. Залежшсть КФЕ вщ параметра п 1ТШ1 при кшькосп кластер!в М = 5 показано на рис.3.

1,00

0,85 0,80

— II 1

1 я 11 щ 1 ~*~Е 1 ..♦» R

1

40 45 50 55 60 65 70 75 80 85 пп

Рис. 3. Графш залежност! усередненого нормованого КФЕ та !ндексу Ренда вщ значення мшмально! к!лькост! вектор!в-реал!зацш в кластер! при г!персферичних виршальних правилах для к!лькост!

кластер!в М = 5

Аналiз рис. 3 показуе, що при пт,п = 87 критерiй валщацп Ренда досягае свого максимуму, проте гшерсферичш вирiшальнi правила не забезпечують побудову чiткого розбиття простору ознак на кластери. Тому для прийняття пт,п = 87 за оптимальне значення необхiдно здiйснити гшерелшсощну корекцда вирiшального правила з метою отримання безпомилкового класифшатора.

Процес оптимального вибору базового кластера розглянемо при пт|п = 80. Пстограму залежностi усередненого нормованого шформацшного КФЕ при паралельнш оптимiзацп СКД за гiперсферичними виршальними правилами показано на рис.4.

Рис.4. Пстограма залежносп усередненого нормованого КФЕ та 1ндексу Ренда вщ вибору базового кластера X Б при М = 5 1 гшерсферичних виршальних правилах

Аналiз рис. 4 показуе, що оптимальним е вибiр XБ о XПроцес паралельно! та послщовно! оптимiзацil СКД при М = 5 , XБ о X2 i пт|п = 80 показано на рис. 5.

1,0 0,8 0,6 0,4 0,2 0,0

г, —ч И" л__ .....

-А { Г""

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

V > И - А

\

--,—

10 20 30 40

а б

Рис. 5. Граф1ки залежносиъ КФЕ та вдексу Ренда вщ змши параметра 5 при М = 5 , пт|п = 80 1 X Б О X 2 : а - паралельна оптишзащя СКД; б - послщовна оптишзащя СКД Аналiз рис. 5,а показуе, що на етат паралельно! оптимiзацi! СКД було отримано квазюп-тимальне значення 5[ = 30, при якому КФЕ приймае максимальне значення Е = 0,833 . Аналiз рис. 5,б показуе, що алгоритму послщовно! оптимiзацi! СКД, який стартуе при 51 = 30, на ггерацп к = 863 вдалося побудувати безпомилковi вирiшальнi правила.

При подальшому збiльшеннi пт1п на етапi паралельно! оптимiзацi! СКД вiдсутня робоча область, тому як стартове значення СКД для алгоритму послщовно! оптимiзацi! використано 51 = 30. Динамшу змши шформацшного КФЕ та шдексу Ренда в процес послщовно! ошгашзацп при птш = 85 i пт^п = 87 показано на рис.6.

Аналiз рис. 6 показуе, що при М = 5, XБ оX2 для пт1п = 85 вдалося побудувати безпомилковi гiперсферичнi вирiшальнi правила, а для п тт = 87 - не вдалося, але iндекс Ренда майже досягае свого максимального значення i дорiвнюе Я = 0,99. При цьому процес послщовно! оптимiзацi! i знаходження глобального максимуму шформацшного КФЕ складався вщповщно з 245 i 611 iтерацiй, що е порiвняно високою оперативнiстю.

а б

Рис. 6. Граф1ки зм1ни шформащйного КФЕ та вдексу Ренда в процеа послщовно! оптишзацп СКД

при М = 5 , XБ о X2 : а - пт1п = 85; б - пт1п = 87

Для тдвищення ефективносп виршальних правил було реалiзовано процес гшерелшсо!-дно! корекцi! вирiшальних правил. На рис.7 показано процес оптимiзацi! фокально! вщсташ контейнера кожного класу з обмеженнями ст < ёп

i ст < N/2 .

Е1

1,0 0,8 0,6 0,4 0,2 0,0

к

^т >

0123456789 С1

г д

Рис. 7. Граф1ки залежносп iнформацiйного КФЕ для кожного кластера вщ фокально!' вщсташ його

контейнера при М = 5, ХБ О X2

пт

= 87 : а - клас Х1° ; б - клас X0; в - клас ; г - клас

X 0 ; д - клас X 50

Аналiз рис.7 показуе, що оптимальнi фокальш вiдстанi для контейнерiв кластерiв вщпо-вiдно дорiвнюють С1 = 2, с 2 = 2, С3 = 2, С4 = 2, с* = 2. При цьому в результат гшерелш-со!дно! корекцп контейнера кластера X0 вдалося отримати безпомилковi вирiшальнi правила i високий показник зовшшньо! валiдацi! результату кластеризацп. Процес оптимального вибору пар фокуив для контейнера кластера X0 при оптимальнш фокальнiй вiдстанi с2 = 2 при М = 5 , XБ о X0 , пт;п = 87 показано на рис. 8.

Аналiз рис.8 показуе, що для знаходження оптимально! пари фокуив на фокальнш

*

вщсташ с 2 = 2 контейнера кластера X 0 алгоритму гшерелшсощно! корекцп довелося перебрати 122 пари фокуав.

Таким чином, в результат кластеризацп даних за шформацшно-екстремальним алгоритмом вдалося побудувати чггке розбиття простору ознак на кластери, практично щентичне

б

а

в

розбиттю, побудованому в бшарному npocTopi ознак розтзнавання за anpiopHO класифшо-ваною навчальною матрицею, що мiстить аналопчш pеaлiзaцiï клaстеpiв.

Е2

Рис. 8. Графж залежносп нормованого шформацшного КФЕ для кластера X| ввд вибору пар фокуав контейнера на оптимальнш фокуснш ввдсташ

Висновки

Запропонований алгоритм шформацшно-екстремального самонавчання СППР, що функ-цioнуe в pежимi клaстеp-aнaлiзу, дозволив, використовуючи мoдифiкaцiю методу k -се-pеднiх для бiнapнoгo простору ознак розтзнавання, здшснити клaстеpизaцiю вхщних даних i побудувати чiтке розбиття простору ознак poзпiзнaвaння на кластери. Фiзичне моделюван-ня за даними apхiвнoï iстopiï вирощування сцинтиляцiйних монокристатв показало, що використання розроблених алгоршмв для oптимiзaцiï пapaметpiв навчання СППР, яка е складовою частиною АСК процесу вирощування великогабаритних сцинтиляцшних моно-кpистaлiв з розплаву, забезпечило високу стутнь збiжнoстi розбиття вхщних даних, побудо-ваного за aпpiopнo класифшованою навчальною матрицею, з розбиттям, побудованим в процеа шформацшно-екстремально1' клaстеpизaцiï.

Список лтратури: 1. Симанков В. С. Адаптивное управление сложными системами на основе теории распознавания образов / В. С. Симанков, Е. В. Луценко. Краснодар: техн. ун -т Кубан. гос. технол. ун -та. 1999. 318 с. 2. Ситник В. Ф. Системи щдтримки прийняття ршень: Навч. поаб. / В. Ф. Ситник. К.: КНЕУ, 2004. 614 с. 3. Турбович И. Т. Опознавание образов. Детерминированно-статистический подход / И. Т. Турбович, В. Г. Гитис, В. К. Маслов. М.: Наука, 1971. 246 с. 4.XuR., WunschIID.C. (2009) Clustering, Wiley and Sons. 5. Довбиш А. С. Основи проектування штелектуальних систем: Навч. поабник / А. С. Довбиш. Суми: Видавництво Сум ДУ. 2009. 171 с. 6. Москаленко В.В. 1нформацшно-екстремальне навчання системи щдтримки прийняття ршень з адаптивною кластеризащею даних / В.В. Москаленко // Вкник СумДУ. Сеpiя техшчш науки. 2012. №3. С.80-95. 7. Кузьмин И.В. Оценка эффективности и оптимизация автоматизированных систем контроля и управления / И.В. Кузьмин. М.: Сов. радио, 1971. 296 с. 8. Суздаль В. С. Сцинтилляционные монокристаллы: автоматизированное выращивание / В.С. Суздаль, П.Е. Стадник, Л.И. Герасимчук, Ю.М. Епифанов. Х. : ИСМА, 2009. 260 с. 9. Maria Halkidi, Yannis Batistakis, Michalis Vazirgiannis, "On Clustering Validation Techniques", Journal of Intelligent Information Systems, Volume 17 Issue 2-3, December 2001. P. 107-145.

Надшшла до редколегИ' 19.09.2012 Москаленко В'ячеслав Васильович, астрант кафедри комп'ютерних наук Сумського державного ушверситету. Нaукoвi тереси: штелектуальш системи керування технолопч-ними процесами. Адреса: Украша, 40035, Суми, вул. Н.-Сироватська, 66, кв. 84, м.т. +380664291318, e-mail: systemscoders@gmail.com.

Інформаційно-екстремальна кластеризація даних Текст научной статьи по специальности «Электротехника, электронная техника, информационные технологии»

Аннотация научной статьи по электротехнике, электронной технике, информационным технологиям, автор научной работы — Москаленко В’Ячеслав Васильович

Похожие темы научных работ по электротехнике, электронной технике, информационным технологиям , автор научной работы — Москаленко В’Ячеслав Васильович

Information-extreme data clustering

Текст научной работы на тему «Інформаційно-екстремальна кластеризація даних»