Литература
1. Хайкин, С. Нейронные сети: полный курс [Текст] У C. Хайкин. - М.: Изд. дом «Вильямс», 2006. - 1104 с.
2. Pao, Y. H. Adaptive Pattern Recognition and Neural Networks [Text] У Y. H. Pao. - Reading, MA: Addison-Wesley, 1989 - 320 p.
3. Yang, S.-S. An ortonormal neural network for function approximation [Text] У S.-S. Yang, C.-S. Tseng УI IEEE Transactions on Systems, Man, and Cybernetics. - 1996. - Vol. 26, № 12. - P. 925-935.
4. Lee, T. T. The Chebyshev polynomial-based unified model neural networks for function approximation [Text] У T. T. Lee, J. T. Jeng Ц IEEE Transactions on Systems, Man, and Cybernetics. - 1998. - Vol. 28, № 12. - P. 925-935.
5. Patra, J. C. Nonlinear dynamic system identification using Chebyshev functional link artificial neural networks [Text] У J. C. Patra, A. C. Kot Ц IEEE Transactions on Systems, Man, and Cybernetics. - 2002. - Vol. 32, №4. - P. 505-511.
6. Бодянский, Е. В. Искусственные нейронные сети: архитектуры, обучение, применение [Текст] У Е. В. Бодянский, О. Г. Руденко УУ Харьков. ТЕЛЕТЕХ, 2004. - 372 с.
7. Бидюк, П. И. Методы прогнозирования [Текст] : Т. V П. И. Бидюк, О. С. Меняйленко, О. С. Половцев. - Луганск: Альма-матер, 2008 - 301 с.
8. Бидюк, П. И. Методы прогнозирования [Текст] : Т. 2 У П. И. Бидюк, О. С. Меняйленко, О. С. Половцев. - Луганск: Альма-матер, 2008 - 305 с.
9. Райбман, Н. С. Построение моделей процессов производства [Текст] У Н. С. Райбман, В. М. Чадеев. - М.: Энергия, 1975. - 376 с.
10. Бодянский, Е. В. Ортосинапс, ортонейроны и нейропредиктор на их основе [Текст] У Е. В. Бодянский, Е. А. Викторов, А. Н. Слип-ченко Ц Системи обробки шформації. - 2007. - Вип. 4 (62). - С. 139-143.
11. Бодянский, Е. В. Субоптимальное управление стохастическими процессами [Текст] У Е. В. Бодянский, С. Г. Удовенко, А. Е. Ачкасов, Г. К. Вороновский. - Харьков: Основа, 1997. - 140 с.
12. Перельман, И. И. Оперативная идентификация объектов управления [Текст] У И. И. Перельман. - М: Энергоатомиздат, 1982. - 272 с.
-------------------------□ □------------------------------
В роботі представлено загальний метод кластериза-ції об’єктів, що використовує нечіткі бінарні відношення для визначення міри близькості векторів ознак об’єктів за «кутовою» та «довжинною» напівметриками. Даний метод реалізований у вигляді трьох алгоритмів. Програмна реалізація даного методу показала його ефективність при розв’язанні різних прикладних задач та простоту в застосуванні
Ключові слова: кластерний аналіз, кластер, нечіткі бінарні відношення, розбиття об’єктів, кластеризація об’єктів
□----------------------------------□
В работе представлено общий метод кластеризации объектов, использующий нечеткие бинарные отношения для определения меры близости векторов признаков объектов по «угловой» полуметрике и полуметрике длины. Данный метод реализован в виде трех алгоритмов. Программная реализация данного метода показала его эффективность при решении различных прикладных задач и простоту в применении
Ключевые слова: кластерный анализ, кластер, нечеткие бинарные отношения, разбиение объектов, кластеризация объектов
-------------------------□ □------------------------------
УДК 519.8
ДЕЯКІ МЕТОДИ АВТОМАТИЧНОГО ГРУПУВАННЯ ОБ'ЄКТІВ
Н. Е. Кондрук
Кандидат технічних наук, доцент Кафедра кібернетики і прикладної математики Ужгородський національний університет пл. Народна, 3, м. Ужгород, Україна, 88000 Е-mail: kondrukne@gmail.com
1. Вступ
В останні десятиліття спостерігається ріст інтересу до нового напрямку в обробці інформації - інтелектуальному аналізу даних (Data Mining).
В запропонованій роботі розглядається часткова задача інтелектуального аналізу даних - задача
кластерного аналізу, відома як задача автоматичного групування об’єктів, класифікації без учителя або таксономії.
Кластерний аналіз (англ. Data clustering) - задача розбиття заданої вибірки об’єктів на підмножини (кластери), так, щоб кожен кластер складався з схожих об’єктів, а об’єкти різних кластерів істотно відрізнялися.
21і|............................................................................................................................................................
©
Кластерний аналіз, на відміну від більшості ма-тематико-статистичних методів, не накладає ніяких обмежень на вид об’єктів розбиття і дозволяє розглядати множини початкових даних практично довільної природи та дозволяє проводити розбиття об’єктів не лише по одному параметру, а й по цілому набору ознак. Крім того, кластерний аналіз дозволяє розглядати достатньо великий об’єм інформації і різко скорочувати, стискати великі масиви інформації довільної природи, робити їх компактними і предметними. Тому даний вид аналізу є актуальним і широко застосовується в інформаційних системах, медицині, психології, хімії, біології, державному управлінні, філології, маркетингу, соціології та інших дисциплінах.
Однак широта застосування породжує проблеми узгодженості та однозначності математичного апарату кластерного аналізу [1].
Зокрема, взявши до уваги, що дані кластеризації можуть мати різний фізичний зміст, а також те, що критерії схожості об’єктів не є універсальними і можуть визначатись для різних прикладних задач по різному, то актуальним є побудова альтернативних (до вже відомих) мір схожості, які задовольняють виникаючі потреби до групування об’єктів нових прикладних задач. Розв’язанню вищеозначеної проблеми і присвячена дана робота.
2. Аналіз літературних даних та постановка проблеми
Розглянемо загальну задачу кластерного аналізу в наступній постановці.
Нехай дано деякі об’єкти 01,...,0т , які характеризуються п кількісними ознаками
Позначимо (с1,с2,...,сП) - вектор ознак, що характеризує об’єкт із номером і. Таким чином, кожному об’єкту_О(,і = 1,т ставиться у відповідність вектор ознак с (с1,с2,...,сП), і = 1,т .
Потрібно розбити дані об’єкти 0;,і = 1,т на групи «схожості» по всіх п ознаках. Для цього, з математичної точки зору, потрібно розв’язати задачу кластеризації векторів ознак с; (с1,с2, ,сП), і = 1,т .
Розв’язання задач кластеризації принципове неоднозначне [1], і цьому є декілька причин: не існує однозначно якнайкращого критерію якості кластеризації; число кластерів, як правило, невідоме заздалегідь і встановлюється відповідно до деякого суб’єктивного критерію; результат кластеризації істотно залежить від обраної метрики.
Існує багато методів кластеризації, але загальноприйнятої їх класифікації не існує. Найпопулярні-шими з них є метод к-середніх [2], самоорганізуюча карта Кохонена [3], ієрархічна кластеризація [4] або таксономія [5] та інші. З більш детальним аналізом методів кластеризації можна ознайомитись в [6 - 8].
Методика кластерного аналізу базується на поняттях подібності об’єктів або їх ознак. За допомогою підбору найбільш «подібних» об’єктів виконується розподіл сукупності на кластери (групи). Мірою подібності, як правило, виступає відстань між об’єктами, на основі якої і побудовані різні види метрик та напів-метрик [7 - 9].
Існує цілий клас задач [10 - 12], із фізичного змісту яких слідує, що потрібно провести кластеризацію
об’єктів О;,і = 1,т , взявши за міру схожості векторів С;, і = 1,т «кутову» та «довжинну» близькість між ними.
Таким чином, ставиться задача визначення «кутової» напівметрики та _напівметрики довжини між векторами ознак с(, і = 1,т та розробки методу кла-стеризації, що їх використовує.
3. Мета та задачі дослідження
Метою роботи є підвищення ефективності розв’язання задач кластерного аналізу шляхом розробки загального методу та алгоритмів кластеризації об’єктів основаних на «кутовій» та «довжинній» метриках та бінарних відношеннях.
Для досягнення мети в роботі необхідно розв’язати наступні задачі: розробити загальний метод кла-стеризації об’єктів оснований на нечітких бінарних відношеннях; визначити напівметрики, що характеризуватимуть міри близькості векторів ознак обєктів за «кутовою» та «довжиною» схожістю; побудувати алгоритми кластеризації основані на групуванні об’єктів за введеними кутовою та довжинною напів-метриками.
4. Розробка методу та алгоритмів кластеризації об’єктів основаних на нечітких бінарних відношеннях
Для розв’язання поставленої задачі пропонується використати математичний апарат нечітких множин та нечітких бінарних відношень.
Нехай задано деяке нечітке бінарне відношення Я , що характеризує міру подібності двох об’єктів 0; та Оі за значенням функції належності фЯ (с^с) близькості їх векторів ознак. Причому, чим подібніші об’єкти, тим фЯ буде ближче до 1.
Автором пропонується загальний метод кластеризації об’єктів заснований на нечітких бінарних відношеннях описаний у вигляді наступних кроків.
Крок 1. Визначаємо число ц* є[0,1], що визначає поріг схожості об’єктів. Очевидно чим ближче значення ц* до одиниці, тим більше буде кількість кінцевих кластерів розбиття. _
Крок j. Серед векторів С; , які ще не віднесені до жодного кластеру вибираємо деякий домінантний с*. Якщо для деякого с; виконується Ф (с*,С;)>ц*, то тоді даний вектор с; відноситься до кластеру К .
Завершення процесу виконання ітерацій алгоритмів гарантується тим, що умови кластеризації Ф (с*,с; )>ц* завжди виконуються хоча б для одного із векторів - домінантного, тобто при і = і* (кожен вектор «близький» сам із собою). Тому не буде утворюватись «пустих» кластерів на кожному кроці.
Задамо два нечіткі бінарні відношення Я і Як , за допомогою яких визначатимемо міри схожості векторів за «кутовою» та «довжиною» напівметриками.
Введемо бінарне відношення Я із функцією належності ф&а: { с; | і = 1,т} ^ (0,1]:
Е
Ф Rd (C,-Cj) = -
A- c - c.
A
(1)
де Д = тах|с^|, і = 1,т, ] = 1,т .
Дане нечітке бінарне відношення характеризує різницю між довжинами векторів с і . Причому, чим менша різниця між довжинами, тим ф&а буде ближче до 1. І навпаки, чим ця різниця більша тим ф&а буде ближче до нуля. Таким чином, величина ф&а буде визначати близькість векторів с;, і = 1,т за довжиною.
Бінарне відношення Як із функцією належності фяк :{с(|і = 1,т} ^[0,1] визначається за формулою:
Ф Rk (Cl’Cj) = "
2
, 1 = 1,m, j = 1, m.
(2)
Воно характеризує кут відхилення між векторами С1 і Cj . Очевидно, чим менший кут відхилення між c1 і c1 , тим значення ф^ буде ближчим до 1, і навпаки, чим більшим є цей кут тим ф^ буде ближче до нуля. Величина ф^ буде визначати близькість векторів c1, i = 1,m за кутом.
Із вищеозначеного методу та введених напівметрик можна запропонувати наступні алгоритми кластери-зації.
Алгоритм 1.
Крок 0.
Задаємо деяке число цк близьке до одиниці. Задане число буде характеризувати поріг близькості векторів c1, 1 = 1,m за кутом між ними.
Крок 1. _ _ ____
Позначимо F1 = {c1|1 = 1, m} , а I1 = { ф = 1,m} . Се-
ред векторів c1 eF1 вибираємо деякий домінантний c_ . За домінантний вектор можна, наприклад, взяти «найбільш ізольований», тобто для якого виконується ф1.. = maxф^ , причому ф^ = ф^ (c1, cj) ,
11 j 1,jEl1 \ ’
___ _______ 1*j
1 = 1, m, j = 1, m .
1. Із векторів c1 eF1, для яких ф t(c1.,cj)>Цк створимо кластер K1.
2. Позначимо F2 = F1 \K1, а I2 = {ї|c1 eF2} .
Крок t. _ _
1. Серед векторів c1 eF1 вибираємо домінантний c.
1 1t
так само як і на кроці 1.
2. Із векторів c1 e Ft, для яких ф t (c1. ,c.) > цк , створимо кластер Kt.
3. Позначимо Ft+1 = Ft\Kt, а It+1 = {1 |c” eFt+1}.
Процес завершуємо на деякому кроці T, якщо ф t (c1,c. )>Цк для будь-яких 1,j eIT+1. Причому KT+1 = F™
Даний алгоритм проводить кластеризацію векторів c1, 1 = 1,m конусами (рис. 1).
Рис. 1. Приклад можливої кластеризації векторів c1,1 = 1,15 алгоритмом 1
Алгоритм 2.
Крок 0.
1. Задаємо деякі числа цк , близькі до одиниці. Дані величини будуть характеризувати пороги близькості векторів c1, 1 = 1,m за кутом та довжиною відповідно.
2. Позначимо Фк = {ф^} , де ф^ =ФRk (c1,c.) ,
1 = 1, m, j = 1, m .
Крок 1.
1. Позначимо F1 = {c111 = 1,m}, а I1 = { = 1,m} . Се-
ред векторів c1 eF1 знайдемо домінантний c1. для якого виконується умова ф. .. = max ф1..
11 j 1.єҐ j 1*j
2. Відносно домінантного вектора c1. будуємо множину-конус f ={c1|c1 eF11 фRk (c1,c1.)>Цк}.
3. Створимо кластер K1, фільтруючи елементи із множини f : K1 = {c1|c1 e¥1. 1 фRd (c1,c1. )>Ца} .
4. Позначимо F2 = F1 \K1, а I2 = {1 |c1 e F2} .
Крок t. _ __
1. Серед векторів c1 e Ft виберемо домінантний c1.,
для якого виконується ф... = max фн .
1tj 1^jeIt j 1* j
2. Будуємо множину-конус f. = {a|c eFt 1 фRk (c1,c1.. )>Цк} .
3. Фільтруємо елементи f :
Kt ={^1 ef, 1 фRd (c1,c1;)>^d} .
4. Позначимо Ft+1 = Ft\Kt, а It+1 = { 1 |c”eFt+1} .
Процес завершуємо на деякому кроці T, якщо
ф Rk (c1,cj)>^k і ф Rd (c1,cj)>^d для будь-яких 1,j eIT+1. Причому KT+1 = FT+1.
c
c
Даний алгоритм проводить дворівневу кластериза-цію векторів ср і = 1,т : на першому рівні конусами, а на другому сферами в середині кожного конусу. Алгоритм 3.
Крок 0.
Задаємо деяке число близьке до одиниці. Задане число буде характеризувати поріг близькості векторів ср і = 1,т за їх довжиною.
Крок 1. _ ___ ___
3. Позначимо F1 = {сі |і = 1, т}, а I1 = { і|і = 1,т} . Серед
векторів с єF1 вибираємо деякий домінантний с_ .
і*
Домінантним вектором може бути:
а) вектор, який задасть особа, що приймає рішення (ОПР) на основі відповідного домінантного об’єкту;
б) вектор, довжина якого є найбільшою, тобто
5. Обчислювальний експеримент
c.J = max CII 41 Іє][^ II
в) вектор, для якого відповідно ф .. = max фм , при-
i1j .I1 j
чому Фij = фRd (ci, Cj), i = 1, m, j = 1, m .
4. Із векторів ci єF1, для яких ф d(ci. ,Cj)>^d, створимо кластер K1.
5. Позначимо F2 = F1 \ K1, а I2 = {i |ci є F2} .
Крок t. _ _
4. Серед векторів ci єFt вибираємо домінантний c. ,
так само як і на кроці 1.
5. Із векторів ci єFt, для яких ф (c..,c. j>^d ство-
i Rd it j d
римо кластер Kt.
6. Позначимо Ft+1 = Ft\Kt, а It+1 = {i |ci єFt+1}.
Процес завершуємо на деякому кроці T , якщо
ф ,,(^,0.)>^d для будь-яких i,jєIT+. Причому KT+1 = FT+1.
Даний алгоритм проводить кластеризацію векторів ci, i = 1,m сферами (рис. 2).
Основні ідеї, представлені в даній роботі, були використані для створення системи підтримки прийняття рішень для лікаря-дієтолога «Дієтолог» [12]. Даний програмний пакет реалізований в середовищі Delphi 5 і використовуються для складання індивідуалізованих дієт задач збалансованого харчування та дієтотерапії. Використана математична модель задачі збалансованого харчування представлена в [10] і описана на основі векторної задачі лінійного програмування із критеріальним простором великої розмірності. При розв’язанні даної задачі критеріальний простір задачі розбивається на кластери за допомогою алгоритму 1 при значенні порога цк = 0,8 та використаний загальний підхід описаний в [11].
6. Висновки
Рис. 2. Приклад можливої кластеризації векторів ci,i = 1,14 алгоритмом 3
Таким чином, в даній роботі розроблено загальний метод кластеризації об’єктів, заснований на нечітких бінарних відношеннях, який є альтернативним до вже існуючих в застосованій методології його побудови. Даний метод дає можливість кластеризувати об’єкти, якщо міра їх схожості може бути виражена у вигляді нечіткого бінарного відношення. Також, автором вперше у вигляді нечітких бінарних відношень визначено напівметрики, що характеризують міри близькості векторів ознак об’єктів за «кутовою» та «довжинною» схожістю. На основі запропонованого методу побудовано алгоритми кластеризації, що групують об’єкти за введеними «кутовою» та «довжинною» напівметри-ками.
Представлені математичні засоби дозволяють розв’язувати деякі специфічні класи задач кластери-зації, що, зокрема, виникають в процесі кластеризації критеріального простору векторних задач лінійного програмування із великою критеріальною розмірністю.
Література
1. Estivill-Castro, V. Why so many clustering algorithms — A Position Paper [Text] / V. Estivill-Castro // ACM SIGKDD Explorations Newsletter. - 2002. - Vol. 4 (1). -P. 65-75.
2. Huang, Z. Extensions to the k-means algorithm for clustering large data sets with categorical values [Text] / Z. Huang // Data Mining and Knowledge Discovery. -1998. - Vol. 2. - P. 283-304.
3. Mingoti, S. Comparing SOM neural network with Fuzzy c-means, K-means and traditional hierarchical clustering algorithms [Text] / S. Mingoti, J. Lima // European Journal of Operational Research. - 2006. - Vol. 174 (3). -P. 1742-1759.
4. Szekely, G. J. Hierarchical clustering via Joint Between-Within Distances: Extending Ward’s Minimum Variance Method [Text] / G. J. Szekely, M. L. Rizzo // Journal of Classification. - 2005. - Vol. 22. - P. 151-183.
5. Bailey, K. Numerical Taxonomy and Cluster Analysis [Text] / K. Bailey. - Typologies and Taxonomies, 1994. - 34 p.
уз
6. Jain, A. K. Flynn Data clustering: a review [Text] / A. K. Jain, M. N. Murty // ACM Comput. Surv. - 1999. - Vol. 31(3). -P. 264-323.
7. Пістунов, І. М. Кластерний аналіз в економіці [Текст] / І. М. Пістунов, О. П. Антонюк та ін. - Дніпропетровськ: Національний гірничий університет, 2008.- 84 с.
8. Ким, Дж. Факторный, дискриминантный и кластерний анализ [Текст] / Дж. Ким, Ч. У. Мьюллер, У. Р. Клекка. - М.: Финансы и статистика, 1989. - 215 с.
9. Дюран, Б. Кластерный анализ [Текст] / Б. Дюран, П. Оделл. - М.: «Статистика», 1977. - 128 с.
10. Кондрук, Н. Е. Застосування багатокритеріальних моделей для задач збалансованого харчування [Текст] / Н. Е. Кондрук, М. М. Маляр // Вісник Черкаського державного технологічного університету. Серія: технічні науки. - 2010. - Вип. 1, № 1. -С. 3-7.
11. Кондрук, Н. Э. Некоторые применения кластеризации критериального пространства для задач выбора [Текст] / Н. Э. Кондрук, Н. Н. Маляр // Компьютерная математика. - 2009. - № 2. - С. 142-149.
12. А61К8/19, А61К8/30, МПК (2006.01). Патент на корисну модель 64777 Україна. Спосіб автоматизованого складання дієтичного харчування «Дієтолог» [Текст] / Маляр М. М., Кондрук Н. Е., Горленко О. М., Томей А.І . - № u201100007; Заявл. від 04.01.2011; Опубл. 25.11.2011, Бюл.№ 22.
-----------------□ □---------------------
В роботі запропонована інформаційна технологія прогнозування нестаціонарних часових рядів, яка не зводяться до стаціонарних, характерізуються нелінійним трендом та завуальованимі періодичними компонентами. З метою побудови моделі прогнозування визначається поведінка компонент часового ряду у декілької фазових просторах, побудованних з використанням методу сингулярного спектрального аналізу (ББА)
Ключові слова: часовий ряд, прогнозування, інформаційна технологія, сингулярний спектральний аналіз, фазовий простір
□----------------------------------□
В работе предложена информационная технология прогнозирования нестационарных временных рядов, которые не приводятся к стационарным, характеризуются нелинейным трендом и завуалированными периодическими компонентами. Для построения модели прогнозирования определяется поведение компонент временного ряда в нескольких фазовых пространствах, построенных с использованием метода сингулярного спектрального анализа (ББА) Ключевые слова: временной ряд, прогнозирование, информационная технология, сингулярный спектральный анализ, фазовое пространство -----------------□ □---------------------
1. Введение достоверные оценки возможного развития изучаемых
явлений, изменения технико-экономических показа-Прогнозирование является одним из решающих телей и событий в будущем. элементов эффективной организации управления Применение прогнозирования в информационных
предприятиями вследствие того, что результат при- технологиях (ИТ) позволит воздействовать на уско-
нимаемых решений в большой степени определяется ренный процесс анализа, обработки, распростране-
качеством прогнозирования их последствий. Поэтому ния и использования обширной базы информации, а
решения, принимаемые сегодня, должны опираться на также своевременно принимать управленческие ре-
УДК 517.534
ИНФОРМАЦИОННАЯ ТЕХНОЛОГИЯ ПРОГНОЗИРОВАНИЯ НЕСТАЦИОНАРНЫХ ВРЕМЕННЫХ РЯДОВ С ИСПОЛЬЗОВАНИЕМ СИНГУЛЯРНОГО СПЕКТРАЛЬНОГО АНАЛИЗА
А. А. Чистякова
Аспирант*
Е-mail: anna.chistyakova.prn@gmail.com Б. В. Шамша
Кандидат технических наук, профессор* Е-mail: shamsha.b.v@gmail.com *Кафедра информационных управляющих систем Харьковский национальный университет радиоэлектроники пр. Ленина, 16, г. Харьков, Украина, 61166