Научная статья на тему 'Метод интеллектуального анализа данных для формирования описаний обстановки в информационно-аналитических системах'

Метод интеллектуального анализа данных для формирования описаний обстановки в информационно-аналитических системах Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
238
56
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Миргалеев А.Т., Тутов А.А.

Рассмотрен метод интеллектуальногоанализа данных для формированияописаний обстановки в информационно-аналитических системах на основеалгоритмов кластеризации MST и Fuzzy Cmeans.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Метод интеллектуального анализа данных для формирования описаний обстановки в информационно-аналитических системах»

Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 4 Курск: Науком, 2012. - 128 с., ил. ISBN 978-5-4297-0004-5

УДК 004.62

Работа выполнена при финансовой поддержке Министерства образования и науки РФ в рамках ФЦП «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2007 - 2013 гг.», государственный контракт № 07.514.11.4115.

Миргалеев А.Т., Тутов А.А.

МЕТОД ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ ДЛЯ ФОРМИРОВАНИЯ ОПИСАНИЙ ОБСТАНОВКИ В ИНФОРМАЦИОННО-АНАЛИТИЧЕСКИХ СИСТЕМАХ

Рассмотрен метод интеллектуального анализа данных для формирования описаний обстановки в информационноаналитических системах на основе алгоритмов кластеризации MST и Fuzzy C-means.

Особенности данных, используемых в ИАС для описания последствий ЧС, определяют ряд требований к методам интеллектуального анализа данных:

- учет разнородности моделей, используемых для описания обстановки на территориях субъектов РФ и отсутствие механизмов их интеграции;

- необходимость адаптации и сопряжения с существующими методиками прогнозирования ЧС;

- учет неопределенности, нечеткости, неточности, неполноты.

Методы, основанные на кластеризации, рассмотренные в работах

[1 - 7], могут быть использованы в ИАС для формирования описания последствий ЧС в подразделениях ОВ. Вместе с тем четкое разделение на кластеры возможно только в «идеальных» условиях и при сильно различающихся параметрах объектов кластеризации. Поэтому для решения задач интеллектуального анализа данных в ИАС ОВ субъектов РФ целесообразно применять нечеткие методы кластеризации, в которых разбиение данных выполняется на частично пересекающиеся под-множества.

109

Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 4 Курск: Науком, 2012. - 128 с., ил. ISBN 978-5-4297-0004-5

Разработан метод интеллектуального анализа данных в ИАС на основе алгоритмов MST и Fuzzy C-means. Схема метода представлена на рис. 1.

Рис. 1 - Схема метода интеллектуального анализа данных в ИАС

110

Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 4 -Курск: Науком, 2012. - 128 с., ил. ISBN 978-5-4297-0004-5

Входные данные метода:

1 =(«> *2 - in \ - множество наблюдаемых и контролируемых

параметров обстановки на территории субъекта РФ, где im - значения факторов (параметры обстановки), описываемые данными мониторинга, для кластеризации, n - количество параметров кластеризации, m =т n;

im =( (Value ml, tx), {Value m2,12 )-{Valueml, tt )|, где Valuemj - значение j-го фактора m-го параметра, описывающего обстановку, tj - тип атрибута параметра обстановки, l - количество атрибутов параметра обстановки, j =17;

tj —\ValueTypej,FieldTypej1, где ValueTypej - тип значения атрибута, VaiueType j <EVaiueTypes, FieldType. - вид значения атрибута,

FieldType . e FieldTypes •

j 5

Множество типов значений атрибута:

ValueTypesI=d^o4ucneHHuu тип Денежный тип Дин гвистический тип},

где Целочисленный тип e Z Денежный тип e R

5

Лингвистический тип с Словарная система •

Словарная система —( Лингв.тип1, Лингв.тип2,..., Лингв .типи | ,

где Лингв.типи - объект словарной системы, характеризующий оценочные/качественные показатели параметров обстановки.

Множество видов значений атрибута:

- FieldTypes —(Входное, Идентифицирующее, Информационное \ , где

«Входное» - означает участие атрибута параметра обстановки в дальнейших расчетах, «Идентифицирующее» - обозначает ключевой атрибут параметра обстановки, идентифицирующий каждый параметр обстановки во входном наборе данных, «Информационное» -обозначает атрибут параметра обстановки, не оказывающий влияние на результаты работы метода;

- q - максимальное количество кластеров, q <n;

- K —(Ki.K2,■■■ .Kn\, где Km - весовой коэффициент влияния атрибута параметра обстановки, Km Gl 0;1J;

- p - размазанность кластеров, p e{ 0;10J;

- w - степень удаленности элементов, w e {0;1J;

- Metric - способ определения расстояния между параметрами обстановки, Metric e Metrics .

Множество способов определения расстояния между параметрами обстановки:

D Евклидово расстояние, Квадрат Евлидова\\

Metrics —\ \ -

\ расстояния, расстояние Чебышева \ ’

111

Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 4 Курск: Науком, 2012. - 128 с., ил. ISBN 978-5-4297-0004-5

OstTreeMethod - способ построения минимального остовного

дерева, OstTreeMethod Е OstTreeMethods ;

Множество способов построения минимального остовного дерева:

J Алгоритм Борувки, Алгоритм Крускала,\\

OstTreeMethods =J J •

J Алгоритм Прима J’

NormMethod - способ проведения нормализации значений

атрибутов, NormMethod Е NormMethods ;

Множество способов проведения нормализации значений

атрибутов:

NormMethodsЛt{нейная нормализация Статистич еская нормализация}.

Выходными данными метода являются входные данные, распределенные по кластерам, соответствующим типам возможной обстановки на территории субъекта РФ:

C =|CPC2,..., Cc | Oc ^ max,c <q, C1 U C2 U... U Cc =I\

(3.28)

Е 0,1|

i Е C , m =1, n, j =1, c .

Метод интеллектуального анализа данных в ИАС состоит из пяти этапов.

Этап 1. Нормализация значений атрибутов

В случае линейной нормализации выполняется следующее выражение:

Value.

mj

)

Целочисленный тип, Денежный тип\

В случае статистической нормализации выполняется следующее выражение:

У Value

Lu m

п Value - ——

j mj n

Value :=J n

mj u

MaxWalueJ Ф0.

ViValue )2 Lu mj m= ■ n У Value ' mj m= n

n J n n

t Е

] Целочисленный тип\ ] Денежный тип [

Этап 2. Вычисление матрицы взаимных расстояний между параметрами обстановки

dmj = | |im " j =Metric^im , ij ) ,

112

Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 4 Курск: Науком, 2012. - 128 с., ил. ISBN 978-5-4297-0004-5

где Metric - способ определения расстояния между параметрами обстановки.

Если Metric =Евклидово расстояние то

d

mj

- Value

Если Metric = Квадрат Евклидова расстояния то

d . = Z( Value. - Value .

mj L iw jw

2

Если Metric = Расстояние Чебышева то

d . =Max\Value. - Value I*K

mj L iw jw J w

J w J ?

где m, j e[1, l J, w =1, l при условии FieldType [ wJ =' Входное" .

Этап 3. Построение минимального остовного дерева Построение минимального остовного дерева выполняется по выбранному способу построения дерева с использованием матрицы взаимных расстояний между параметрами обстановки D.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Этап 4. Разделение параметров обстановки на кластеры и построение матрицы нечеткого разбиения Матрица нечеткого разбиения

F =[Vnj \, Vmj e[ 0 1]. m ^ J =1, l ,

где vmj - степень принадлежности m-го параметра обстановки j-му кластеру. Матрица разбиения обладает следующими свойствами

n __

ZBmj =1, j =1, h

m=1

0 <Z^mj ^n, m =1, n

j=1

Шаг 1. Определение количества кластеров итерации: n :=q.

Шаг 2. Разделение минимального остовного дерева на n кластеров на основании длины ребер дерева по убыванию величины определяется по формуле

П m-J = •l п

dn :=П 0| dn = Max□

mj П mJ п •

Шаг 3. Расчет центров выделенных кластеров

Vn = Avg(|i. |i. eCI)

где Avg - оператор вычисления среднего значения показателей параметров обстановки, входящих в кластер n, m =тn, j =тг.

Для числовых типов оператор Avg определяется выражением:

Z | Value r | FieldType [ w] = Входное"|

Avg[ r\=—------------Vn-----------------’ j =*> ^ r =!’l.

I m I

Для лингвистических типов оператор Avg определяется выражением, учитывающим взаимное расстояние между значениями

113

Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 4 Курск: Науком, 2012. - 128 с., ил. ISBN 978-5-4297-0004-5

анализируемого атрибута параметра обстановки в целях его минимизации или выбирающего значения атрибута, имеющего наибольшую частоту повторяемости:

[ r J =□ □ □

__ □

| .FieldType [ -^J —' Входное''^ .

lue . - Valu i . , ih eV

h eV

j —1,l,

где r =1л, , ф - частота значения атрибута в пределах кластера VJ .

h —1,l

Шаг 4. Расчет матрицы расстояний от параметров обстановки до центров кластеров Vm

d" —I\V" - ill —MetriCvn, i.), m =\n, j =\J

где Metric - способ определения расстояния между параметрами обстановки.

Если Metric —Евклидово расстояние то

d

mj

- Value

Если Metric —Квадрат Евклидова расстояния то

d . —Y{Value. - Value. |*K )2

mj L iw jw J w

Если Metric —Расстояние Чебышева то

d —MaxlVaiue - Value |*K

mj

jw J

где W — при условии FieldType IwJ —’ Вх°дное".

Шаг 5. Нормализация матрицы расстояний от параметров обстановки до центров кластеров Vm

□ dn

ln.

mj

, □---r—г, Maxidn.) ^0 — —

dj —□ Max(dnmj)’ mj , m —1,n, j—1,l

□ 1, Maxi dn) —0 .

Шаг 6. Соотнесение параметров обстановки к кластерам в соответствии со степенью удаленности элементов кластера (w)

i. eVn | dn'. <w или dn'. —Minid"’.), m —1,n, j —1,l

Шаг 7. Расчет степени принадлежности кластеру.

Um

{1 - d"’.)2, m —1, n, j —1, l

mj 5 4 4 J 5

Шаг 8. Нормализация матрицы нечеткого разбиения

и —. —1, l

i mj n 9 J 9

Y Umj .

m—1

Шаг 9. Вычисление центров полученных кластеров с использованием матрицы нечеткого разбиения

114

Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 4 Курск: Науком, 2012. - 128 с., ил. ISBN 978-5-4297-0004-5

Ilp *i

*—i 1 mj J

m_1

| i eVn'

yn ____ lj^m

Щ

m _1, n

II

m_1

Для лингвистических атрибутов центра кластера вычисление

Vn'\ r I _ Value

j _Max{l

производится с использованием выражения:

Г Г Lmj _Max{LmJ ’

Шаг 10. Оценка качества полученного разбиения Оценка качества полученного разбиения на n кластеров с использованием полученных центров кластеров:

|Vn'| *Iup. *

m i mj

I

m_1,n

j_1

Vn - i.

m J

Min

m*j

On _-

1 Vn - i. m J □ * Max -- Vn - i. mj ]*I|\Vn' - i \ m j * n

□ ‘jeK' ‘j eVm' ] i. V

m * n

где |vm I - количество элементов в кластере m;

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

||Vn' - i.ll _Metric(vn', i ) .

m j

расстояние от центра кластера m до

i. ev.

элемента l,;

ije vm - отражение условия о принадлежности элемента кластеру. Шаг 11. n :_n - 1

Шаг 12. Если n>0, то переход на шаг 2 Этап 5. Выбор наилучшего разбиения:

Оопт _MAXO)

n_1,q

Разработанный метод обладает следующими преимуществами:

- двухэтапная кластеризация данных;

- работа с лингвистическими атрибутами параметров обстановки с применением нечеткой логики и введением словарной системы для вычисления расстояний между параметрами обстановки во входном наборе данных;

- использование весовых коэффициентов для анализируемых атрибутов параметров обстановки с целью повышения/понижения влияния атрибутов на результаты кластеризации и адаптации метода к различным ОВ;

- использование степени удаленности параметров обстановки для соотнесения их в кластеры при разделении;

- использование «размытости» кластера, для определения нечеткости отнесения параметра обстановки к кластеру;

- использование критерия оценки разбиения на кластеры с учетом специфики параметров обстановки.

115

Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 4 -Курск: Науком, 2012. - 128 с., ил. ISBN 978-5-4297-0004-5

Таким образом, в результате применения в процессе формирования описаний обстановки на территории субъектов РФ методов кластеризации в начале при помощи метода MST происходит разбиение мониторинговых данных на кластеры по видам ЧС, а затем при помощи метода Fuzzy C-means - по последствиям ЧС.

Библиографический список

1. Загоруйко, Н.Г. Прикладные методы анализа данных и знаний. -Новосибирск: Изд-во ин-та математики, 1999.

2. Барсегян, А.А. Технологии анализа данных: Data Mining, Visual Mining, Text Mining, OLAP / А.А. Барсегян, М.С. Куприянов, В.В. Степаненко, И.И. Холод. - 2-е изд., перераб. и доп. - СПб.: БХВ-Петербург, 2007. - 384 с.: ил.

3. Барсегян, А.А., Куприянов, М.С., Степаненко, В.В., Холод, И.И. Методы и модели анализа данных: OLAP и Data Mining - СПб.: БХВ-Петербург, 2004. - 336 с.: ил.

4. Макарычев, П.П., Афонин, А.Ю. Оперативный и интеллектуальный анализ данных - Пенза: ПГУ, 2010. - 142 с.

5. Паклин, Н. Алгоритмы кластеризации на службе Data Mining -

http://www . basegroup.ru/library/analysis/clusterization/datamining/ -

Доступность страницы проверена на 19.07.2011.

6. Мандель, И.Д. Кластерный анализ - М.: Финансы и статистика, 1988. - 176 с.: ил.

7. Дюран, Б., Оделл, П. Кластерный анализ. Пер с англ. Е.З. Демиденко. Под ред. А.Я. Боярского. Предисловие А.Я. Боярского. - М.: «Статистика», 1977. - 128 с.: ил.

116

i Надоели баннеры? Вы всегда можете отключить рекламу.