Научная статья на тему 'ПРОБЛЕМА ИССЛЕДОВАНИЯ АССОЦИАТИВНОСТИ В DATA MINING'

ПРОБЛЕМА ИССЛЕДОВАНИЯ АССОЦИАТИВНОСТИ В DATA MINING Текст научной статьи по специальности «Математика»

CC BY
29
10
i Надоели баннеры? Вы всегда можете отключить рекламу.
Область наук
Ключевые слова
АССОЦИАТИВНЫЕ ОТНОШЕНИЯ / КЛАСТЕРНЫЙ АНАЛИЗ / DATA MINING / ЭКСПЕРТНЫЕ СИСТЕМЫ / БАЗА ЗНАНИЙ

Аннотация научной статьи по математике, автор научной работы — Гаджиев Фаик Гасан Оглы, Керимов Вагиф Асад Оглы

Рассматривается проблема обобщения на отношениях баз знаний экспертных систем, что вытекает из прагматических представлений относительно получения новых закономерностей, а следовательно поддержки актуальности системы. В то же время задачи обобщения по признакам имеют определённое значение в технологии Data Mining относительно необходимости эффективных средств исследования в нечётком кластерном анализе и ассоциативных отношений.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

THE PROBLEM OF ASSOCIATIVITY RESEARCH IN DATA MINING

The problem of generalization on the relations of knowledge bases of expert systems is considered, which follows from the pragmatic representations concerning the obtaining of new patterns, and hence supporting the relevance of the system. At the same time, the task of generalization by features has a certain importance in Data Mining technology regarding the need for effective means of research in fuzzy cluster analysis and associative relations.

Текст научной работы на тему «ПРОБЛЕМА ИССЛЕДОВАНИЯ АССОЦИАТИВНОСТИ В DATA MINING»

A UNiVERSUM:

Л ТЕ>

№ 2 (107)_ТЕХНИЧЕСКИЕ НАУКИ_(Ьевраль. 2023 г.

ПРОБЛЕМА ИССЛЕДОВАНИЯ АССОЦИАТИВНОСТИ В DATA MINING

Гаджиев Фаик Гасан оглы

канд. техн наук, доц. Азербайджанского Государственного Университета

Нефти и Промышленности, Республика Азербайджан, г. Баку E-mail: mr. faiq. h@mail.ru

Керимов Вагиф Асад оглы

канд. техн наук, доц. Азербайджанского Государственного Университета

Нефти и Промышленности, Республика Азербайджан, г. Баку E-mail: kvaqif56@gmail.com

THE PROBLEM OF ASSOCIATIVITY RESEARCH IN DATA MINING

Faiq Hajiyev

Cand. of Sciences, Associate Professor, Azerbaijan State Oil and Industry University,

Azerbaijan, Baku

Vagif Karimov

Cand. of Sciences, Associate Professor Azerbaijan State Oil and Industry University,

Azerbaijan, Baku

АННОТАЦИЯ

Рассматривается проблема обобщения на отношениях баз знаний экспертных систем, что вытекает из прагматических представлений относительно получения новых закономерностей, а следовательно поддержки актуальности системы. В то же время задачи обобщения по признакам имеют определённое значение в технологии Data Mining относительно необходимости эффективных средств исследования в нечётком кластерном анализе и ассоциативных отношений.

ABSTRACT

The problem of generalization on the relations of knowledge bases of expert systems is considered, which follows from the pragmatic representations concerning the obtaining of new patterns, and hence supporting the relevance of the system. At the same time, the task of generalization by features has a certain importance in Data Mining technology regarding the need for effective means of research in fuzzy cluster analysis and associative relations.

Ключевые слова: Ассоциативные отношения, кластерный анализ, Data Mining, экспертные системы, база знаний.

Keywords: Associative relationships, cluster analysis, Data Mining, expert systems, knowledge base.

Введение. Исследования в области искусственного интеллекта, ориентированные на современные подходы к решению задач показывают, что осознание важности использования знаний проблемной области оказывает стремительное влияние на технологию их представления и выявления, в связи с чем применение нейронных сетей, распознавания образов и т.д. приобрели особое значение уже в рамках новой технологии интеллектуального анализа данных (Data Mining). Они предполагают выявление неизвестных ранее знаний, характеризующихся нетривиальностью и новых закономерностей в структурах данных, практическое значение которых не подлежит сомнению.

При анализе данных в Data Mining представление исходного пространства совокупностью схожих между собой по какому-либо признаку объектов в значительной степени обеспечивает эффективность стратегии обработки, что имеет важное значение при анализе и прогнозировании различных процессов, связанных с многомерностью их описания и предполагающих использование в том числе методов указанного ресурса. Методы кластерного анализа в Data Mining тесно связаны с задачей выявления ассоциативных правил, предусматривающих определение зависимостей относительно связанных объектов, обеспечивающих распознавание существующих шаблонов с целью оценки сущности ситуаций в анализируемой проблемной области.

Библиографическое описание: Гаджиев Ф.Г., Керимов В.А. ПРОБЛЕМА ИССЛЕДОВАНИЯ АССОЦИАТИВНОСТИ В DATA MINING // Universum: технические науки : электрон. научн. журн. 2023. 2(107). URL: https://7universum. com/ru/te ch/arch ive/ite m/149 71

№ 2 (107)

A UNI

/Ш. ТЕ)

UNIVERSUM:

ТЕХНИЧЕСКИЕ НАУКИ

февраль, 2023 г.

Постановка задачи. Проблема нечёткой кластеризации часто рассматривается на основе методов эвристического, иерархического и оптимизационного подходов, среди которых особое значение придаётся последнему направлению, ориентированному на разбиение р * = [А1, ...,Ап} на заданное число нечетких кластеров с учётом некоторого критерия качества Q(P(X)).При этом указанным кластерам соответствуют функции принадлежности , где т = 1,... ,п; [ = \,...,к относительно изучаемых объектов X = [х1,... ,хп}, а в общем, случае задача нечёткой кластеризации представляется в плоскости определения экстремума целевой функции Q(P(X)) в соответствии с соотношением Q(P(X)) ^ ех1г,Р(Х)ЕЬ, где Ь- есть совокупность классов объектов X с учётом неотрицательности функций принадлежности и условий нормировки [1].

В то же время исследования показывают, что указанный критерий качества обычно представляется функцией от множества исходных компонент с множеством локальных экстремумов в связи с чем определение кластеров тесно связано с решением проблемы определения оптимальной кластеризации, когда число вариантов представления N объектов в виде К групп определяется соотношением:

к

м(ы,ю = 1'£(-1)'

' ¿ = 1

Из этого следует, что сложность алгоритма перебора экспоненциально от её размерности, причём отсутствие информации о числе групп значительно осложняет указанную задачу. Следует иметь в виду, что традиционные методы кластеризации ориентированы на направленный поиск, в определённой степени, ограниченном признаковом пространстве, когда активизируются определённые ограничения на её характеристики, но, в то же время, это не всегда приводит к обеспечению требуемой оптимальности решения, что предполагает использование более развитых средств, существующих в искусственном интеллекте [2].

Методы решений. На основе приведённых соображений и с учётом переобозначения исходных характеристик в соответствии с рассматриваемым контекстом предположим, что X = [х1, ...,хп}- множество объектов исходного пространства признаков , У = [у1, ...,ур}- множество признаков свойств объектов, 2 = [г1,...,гт] - множество свойств объектов, /Г:Х * У ^ [0,1] — функция принадлежности нечёткого бинарного отношения R , /г(х,у) — степень важности у по оценке х при определении предпочтенья I.

Тогда

У1 У 2........Уг

R =

х±

Х-?

fr(x1,y1) Ъ(х1,У2).....fr(xltyp)

fr(X2,yi) Ъ(х2,У2).....fr(x2,yp)

fr(x П' п,У2).....fr(xn>yv)]

Аналогичным образом, если д5\У ^ [0,1] — функция принадлежности нечёткого бинарного отношения 8, а д5 (у, г) - степень принадлежности Z к Y

У1

У 2 S= ■

Z1 Z2........zm

gs(yi,zi) gs(y1,z2).....gs(y1,zm)

3s(y2,z1) gs(y2,z2).....gs(y2,zm)

-Ss(yP,z1) gs(yP>z2).....gs(yP,zm)_

Получаем:

Z1 Z2

X1 X2 T= ■

-ßAl (X1, Z1) ßA2 (X1, Z2).....ßAm (X1, zm)

ßAl(x2,z1) ßA2(X2>z2).... ßAm(x2,zm)

-ßA1 (xn> z1) ßA2 (xn> z2).....ßAm (xn> zm)-

где

^Ai(Xi,Zi) =

Yyfr(x>y)*gs(y>z)

^yfr(x,y) VxEX,y EY,zEZ■

Поскольку последняя функция является выпуклой, то

ßA.[Ä(X1>Zi) + (1- X)(X2,Zi)]

> min [ßAi(x1,zi),ßAi(x2,zi)]

Ух1 и x2,zt E Z и Xe [0,1], как и все ßA.(x1,zi) и их пересечения, а следовательно

W =

'^A1(x1,z1) Л ßA2(x1,z2).....ßAm(x1,zrn)

ßA,(x2,z1) Л ßA(X2,Z2).... ßAm(x2,zm)

■ .^Am (xn, Zm)

Сегментацию заданного признакового пространства можно реализовать с учётом ограничения

I < min тах min [ßA.(x, zt), ßA.(x, zM i j 1 J

и уровневого множества

Mi = ix/ßAi(x) > minmaxmin [^A.(x,zi),^A.(x,Zj)]}, Ух E Mit

i ix 1 JK Jy

где под могут пониматься полученные сегменты [3].

Алгоритм формирования ассоциативных отношений объектов исходного пространства признаков может быть представлен в следующем виде.

1. Активизации базы данных.

2. Выбор свойства, относительно, которой будет производиться сегментация признакового пространства.

3. Загрузка признаков свойства.

2

т

Г

п

№ 2 (107)

A UNI

/Ш. ТЕ)

UNIVERSUM:

ТЕХНИЧЕСКИЕ НАУКИ

февраль, 2023 г.

4. Для каждого из признаков специальным образом вычисляется коэффициент уверенности (КУ). С этой целью:

a. По статистическому методу на отрезке определённой длины вычисляются значения {С;} (I = 1,5) терм - множества лингвистической переменной «число». Системные значения относительно первого свойства - 100, для второго-200;

b. Начиная с центра С5 и правых, то есть больших значений лингвистической переменной произведём последовательные присваивания степеням принадлежности - единицы. Степени принадлежности остальных элементов универсума, соответствующие интервалу [0,1] вычисляются делением на центральное значение С5 всех меньших от него чисел.

5. КУ записывается в исходную матрицу Я с элементами /г(х,у)

6. Создаётся матрица 8, причём если 1=з, то элемент д5(Уь,г1) = 1, в противном случае д 5(Уь, я 1) = 0.

7. Определение матрицы Т, элементы, которой функции принадлежности г^).

8. Определение значений элементов матрицы W.

9. Вычисление порога разделения 1.

10. Формирование ассоциативных отношений исходного пространства.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Выводы. В результате проведённых исследований разработан подход, ориентированный на формирование ассоциативных отношений исследуемого пространства признаков, что позволяет говорить о его сегментации.

Список литературы:

1. Вятченин Д.А. Методология анализа данных, основанная на многоэтапной нечеткой кластеризации Искусственный интеллект,2009, N 3, с. 33-46.

2. Леунг Й. Разделение на торговые зоны в нечетких условиях. В кн.: нечёткие множества и теория возможностей. Последние достижения. Под ред. Р.Ягеря, М.,Радио и связь,1986, с. 339-349.

i Надоели баннеры? Вы всегда можете отключить рекламу.