Научная статья на тему 'Извлечение численных ассоциативных правил с учетом значимости признаков'

Извлечение численных ассоциативных правил с учетом значимости признаков Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
300
52
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
АССОЦИАТИВНОЕ ПРАВИЛО / БАЗА ПРАВИЛ / НЕЧЕТКАЯ ЛОГИКА / ТРАНЗАКЦИЯ / ФАЗЗИФИКАЦИЯ / ФУНКЦИЯ ПРИНАДЛЕЖНОСТИ / ASSOCIATION RULE / RULES DATABASE / FUZZY LOGIC / TRANSACTION / FUZZIFICATION / MEMBERSHIP FUNCTION

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Зайко Т. А., Олейник А. А., Субботин С. А.

Решена задача автоматизации извлечения численных ассоциативных правил. Целью работы являлось создание метода извлечения численных ассоциативных правил с учетом значимости признаков. Предложен метод поиска ассоциативных правил, в котором используется априорная информация о значимости признаков, что позволяет сократить пространство поиска и время извлечения правил, уменьшить количество правил, повысить интерпретабельность синтезированной базы правил

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Extraction of quantitative association rules considering significance of features

The solution of the problem of automating the extraction of quantitative association rules in the diagnosis and recognition of images is considered in the paper, and some results of our research in this area are given. The main purpose of the study is developing a method for extracting quantitative association rules, considering the significance of features. The use of modern methods of searching association rules allows extracting new knowledge from large amounts of information.The issues of extracting the quantitative association rules are considered in the paper for identifying new knowledge when solving problems of diagnosing and recognizing of images. The proposed method allows extracting quantitative association rules from the transaction databases. We propose to use a priori information concerning the significance of features that reduces the search scope, the time of rules extraction, the number of extracted rules, and accordingly, increases the levels of generalization and interpretability of the synthesized base of association rules. The research results can be used by researchers who study and analyze complex objects, processes and systems in order to identify new knowledge, as well as in decision support systems in technical and medical diagnostics

Текст научной работы на тему «Извлечение численных ассоциативных правил с учетом значимости признаков»

-------------------□ □-----------------------

Вирішено задачу автоматизації видобування чисельних асоціативних правил. Метою роботи було створення методу видобування чисельних асоціативних правил з урахуванням значущості ознак. Запропоновано метод пошуку асоціативних правил, у якому використовується апріорна інформація про значущість ознак, що дозволяє скоротити простір пошуку та час видобування правил, зменшити кількість правил, підвищити інтерпретабельність синтезованої бази правил Ключові слова: асоціативне правило, база правил, нечітка логіка, транзакція, фаззифікація, функція належності

□---------------------------------□

Решена задача автоматизации извлечения численных ассоциативных правил. Целью работы являлось создание метода извлечения численных ассоциативных правил с учетом значимости признаков. Предложен метод поиска ассоциативных правил, в котором используется априорная информация о значимости признаков, что позволяет сократить пространство поиска и время извлечения правил, уменьшить количество правил, повысить интерпретабельность синтезированной базы правил

Ключевые слова: ассоциативное правило, база правил, нечеткая логика, транзакция, фаззифи-кация, функция принадлежности -------------------□ □-----------------------

УДК 004.93

ИЗВЛЕЧЕНИЕ ЧИСЛЕННЫХ АССОЦИАТИВНЫХ ПРАВИЛ С УЧЕТОМ ЗНАЧИМОСТИ ПРИЗНАКОВ

Т . А . З а й к о

Аспирант* E-mail: [email protected] А. А. Олейник

Кандидат технических наук, доцент* E-mail: [email protected]

С . А . С у б б о т и н

Кандидат технических наук, профессор* E-mail: [email protected] *Кафедра программных средств Запорожский национальный технический

университет

ул. Жуковского, 64, г. Запорожье, Украина, 69063

1. Введение

Исследование сложных объектов и процессов связано с необходимостью извлечения новых знаний путем обработки больших массивов данных [1]. Для извлечения новых знаний из больших массивов информации при решении задач диагностирования и распознавания образов широко применяются методы и средства интеллектуального анализа данных, эффективным инструментом которого являются ассоциативные правила [1, 2]. Такие правила представляются в виде импликаций X ^ Y , в которых X и Y являются непересекающимися множествами элементов.

Существующие методы поиска ассоциативных правил [1 - 3], как правило, извлекают бинарные правила, в которых множества X и Y содержат информацию лишь о том, произошел ли какой-то набор событий или нет.

Однако большинство реальных задач диагностирования, распознавания образов и др. связаны с необходимостью обработки не только качественной, но и количественной информации. В таких случаях целесообразным является выделение численных ассоциативных правил [1, 3 - 7], содержащих информацию не только о наличии некоторого набора событий, но и об их численных характеристиках. Предложенные методы извлечения таких правил [3 - 7] связаны с проблемами выбора интервалов дискретизации диапазонов значений переменных, определения количества интервалов разбиений признаков, поскольку неудачное

разбиение в некоторых случаях может привести к существенному увеличению пространства поиска и требований к вычислительным ресурсам ЭВМ, а также к недостаточной точности прогнозирования или классификации по синтезированной базе ассоциативных правил [3 - 9]. Кроме того, такие методы предполагают, что каждый признак (элемент транзакции базы данных) имеет одинаковую значимость, что, как правило, на практике не соответствует действительности и приводит к построению баз ассоциативных правил с неприемлемыми аппроксимационными свойствами.

Поэтому актуальной задачей является разработка метода синтеза численных ассоциативных правил, свободного от указанных недостатков.

Целью настоящей работы является создание метода извлечения численных ассоциативных правил с учетом значимости признаков.

2. Постановка задачи синтеза численных ассоциативных правил

Пусть задана база транзакций D:

D = { Т1,Т2,...,Т„п} ,

в которой каждый элемент Т , ] = 1,2,...,содержит информацию о некоторых взаимосвязанных событиях, где N = - количество элементов (транзакций)

в наборе данных D.

э

©

Элементы Т- могут представляться в виде:

где tidj - идентификатор --й транзакции Т- ; ^ет- = {^-,Ц,...,^^-}с I - список элементов, входящих в транзакцию Т- ; ^ - i-й элемент списка йет-, i = 1,2,...,К1|е1п. ; К1|е1п. = |йет-| - количество элементов

множества ^ет.; I = {т,т2,...,Тк } - множество возможных переменных (признаков), которые могут входить в список элементов ^ет- каждой транзакции Т-, - = 1,2,...,КВ набора данных D•, та - а-й элемент множества I, а = 1,2,...,К; • N = Ц - количество элементов множества I.

В случае, если база транзакций D содержит кроме бинарных, еще и вещественные переменные, элементы ^ транзакции Т- представляются кортежем:

ч=—Ы),

где т.- - признак из множества I, соответствующий элементу ^ ; V (т.-) - значение признака т.- в транзакции Т- , v (т1-)«ЕАу=[т1-т1п; Тутах ] • Тйтш и —х - минимальное и максимальное значения из диапазона возможных значений А- признака т.- .

Тогда на основе заданной транзакционной базы данных D необходимо построить набор численных ассоциативных правил в виде импликаций Y, V^)) , в которых наборы X и Y не пересекаются [1, 3]:

(Х^ ^)): X с I, Y с I, X П Y = 0,

где V(X) и V^) - множества значений признаков, принадлежащих множествам X и Y , соответственно.

Таким образом, в результате синтеза ассоциативных правил основе имеющегося набор данных D выполняется поиск закономерностей между событиями та еI, а = 1,2,...,К,.

3. Метод синтеза численных ассоциативных правил

Для возможности извлечения ассоциативных правил из транзакционных баз данных D, содержащих численные атрибуты, такие атрибуты преобразовываются к формату, доступному для применения известных методов поиска ассоциативных правил [1 - 5]. При этом требуется выполнять разбиение численных признаков на непересекающиеся интервалы, каждый из которых рассматривается затем как новый атрибут. Однако в таких случаях возникают проблемы выбора числа интервалов и разбиения на интервалы, кроме того существенно возрастает размерность решаемой задачи и требования к вычислительным ресурсам ЭВМ.

Поэтому в разработанном методе синтеза численных ассоциативных правил предлагается использовать подход на основе теории нечетких множеств [10 - 12], позволяющий разбивать исходные признаки на нечеткие интервалы и работать с каждым признаком, а не с отдельными интервалами его разбиения.

Кроме того, в предложенном методе при поиске ассоциативных правил используются рассчитанные оценки индивидуальной информативности признаков, что позволяет учитывать их значимость в исходной базе данных.

Предлагаемый метод может быть представлен следующими этапами:

- фаззификация транзакционной базы данных D••

- определение индивидуальной значимости признаков;

- вычисление пороговых значений поддержки;

- построение базы численных ассоциативных правил.

На начальном этапе выполняется фаззификация базы транзакций D, т.е. приведение всех ее численных значений к нечеткому виду: D ^ FuzzyD . Такое преобразование позволит выделить нечеткие термы каждого признака для возможности выполнения дальнейшего извлечения ассоциативных правил. Для фаззифика-ции определяются функции принадлежности Ца для каждого численного а-го признака та е I. Функции принадлежности могут быть заданы экспертом, исходя из его знаний и опыта относительно исследуемого объекта или процесса [10 - 15]. Однако использование субъективной информации и некоторых допущений при преобразовании ее в степени принадлежности нечетких множеств в некоторых случаях может привести к неприемлемым результатам такого преобразования, вследствие чего синтезированная база ассоциативных правил не будет содержать интересные правила, а новые знания, выделенные на основе построенной таким образом базы ассоциативных правил, будут необъективно отражать исследуемые объекты или процессы.

Как правило, признаки, описывающие исследуемые объекты или процессы, имеют различную информативность [11, 13, 14], поэтому с целью извлечения интересных ассоциативных правил, адекватно описывающих исследуемые зависимости, целесообразно учитывать индивидуальную значимость признаков. Поскольку выходной параметр в транзакционных базах данных, как правило, не задан, предлагается оценивать индивидуальную значимость признаков с помощью параметров, характеризующих границы областей группирования экземпляров (транзакций) в пространстве признаков.

При этом признаки предварительно нормируются с целью приведения значений всех признаков к одному диапазону, что устранит влияние величины граничных значений признака на его индивидуальную значимость.

В результате кластеризации выделяется N кластеров. Для определения значимости каждого элемента та е I будем оценивать его влияние для отнесения транзакции к каждому из кластеров. Очевидно, чем меньше ширина диапазона изменения значений а-го признака во множестве транзакций кластера Кь (Ь = 1,2,...,^л ), тем более его значимость в данном кластере.

Ширину диапазона будем оценивать как среднеквадратическое отклонение [16]:

Е

где Таь - среднее значение а-го признака в Ь-м кластере; таЬ!, - g-е значение а-го признака в Ь-м кластере;

- тіп N.

N.

тр.аЬ

- количество транзакций в Ь-м кластере.

Признаку с минимальным значением величины оаЬ будем присваивать максимальное значение ранга RgaЬ = Ш в Ь-м кластере, следующему по возрастанию

значения оаЬ признаку присвоим ранг

= I -1 и

.=хі

как отношение ранга Rg к максимальному зна-

чению рангов:

тах RgA

N.

- нормированное значение величины N.

тах N А - тіп ^и„т А

А=1,2,... ,1 инт' А А=1,2,... Д и„тА

Д^^инт.А - Nи„т.а

тах Ы„тА - тіп N А "

А=1,2,..,1 и„тА А=1,2,...,|1 интЛ

т.д. В случае, если признаки имеют одинаковое значение оаЬ, им присваиваются одинаковые значения RgaЬ. Редко встречающиеся признаки со средним значением в группе таЬ, ниже минимально допустимого ( таЬ <тт1п ), считаются неинформативными в данном кластере, вследствие чего им присваивается нулевое значение ранга: RgaЬ = 0 .

Затем для каждого а-го признака та складываются значения рангов по всем кластерам:

Значимость (вес) wa признака та может определяется следующим образом:

- как отношение ранга Rga к сумме рангов всех признаков:

Кроме предложенного выше подхода можно использовать подход, учитывающий границы интервалов разбиения признаков в кластерах.

В данном методе предлагается сортировать массив значений каждого признака та по возрастанию. Левая 1ак и правая гак границы к-го интервала Аак аго признака Т выбираются таким образом, чтобы экземпляры (транзакции) со значением признака та е Аак = [1ак;гак) относились к одному кластеру КЬ, а экземпляры из соседних интервалов - к другим кластерам Кс Ф КЬ.

В качестве меры информативности а-го признака в транзакционной базе данных D целесообразно использовать количество интервалов ^нта, на которые разбивается диапазон его значений Аа = [тат1п;Татах]: чем меньше количество таких интервалов, тем больше информативность признака.

Поэтому значимость признака Та будем вычислять по одной из формул:

- отношение минимального количества интервалов среди всех признаков к величине N а-го признака:

тт N.

Предложенный подход позволяет вычислять информативность каждого признака в транзакционной базе данных D, а также выделять интервалы разбиения признаков без необходимости задания количества интервалов разбиений, что уменьшает степень участия пользователя и влияние его субъективных оценок на результаты процесса извлечения ассоциативных правил, что в свою очередь снижает вероятность извлечения ассоциативных правил, некорректно описывающих исследуемые объекты или процессы.

Важным этапом является определение пороговых значений поддержки наборов элементов, которое в предложенном методе происходит с использованием информации об индивидуальной значимости признаков, определенной ранее. Кроме того, предусматривается возможность извлечения наборов, не являющихся часто встречающимися, однако являющихся интересными и позволяющими выявлять новые знания об исследуемых объектах или процессах.

При поиске ассоциативных правил важной характеристикой, используемой в процессе их извлечения, является поддержка наборов элементов, а также ее пороговое значения, задаваемое, как правило, пользователем в качестве параметра метода.

В разработанном методе извлечения численных ассоциативных правил поддержку транзакции Т- будем рассчитывать как пересечение функций принадлежности признаков, входящих в транзакцию Т-:

8иРР (Т-)= П ^а (Т-) ,

т, еТ-

где ца (Т-) - значение функция принадлежности а-го признака, вычисленное для его значения в транзакции Т-.

Тогда поддержка набора X определяется как сумма поддержек всех транзакций, содержащих это множество:

®иРР (X)= Е ^РР (Т-)= Е П К (Т^) .

КсТ- КсТ- та еТ-

Взвешенную поддержку набора X, учитывающую оценки индивидуальной информативности признаков, входящих в данных набор, определим следующим образом:

^иРР (^ = вирр (X) Е ^ ,

т, еХ

где величина Е wa определяет оценку информатив-

Т, EX

ности набора признаков X.

Взвешенная поддержка ассоциативного правила X ^ Y может быть определена по формуле:

wsupp (X ^ Y) = зирр (X и Y) Е wa .

8=Ва '

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

А=1,2....II

w =

а II

А=1

”а =

А=1,2....II

=

^еХИУ

Будем считать набор X часто встречающимся взвешенным набором, если будет выполняться условие:

wsupp(X) > wminsupport,

где wminsupport - пороговое (минимально допустимое) значение взвешенной поддержки.

Важно отметить, что в некоторых случаях кроме часто встречающихся наборов X важными для извлечения новых знаний об исследуемых объектах или процессах являются нечастые наборы элементов, позволяющие выявлять косвенные (непрямые) ассоциации.

Если два набора элементов X и Y существенно зависят от наличия третьего набора Z, тогда будем считать, что пара X и Y косвенно связана по набору Z: X —— Y . Наличие такой связи будем определять, исходя из истинности таких условий:

1) значение взвешенной поддержки набора X и Y меньше минимально допустимой:

wsupp(X и Т)<Р№

ирр^ЦТ) ’

^) =

атрибута при поиске правил. При генерации новых наборов-кандидатов в процессе синтеза ассоциативных правил учитывается свойство антимонотонности поддержки [1, 3], применение которого позволяет существенно сократить пространство поиска. Для извлечения ассоциативных правил каждое --е численное значение Та- а-го признака та в транзакции Т- преобразовывается к нечеткому значению • :

Кк (Та еТ-) |А ак|

где Рж5Црр(^у) - пороговое значение взвешенной нечеткой поддержки между наборами X и Т - величина, указывающая на то, что наборы X и Т встречаются не часто. Величину Р*5ирр(хиУ) можно установить следующим образом: РЖ5Црр(^Т) = wminsupport;

2) существует непустой набор Z ( ЭZ Ф 0 ), для которого выполняются условия:

^■ирр^ и ^р^^; и ^ (^)> Wmin;

^ирр(Т и Z)>PwSupp(z)•• и '[w (Т,^> w-,

где Ртаирр^) - пороговое значение взвешенной нечеткой поддержки между некоторым набором и набором Z, являющимся ключевым для появления пары наборов X и Т - величина, указывающая на то, что наборы X и Т встречаются часто при наличии множества Z. Величину Р™ц>рй целесообразно установить следующим образом: ; w(х,z) и w(т^) - значения критерия оценивания взаимосвязи между множествами X и Z, а также Т и Z, соответственно; wm1n - минимально допустимое значение критерия оценивания взаимосвязи между множествами элементов базы транзакций.

В качестве меры w(X,Z) целесообразно использовать следующую:

где р^) , p(Z), p(X П Z) - вероятность появления наборов X, Z и X П Z в базе данных D.

Таким образом, использование предложенных выше критериев и их пороговых значений позволит извлекать не только часто встречающиеся наборы, но и наборы, редко возникающие в исходной базе данных, однако являющиеся интересными и позволяющие выявлять новые знания об исследуемых объектах или процессах.

При построении базы ассоциативных правил в процессе их извлечения используются значения индивидуальной информативности признаков, рассчитанные ранее, что позволяет учитывать значимость каждого

где цак (та еТ-) - функция принадлежности а-го признака к-му терму, вычисленная для значения признака та в транзакции Т-; |Аак| - ширина к-го диапазона разбиения а-го признака.

После этого вычисляется мощность каждого к-го диапазона разбиения а-го признака:

Ко

САак =Е^ак (Та Е Т ) ,

-=1

и находится максимальное значение такой величины для каждого а-го признака:

тахСА = тах СА . , а = 1,2,...,Ш,

а к=1,2,...,К8.Ва ак 1 1

а также соответствующий величине тахСА, интервал разбиения тах Аа, который в дальнейшем процессе извлечения ассоциативных правил будет использоваться для представления нечетких характеристик элемента

Та .

Для каждого интервала тахАа, а = 1,2,...,Ц вычисляется взвешенная поддержка wsupp(maxАа) по формулам, приведенным выше (до этого определяется значимость wa каждого из признаков та. Все интервалы тах А а, значения взвешенной поддержки которых не менее минимально допустимого порогового значения wminsupport , заносятся в массив FI1, содержащий одноэлементные часто встречающиеся наборы:

FI1 ={тах Аа |wsupp (тах Аа )> wminsupport} .

Интервалы с малыми значениями взвешенных поддержек wsupp(maxАа) заносятся в массив RI1 редко встречающихся одноэлементных наборов:

RI1 = {тах Аа | wsupp(max Аа) < wminsupport} .

В случае, если множество FI1 является пустым, метод прекращает свою работу, поскольку сгенерировать часто встречающиеся и достоверные ассоциативные правила не представляется возможным.

Затем на основе текущего множества FId (^элементных наборов генерируется множество С(+1 (( + 1)-элементных кандидатов в часто встречающиеся наборы. При этом аналогично методу Арпоп [1 - 3] для уменьшения количества кандидатов на (( + 1)-й итерации используется свойство антимонотонности поддержки, заключающееся в том, что поддержка любого множества элементов X не превышает значения минимальной поддержки любого его подмножества Т с X [1, 3]. Поэтому

N..

к=1

Е

на этапе генерации множества кандидатов Са+1 отсекаются (не создаются и не заносятся в Са+1 ) те наборы, которые не могут стать часто встречающимися, что определяется на основе информации о наборах с низкими значениями поддержки wsupp , рассчитанными на предыдущих этапах и хранящимися во множестве Ш . Таким образом, при создании нового множества Са+1 кандидатов используется идея о том, что у набора, который потенциально является часто встречающимся, все подмножества также должны быть часто встречающимися (значения всех поддержек подмножеств должно быть не ниже порогового значения).

Следовательно, кандидат X, содержащий подмножество Y с X , отброшенное на предыдущих этапах как нечасто встречающееся ( Y єШ ), не включается в следующее множество Са+1 кандидатов в часто встречающиеся наборы.

После формирования множества Са+1 для каждого набора X = {т1, т2,..., та+1}єСа+1 (|Х| = <і +1) вычисляется его нечеткая характеристика для j-й транзакции Т :

^ (Т;)= П К ЄТ;) ,

Пусть Y = А\Х . Тогда, если выполняется первое условие, то генерируется ассоциативное правило X ^ Y. Если выполняется второе условие, то генерируется правило Y ^ X . При невыполнении обоих условий, генерации правила для А єFI и X є А не происходит.

После этого выполняется поиск интересных, но редко встречающихся правил вида X ——Y . Для этого формируется множество ШІ:

ш=ише,

С=1

и для каждого его элемента А є Ш выполняются следующие действия: X = А|А| - последний элемент множества А; Y = А|А|_1 - предпоследний элемент множества А; Ъ = А \ (X и Y). Тогда будем извлекать ассоциативные правила вида X —— Y при выполнении следующих условий:

^■ирр^ и

(wsupp (х и г))П (wsupp ('у и г))> PWsupp(z) ; w (X,Z) П w (У,Ъ)> wmin.

далее определяется взвешенная поддержка набора Х:

Если значение wsupp(X) не менее минимально допустимого порога wminsupport, множество Х заносится в массив FId+1 часто встречающихся наборов элементов, в противном случае - в массив редко встречающихся наборов RId+1.

В случае, если FId+1 Ф 0 , выполняются действия, аналогичные описанным выше.

В противном случае считается, что дальнейшее генерирование часто встречающихся наборов является невозможным. Поэтому далее выполняется извлечение ассоциативных правил с приемлемым уровнем достоверности.

Ассоциативные правила будем генерировать исходя из того, что:

wsupp (X ^ Т) .

wconI(X^ У) =---------——т—->wmmmnпaence,

wsupp(X)

X П Т = 0.

Массив всех часто встречающихся наборов, найденных ранее, может быть сформирован как совокупность

FI = и FIc.

С=1

Для каждого набора А е FI и каждого его подмножества X еА выполняются проверки:

wsupp(A)

wsupp(X)

> wminconfidence

и Wsupp|A| . >wminconfidence.

wsupp (A\X)

После извлечения импликаций вида X ^' и X —— У на их основе синтезируется база ассоциативных правил, описывающая исследуемые объекты и процессы.

Разработанный метод обеспечивает интеграцию описанных выше принципов, позволяет по заданным транзакционным базам данных строить наборы численных ассоциативных правил и на их основе извлекать новые знания об исследуемых объектах или процессах.

Предложенный метод предполагает фаззификацию заданной базы транзакций и автоматическое разбиение диапазонов значений признаков на интервалы, учитывает индивидуальную значимость признаков, использует критерии для оценивания косвенных ассоциаций, что понижает степень участия пользователя в процессе поиска ассоциативных правил, уменьшает вероятность извлечения правил, некорректно описывающих исследуемые объекты и процессы, а также позволяет извлекать не только часто встречающиеся наборы, но редко возникающие интересные ассоциативные правила.

4. Эксперименты и результаты

С целью проведения экспериментов по исследованию свойств и характеристик предложенного метода извлечения численных ассоциативных правил он был программно реализован на языке программирования С#.

Экспериментальное исследование разработанного метода выполнялось на основе данных, представленной в виде транзакционной базы данных, содержащей информацию о состоянии здоровья детей, рожденных от родителей, пострадавших от аварии на Чернобыльской АЭС [17]. В результате обследования пациентов получен набор данных, содержащих диагностические критерии формирования различных заболеваний, а также установленные диагнозы. С целью выявления взаимосвязи между заболеваниями, а также влияния значений различных показателей на тот или иной диагноз выполнялось извлечение ассоциативных данных.

С

Поскольку большинство результатов лабораторных исследований носят численный характер, целесообразным является извлечение численных ассоциативных правил.

База данных содержала N = |0| = 344 записей (транзакций), каждая из которых представляла информацию о конкретном пациенте и могла характеризоваться несколькими из N = Ц = 69 признаков. Каждая запись содержала в среднем 14 признаков.

Результаты проведения экспериментов позволили выявить взаимосвязи различных заболеваний вида «Если установлен набор диагнозов Э1, Э2,..., Окс и значения численных показателей находятся в определенных пределах х( еА1х| , то у пациента с вероятностью Р| может быть установлен диагноз у^ ». Это позволит выполнять диагностирование некоторых болезней на ранних стадиях, а также предоставлять своевременные рекомендации для проведения комплекса профилактических мероприятий по недопущению возникновения болезней, с большой степенью вероятности сопровождающихся или возникающих вследствие заболеваний, диагноз по которым уже установлен. Кроме того, выявлены факторы, являющиеся пусковым механизмом для перехода от латентной формы заболевания к открытой. В частности, выявлено, что наиболее информативными факторами, позволяющими диагностировать нейро-артритические аномалии на ранних стадиях, являются: уменьшение концентрации 4-пиридоксиновой кислоты, эмоциональная лабильность, диспептический синдром, ацетонемиче-ская рвота, уратурия в период новорожденности.

Выявленные факторы и зависимости позволят своевременно предпринимать необходимые действия для предотвращения нежелательных переходов от латентной формы к открытой форме заболевания. Таким образом, результаты экспериментов показали, что разработанный метод позволяет извлекать из баз транзакций численные ассоциативные правила, используя при этом априорную информацию о значимости признаков, что сокращает пространство поиска и время извлечения правил, уменьшает количество извлеченных правил, и, соответственно, повышает уровни обобщения и интерпретабельности синтезированной базы ассоциативных правил.

5. Выводы

В работе решена актуальная задача автоматизации извлечения численных ассоциативных правил.

Научная новизна работы заключается в том, что предложен метод извлечения численных ассоциативных правил, основными этапами которого являются: фаззификация транзакционной базы данных, определение индивидуальной значимости признаков, вычисление пороговых значений поддержки и построение базы численных ассоциативных правил. Предложенный метод предполагает фаззификацию заданной базы транзакций и автоматическое разбиение диапазонов значений признаков на интервалы, учитывает индивидуальную значимость признаков, использует критерии для оценивания косвенных ассоциаций, что понижает степень участия пользователя в процессе поиска ассоциативных правил, уменьшает вероятность извлечения правил, некорректно описывающих исследуемые объекты и процессы, а также позволяет извлекать не только часто встречающиеся наборы, но и редко возникающие интересные ассоциативные правила.

Использование априорной информации о значимости признаков в разработанном методе позволяет сократить пространство поиска и время извлечения правил, уменьшить количество извлеченных правил,

и, соответственно, повысить уровни обобщения и интерпретабельности синтезированной базы ассоциативных правил.

Практическая ценность полученных результатов заключается в том, что на основе предложенного метода разработано программное обеспечение, позволяющее выполнять извлечение численных ассоциативных правил, а также решена практическая задача медицинского диагностирования.

Работа выполнена в рамках госбюджетной научно-исследовательской темы Запорожского национального технического университета «Интеллектуальные информационные технологии автоматизации проектирования,моделирования, управления и диагностирования производственных процессов и систем» (номер государственной регистрации 0112Ш05350).

Литература

1. Zhang, C. Association rule mining: models and algorithms [Text] / C. Zhang, S. Zhang. - Berlin : Springer-Verlag. - 2002. - 238 p.

2. Gkoulalas-Divanis, A. Association Rule Hiding for Data Mining [Text] / A. Gkoulalas-Divanis,V. S. Verykios. - New York : Springer-Verlag. - 2010. - 150 p.

3. Zhao, Y. Post-mining of association rules: techniques for effective knowledge extraction [Text] / Y. Zhao, C. Zhang, L. Cao. - New York : Information Science Reference. - 2009. - 372 p.

4. Dubois, D. A Systematic Approach to the Assessment of Fuzzy Association Rules [Text] / D. Dubois, E. Hullermeier, H. Prade // Data Mining and Knowledge Discovery. - 2006. - Vol. 13. - P. 167-192.

5. Khan, M. S. Weighted Association Rule Mining from Binary and Fuzzy Data [Text] / M. S. Khan, M. Muyeba, F. Coenen // Lecture Notes in Computer Science. - 2008. - Vol. 5077. - P. 200-212.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

6. Lian, W. An efficient algorithm for finding dense regions for mining quantitative association rules [Text] / W. Lian, D. W. Cheung, S. M. Yiu // Computers & Mathematics With Applications. - 2005. - Vol. 50, № 3. - P. 471-490.

7. Sohn, S. Y. Searching customer patterns of mobile service using clustering and quantitative association rule [Text] / S. Y. Sohn, Y. Kim // Expert Systems With Applications. - 2008. - Vol. 34, № 2. - P. 1070-1077.

8. Adamo, J.-M. Data mining for association rules and sequential patterns: sequential and parallel algorithms [Text] / J.-M. Adamo. -New York : Springer-Verlag. - 2001. - 259 p.

...................................................................................................................................уз

9. Koh, Y. S. Rare Assodation Rule Mmmg and Knowledge Dlscovery [Text] У Y. S. Koh, N. Rountree. - New York : Inforшation Sdence Reference. - 2009. - 320 p.

10. Zadeh, L. Fuzzy sets [Text] У L. Zadeh ^ Inforrnation and Control. - 1965. - № 8. - P. 338-353.

11. Субботін, С. О. Неітеративні, еволюційні та мультиагентні методи синтезу нечіткологічних і нейромережних моделей: монографія [Текст] У С. О. Субботін, А. О. Олійник, О. О. Олійник ; під заг. ред. С. О. Субботіна. - Запоріжжя : ЗНТУ, 2009. - 375 с.

12. Encyclopedla of artifidal mtelHgence [Text] У Eds.: J. R. Doplco, J. D. de la Calle, A. P. Slerra. - New York : Mogadon Sdence Reference, 2009. - Vol. 1-3. - 1677 p.

13. Интеллектуальные информационные технологии проектирования автоматизированных систем диагностирования и распознавания образов : монография [Текст] У [С. А. Субботин, Ан. А. Олейник, Е. А. Гофман, С. А. Зайцев, Ал. А. Олейник под ред. С. А. Субботина]. - Харьков : ООО “Компания Смит”, 2012. - 317 с.

14. Прогрессивные технологии моделирования, оптимизации и интеллектуальной автоматизации этапов жизненного цикла авиадвигателей : монография [Текст] У [А. В. Богуслаев, Ал. А. Олейник, Ан. А. Олейник, Д. В. Павленко, С. А. Субботин под ред. Д. В. Павленко, С. А. Субботина]. - Запорожье : ОАО «Мотор Сич», 2009. - 468 с.

15. Гибридные нейро-фаззи модели и мультиагентные технологии в сложных системах : монография [Текст] У [В. А. Филатов, Е. В. Бодянский, В. Е. Кучеренко и др. под общ. ред. Е. В. Бодянского]. - Дніпропетровськ : Системні технології, 2008.

- 403 с.

16. Айвазян, С. А. Прикладная статистика: Исследование зависимостей [Текст] У С. А. Айвазян, И. С. Енюков, Л. Д. Мешал-кин. - М.: Финансы и статистика, 1985. - 487 с.

17. Диагностирование нейро-артритических аномалий на основе ассоциативных правил [Текст] У Т. А. Зайко, А. А. Олейник,

Н. В. Жихарева, С. А. Субботин ^ Бионика интеллекта. - 2012. - № 2 (79). - С. 53-57.

В роботі досліджуються питання визначення показників якості для атомарних сервісів в сервіс-орієнтованих системах. Визначено кількісні оцінки показників якості для атомарних сервісів. Запропоновано методи моніторингу та управління сервісами на підставі статистичних даних показників якості сервісів. У статті описані методи вибору екземплярів атомарних сервісів з однаковим інтерфейсом із пулу сервісів Ключові слова: web-сервіс, SOA, якість, час відгуку, доступність, надійність, якість послуг

□----------------------------------□

В работе исследуются вопросы показателей качества для атомарных сервисов в сервис-ориентированных системах. Определены количественные оценки показателей качества для атомарных сервисов. Предложены методы мониторинга и управления сервисами на основании статистических данных по показателям качества сервисов. В статье описаны методы выбора экземпляров атомарных сервисов, предоставляющих с одинаковым интерфейсом из пула сервисов

Ключевые слова: web-сервис, SOA, время отклика, доступность, надежность, качество услуг

УДК 004.052

МЕТОД ОЦЕНИВАНИЯ ПОКАЗАТЕЛЕЙ КАЧЕСТВА WEB-СЕРВИСОВ

О. В. Рогов*

Е-mail: [email protected] Т. В. Дуравки на

Кандидат технических наук, старший преподаватель* Е-mail: [email protected] А. Г. Морозова

Кандидат технических наук, старший преподаватель* Е-mail: [email protected] *Кафедра теоретической и прикладной

информатики

Харьковский национальный университет им. В. Н. Каразина пл. Свободы, 4, г. Харьков, Украина, 61022

1. Введение

В настоящее время успех бизнеса сильно зависит от того, насколько он автоматизирован и как быстро компания может предложить новую услугу или продукт на рынок.

Практически перед любым ІТ подразделением компании всегда стоит задача бесперебойного предоставления ІТ сервисов бизнесу. Реализация традиционных решений для интеграции прикладных программ - непростая задача, требующая существенных капиталовложений. Кроме того, часто при внедрении

i Надоели баннеры? Вы всегда можете отключить рекламу.