Научная статья на тему 'Упрощение транзакционных баз данных на основе четких продукций'

Упрощение транзакционных баз данных на основе четких продукций Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
132
31
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ТРАНЗАКЦИОННЫЕ БАЗЫ ДАННЫХ / ЧЕТКИЕ ПРОДУКЦИИ / МОДЕЛЬ / ПРИЗНАК / ТРАНЗАКЦИЯ / ЭКЗЕМПЛЯР / ТРАНЗАКЦіЙНі БАЗИ ДАНИХ / ЧіТКі ПРОДУКЦії / ОЗНАКА / ТРАНЗАКЦіЯ / ЕКЗЕМПЛЯР / TRANSACTIONAL DATABASES / CLEAR PRODUCTION / MODEL / FEATURE / TRANSACTION / INSTANCE

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Зайко Т. А., Олейник А. А., Субботин С. А.

Рассмотрены задачи упрощения транзакционных баз данных. Предложен метод сокращения баз транзакций на основе четких продукций. Разработанный метод позволяет исключить неинформативные признаки и избыточные экземпляры из заданных массивов данных, что, в свою очередь, позволяет снизить структурную и параметрическую сложность синтезированных диагностических моделей. Библиогр.: 14 назв.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Simplification of transactional databases based on clear productions

The problem of transactional databases simplifying is considered in this paper. A method for reducing the database transaction on the basis of productions is proposed. The developed method allows to eliminate redundant and uninformative features and instances of the specified data arrays, which in turn leads to lower structural and parametric complexity of synthesized diagnostic models. Refs.: 14 titles.

Текст научной работы на тему «Упрощение транзакционных баз данных на основе четких продукций»

УДК 004.93

Т.А. ЗАЙКО, асп., ЗНТУ, Запорожье,

А.А. ОЛЕЙНИК, канд. техн. наук, доц., ЗНТУ, Запорожье,

С.А. СУББОТИН, д-р техн. наук, проф., ЗНТУ, Запорожье

УПРОЩЕНИЕ ТРАНЗАКЦИОННЫХ БАЗ ДАННЫХ НА

ОСНОВЕ ЧЕТКИХ ПРОДУКЦИЙ

Рассмотрена задача упрощения транзакционных баз данных. Предложен метод сокращения баз транзакций на основе четких продукций. Разработанный метод позволяет исключить неинформативные признаки и избыточные экземпляры из заданных массивов данных, что, в свою очередь, позволяет понизить структурную и параметрическую сложность синтезируемых диагностических моделей. Библиогр. 14 назв.

Ключевые слова: транзакционные базы данных, четкие продукции, модель, признак, транзакция, экземпляр.

Постановка проблемы и анализ литературы. Разработка интеллектуальных систем неразрушающего контроля качества, технического и медицинского диагностирования, распознавания образов связана с необходимостью обработки больших объемов информации [1, 2]. Зачастую такая информация может представляться в виде баз транзакций, где каждая транзакция представляет собой список значений некоторых из возможных признаков, характеризующих исследуемые объекты или процессы [3, 4].

Использование избыточных данных при синтезе диагностических моделей может привести к построению моделей, обладающих низкими обобщающими способностями, а также высокой структурной и параметрической сложностью, что повлечет увеличение затрат памяти ЭВМ на хранение моделей и увеличение времени вычислений на обработку большого объема данных. Следовательно, перед осуществлением синтеза диагностических моделей целесообразным является сокращение обучающей выборки путем исключения из нее избыточной информации.

Известные методы редукции данных [2 - 6], как правило, предназначены либо для отбора признаков, либо для отбора экземпляров и часто не учитывают взаимосвязи сочетаний некоторых значений признаков, которые также могут быть исключены из исходной выборки. Поэтому актуальной является разработка нового метода сокращения обучающей выборки, позволяющего выполнять редукцию признаков, экземпляров, термов признаков и формировать множество данных с меньшим количеством элементов по сравнению с исходной выборкой.

© Т.А. Зайко, А.А. Олейник, С.А. Субботин, 2014

Для редукции обучающей выборки в настоящей работе предлагается использовать четкие продукции, извлекаемые с помощью методов ассоциативных правил [3, 4, 7 - 11], поскольку извлечение таких правил из выборок данных позволяет существенно сокращать объемы информации и выполнять обобщение данных, преобразовывать значения признаков в некоторые диапазоны значений, оценивать степень влияния признаков на выходной параметр, а также уровень их взаимосвязи между собой, в том числе взаимосвязи некоторых значений признаков.

Цель статьи - разработка метода упрощения транзакционных баз данных на основе четких продукций.

Метод упрощения транзакционных баз данных на основе четких продукций. Пусть задана база транзакций D ={T1,T2,...J'Nd }, в которой

каждый элемент Tj, j = 1, 2, ..., Nd содержит информацию о некоторых объектах или процессах, где Nd = |d| - число экземпляров (элементов) в наборе данных D. Элементы Tj представляют собой множество значений вида: Tj = {Х! j , T2j ,...,^NIj , yj } , где V = Kj-mn; - значение Я-ГО

признака та для элемента Tj; ха - а-й признак множества 1 = {т1, Х2,...,Х Nj } , а = 1,2, ...N; I - множество признаков, которыми описываются элементы Tj, набора данных D; N7 = |l| - число признаков в выборке D; xajmin и xajmax - минимальное и максимальное значения из диапазона возможных значений признака za ; yj - значение выходного параметра для элемента Tj. Тогда задача сокращения размерности

обучающей выборки заключается в уменьшении числа её экземпляров N'D < Nd и описывающих их признаков Nj < NI, с сохранением возможности построения диагностических моделей с приемлемыми способностями к аппроксимации исследуемых зависимостей.

В разработанном методе сокращения размерности обучающей выборки для редукции данных предлагается извлекать ассоциативные правила. Информация об интересности выявленных правил используется для оценивания степени влияния признаков на выходной параметр, а также взаимосвязи некоторых значений признаков между собой.

На начальном этапе для заданной выборки D выполняется редукция её экземпляров. Для этого дискретизируются значения признаков (диапазон значений Да = [таmin; %аmax ] каждого признака Та

разбивается на NЫ.а интервалов). После дискретизации выполняется преобразование Д ^ Д, в результате которого значения исходных признаков та заменяются номерами интервалов значений признаков, выделенных в процессе дискретизации: т а = л(та]-), где та]- и т' ■ -значения а-го признака для у-го экземпляра в выборках Б и Д', соответственно; п(т ■) - номер интервала значений признака та, в который попадает его значение т ■ для у-го экземпляра.

Полученные в результате преобразования Д ^ Д[ экземпляры Т] и Т' с одинаковыми значениями признаков т'а]- и Так, а = \,2,...,Ы1 считаются эквивалентными и избыточными. Поэтому в выборке Д' последовательно для каждых двух эквивалентных экземпляров Т] и Т' следует оставить один экземпляр Т], а другой - исключить: Д = Д \Т' .

После выполнения этапа редукции экземпляров происходит выявление неинформативных признаков с последующим их исключением из выборки. Для редукции признаков та из выборки Д будем извлекать ассоциативные правила ЛЯ, є ЯБ (ЯБ - база извлеченных ассоциативных правил), оценивать их интересность и интересность каждого терма признаков, на основе чего будем делать вывод об информативности каждого признака. Для этого вначале извлекаются численные ассоциативные правила ЛЯ1 : Х1 ^ Уг [3, 4, 7 -11], затем выполняется оценивание интересности 1 ЛЯ каждого из

выявленных правил. В качестве оценок интересности правил возможно использовать критерии (1) - (5) [3, 4, 7-11]:

1ш, = виррСХ ^ У,) + виррХ ^ У,), (1)

г 8ирр(Х, ^ У,)

1 ЛЯ, = ч , (2)

®ирр(Х, >ирр(7,) соП( X ^ У1) соП( X, ^ У,)

і ля, =—.. , (3)

т _ ^ирр(Х, ^ У, )Бирр(Х, ^ У,)

1ЛЯ/ — — , (4)

, 8ирр(Х, ^ У, >ирр(Х, ^ У,)

1 ля, = 5ирр(Х, ^ У,) - Бирр(Х, >ирр(7,) , (5)

где 8ирр(Л) - поддержка множества А, определяемая как отношение числа элементов Т}-, содержащих А, к общему числу экземпляров Ыв в

наборе данных Б; сопГ(Л) - достоверность множества А, рассчитываемая как отношение поддержки импликации А к поддержке ее левой части.

Используя информацию об интересности Iщ извлеченных ассоциативных правил, выполняется оценивание интересности термов Дтак, к = 1,2, ...,Ж;п(а каждого признака т а , а = 1,2, . Интересность термов

Дтак предлагается определять по одной из следующих формул (6) - (8):

1Дт ак = N Е1 л*1 • (6)

^ Дтак 1:ЛЯI еЯБ,

Дтак еЛЯ/

1 Дтак = т^п {1 ЛЯ/ } • (7)

ак к:ЛК/еКБ, ‘

ДтакеЛЯ к

1 Дтак = тах {1 ЛЯк } • (8)

Дт„ ,,еЛК,

где NДтл - число ассоциативных правил ЛЯк е ЯБ, содержащих терм

Дтак: Дтак е ЛЯ!. Информативность 1а признаков та будем оценивать

исходя из оценок интересностей термов, входящих в соответствующий

признак (9) - (11):

1 ^й.а

^а = — Е^так • (9)

1^\пХ.а к=1

1а = .=1.5ПаХ,^„!1Д’-* 1 • "0)

1а = к ..т“к,-!1Д’а* 1 • (11)

а

Признаки та с низкими значениями информативности I исключаются из выборки Д.

С целью выполнения этапа сокращения избыточных термов из выборки Д извлекаются ассоциативные правила и выявляются взаимосвязи между различными интервалами Дтак и ДтЬт признаков.

В результате извлечения ассоциативных правил из выборки Д синтезируется база правил ЯВ2 вида ЛЯг : Хг ^ с уровнем

достоверности сопГ(Хк ^ Уг), не ниже минимально приемлемого тшсопМепсе. Поэтому из транзакций (экземпляров) Т2;- выборки Д можно исключить термы Дтак е X при наличии в этих же транзакциях термов ДтЬт еУ1, входящих в консеквенты Ук правил базы ЯБ2 (12):

Ту = T2J \ и (та е Дтак) . (12)

Дтак еХк ■

3(Дт4т <^Т2 j е ,

(X/ ^¥/ )еЯБ2

Путем исключения избыточных термов из выборки Д выполняется преобразование Д ^ Д и формирование выборки Д сокращенной размерности. Таким образом полученное разбиение пространства признаков Д содержит существенно меньшее число элементов Дтак по сравнению с исходной выборкой Б, характеризуется более высокими обобщающими свойствами и позволяет понизить структурную и параметрическую сложность синтезируемых диагностических моделей.

Для выполнения экспериментального исследования предложенного метода сокращения размерности обучающей выборки на основе ассоциативных правил он был программно реализован на языке C#. Выборка для проведения экспериментов содержала информацию о характеристиках сырья и параметрах технологического процесса изготовления кондитерской продукции для 3284 партий изделий (наблюдений), описывающихся с помощью 43 признаков. Далее эта выборка сокращалась путем применения предложенного метода, а также различных методов сокращения обучающих множеств (методы отбора признаков и методы отбора экземпляров [1, 2, 5, 6, 12 - 14]).

Результаты экспериментов показали, что предложенный метод упрощения баз транзакций на основе ассоциативных правил позволяет формировать множество данных с меньшим количеством элементов по сравнению с исходной выборкой, а также строить на его основе диагностические модели с высокими значениями показателей обобщения и интерпретабельности.

Выводы. В работе решена актуальная задача упрощения баз транзакций для построения диагностических моделей.

Научная новизна работы заключается в том, что предложен метод упрощения транзакционных баз данных на основе четких продукций, который предполагает выполнение этапов редукции экземпляров, признаков и избыточных термов, для оценивания информативности

признаков использует информацию об извлеченных ассоциативных правилах и позволяет формировать разбиение пространства признаков с меньшим количеством экземпляров по сравнению с исходной выборкой, что, в свою очередь, позволяет синтезировать более простые и удобные для восприятия диагностические модели.

Список літератури: І. Denton T. Advanced automotive fault diagnosis / T. Denton. - London: Elsevier, 2006. - 271 p. 2. Sobhani-Tehrani E. Fault diagnosis of nonlinear systems using a hybrid approach / E. Sobhani-Tehrani, K. Khorasani. - New York: Springer, 2009. - 265 p. - (Lecture notes in control and information sciences; № 383). 3. Koh Y. S. Rare Association Rule Mining and Knowledge Discovery / Y.S. Koh, N. Rountree. - New York: Information Science Reference. -2009. - 320 p. 4. Adamo J.-M. Data mining for association rules and sequential patterns: sequential and parallel algorithms / J.-M. Adamo. - New York: Springer-Verlag. - 2001. - 259 p. 5. Lee J.A. Nonlinear dimensionality reduction / J.A. Lee, M. Verleysen. - New York: Springer, 2007. - З08 p. б. Abonyi J. Cluster analysis for data mining and system identification / J. Abonyi, B. Feil. - Basel: Birkhauser, 2007. - 303 p. 7. Ayubi S. An algorithm to mine general association rules from tabular data / S. Ayubi, M.K. Muyeba, A. Baraani-dastjerdi, J.A. Keane // Information Sciences. - 2009. - Vol. 179. - № 20. - P. 3520-3539. S. Verlinde H. Fuzzy versus quantitative association rules: a fair data-driven comparison / H. Verlinde, M.D. Cock, R. Boute // IEEE Transactions on Systems, Man and Cybernetics. - 2006. - Vol. 36. - N° 3. - P. 679-684. 9. Sohn S. Y. Searching customer patterns of mobile service using clustering and quantitative association rule / S. Y. Sohn, Y. Kim // Expert Systems With Applications. - 2008. - Vol. 34. - № 2.

- P. 1070-1077. І0. Zhao Y. Post-mining of association rules: techniques for effective knowledge extraction / Y. Zhao, C. Zhang, L. Cao. - New York: Information Science Reference. - 2009. -372 p. ІІ. Zhang C. Association rule mining: models and algorithms / C. Zhang, S. Zhang. -Berlin: Springer-Verlag. - 2002. - 238 p. І2. Guyon I. An introduction to variable and feature selection / I. Guyon, A. Elisseeff // Journal of machine learning research. - 2003. - № 3. - P. 1157-1182. ІЗ. Jensen R. Combining rough and fuzzy sets for feature selection: thesis ... doctor of philosophy / Jensen Richard. - Edinburgh: University of Edinburgh, 2005. - 221 p. І4.McLachlan G. Discriminant Analysis and Statistical Pattern Recognition / G. McLachlan. - New Jersey: John Wiley & Sons. - 2004. - 526 p.

Bibliography (transliterated): І. Denton T. Advanced automotive fault diagnosis / T. Denton. -London: Elsevier, 2006. - 271 p. 2. Sobhani-Tehrani E. Fault diagnosis of nonlinear systems using a hybrid approach / E. Sobhani-Tehrani, K. Khorasani. - New York: Springer, 2009. - 265 p. -(Lecture notes in control and information sciences; № 383). 3. Koh Y.S. Rare Association Rule Mining and Knowledge Discovery / Y.S. Koh, N. Rountree. - New York: Information Science Reference. - 2009. - 320 p. 4. Adamo J.-M. Data mining for association rules and sequential patterns: sequential and parallel algorithms / J.-M. Adamo. - New York: Springer-Verlag. - 2001.

- 259 p. 5. Lee J.A. Nonlinear dimensionality reduction / J.A. Lee, M. Verleysen. - New York: Springer, 2007. - 308 p. б. Abonyi J. Cluster analysis for data mining and system identification / J. Abonyi, B. Feil. - Basel: Birkhauser, 2007. - 303 p. 7. Ayub, S. An algorithm to mine general association rules from tabular data / S. Ayubi, M. K. Muyeba, A. Baraani-dastjerdi, J. A. Keane // Information Sciences. - 2009. - Vol. 179. - № 20. - P. 3520-3539. S. VerlindeH. Fuzzy versus quantitative association rules: a fair data-driven comparison / H. Verlinde, M. D. Cock, R. Boute // IEEE Transactions on Systems, Man and Cybernetics. - 2006. - Vol. 36. - № 3. - P. 679-684. 9. SohnS.Y. Searching customer patterns of mobile service using clustering and quantitative association rule / S. Y. Sohn, Y. Kim // Expert Systems With Applications. - 2008. - Vol. 34. - № 2.

- P. 1070-1077. І0. Zhao Y. Post-mining of association rules: techniques for effective knowledge extraction / Y. Zhao, C. Zhang, L. Cao. - New York: Information Science Reference. - 2009. -

372 p. ІІ. Zhang C. Association rule mining: models and algorithms / C. Zhang, S. Zhang. -Berlin: Springer-Verlag. - 2002. - 238 p. І2. Guyon, I. An introduction to variable and feature selection / I. Guyon, A. Elisseeff // Journal of machine learning research. - 2003. - № 3. - P. 1157-1182. ІЗ. Jensen R. Combining rough and fuzzy sets for feature selection: thesis ... doctor of philosophy / Jensen Richard. - Edinburgh: University of Edinburgh, 2005. - 221 p. І4.McLachlan G. Discriminant Analysis and Statistical Pattern Recognition / G. McLachlan. - New Jersey: John Wiley & Sons. - 2004. - 526 p.

Поступила (received) 25.04.2014

Статью представил д-р техн. наук, проф., декан Запорожского национального университета Гоменюк С.И.

Zayko Tatiana, postgraduate student Zaporizhzhya National Technical University Zhukovsky str., 64, Ukraine, Zaporizhzhya, 69063 tel: +380-97-355-61-55; e-mail: tzyakun@mail.ru

Oliinyk Andrii, Ph.D., Associate Professor Zaporizhzhya National Technical University Zhukovsky str., 64, Ukraine, Zaporizhzhya, 69063 tel: +380-98-256-38-93; e-mail: olejnikaa@gmail.com

Subbotin Sergey, Dr. Sci. Tech., Professor Zaporizhzhya National Technical University Zhukovsky str., 64, Ukraine, Zaporizhzhya, 69063 tel: +380-612-95-27-66; subbotin.csit@gmail.com ORCID ID 0000-0001-5814-8268.

i Надоели баннеры? Вы всегда можете отключить рекламу.