Научная статья на тему 'Система интеллектуального анализа данных для принятия решений при оценке качества воды'

Система интеллектуального анализа данных для принятия решений при оценке качества воды Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
318
34
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ / DATA MINING / ФОРМАЛЬНЫЙ КОНЦЕПТУАЛЬНЫЙ АНАЛИЗ / FORMAL CONCEPT ANALYSIS / ТЕОРИЯ РЕШЕТОК БИРКГОФА / BIRKGOF'S LATTICE THEORY / ОЦЕНКА КАЧЕСТВА ВОДЫ / ASSESSMENT OF WATER QUALITY

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Кулакова Л. Г.

Методы интеллектуального анализа данных применяются для автоматического обнаружения эмпирических закономерностей и использования их при решении задач классификации, распознавания образов и прогнозирования. Особенность этих методов состоит в их ориентации на задачи, для решения которых трудно использовать традиционные статистические методы.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The intellectual data analysis system for decision-making in the assessment of water quality

A method of of a domain model constructing when building a knowledge based system is presented. This model is based on theory of Birkgoflattices, and is formed in recent logic-algebraic approach known as formal concept analyses. The method was applied to the structuring and formation of logical rules for assessing water quality.

Текст научной работы на тему «Система интеллектуального анализа данных для принятия решений при оценке качества воды»

№ 1 (37) 2012

Л. Г. Кулакова, начальник отдела Интеллектуальной собственности Управления научных исследований МГУПИ

Система интеллектуального анализа данных для принятия решений при оценке качества воды

Методы интеллектуального анализа данных применяются для автоматического обнаружения эмпирических закономерностей и использования их при решении задач классификации, распознавания образов и прогнозирования. Особенность этих методов состоит в их ориентации на задачи, для решения которых трудно использовать традиционные статистические методы.

Введение

Зачастую перед экспертами и исследователями встают задачи анализа очень большого объема данных или таблиц, которые могут быть представлены с помощью плохо обусловленных матриц (когда количество признаков сопоставимо с количеством объектов), либо данных, пораженных шумами или измеренных в разнотипных шкалах. Также нередки случаи отсутствия оснований для выдвижения гипотез о законах распределения анализируемых данных и т. д. Для решения таких задач весьма эффективным является аппарат интеллектуального анализа данных [1].

Цель анализа данных (Data Mining) — получение нового знания, выявление отношений между данными. К методам такого анализа следует отнести так называемый формальный концептуальный анализ, ФКА (Formal Concept Analysis, FCA), известный еще как анализ формальных понятий, плохо освещенный в отечественной научной литературе и, возможно, поэтому не получивший широкого применения в задачах структурирования данных и формирования баз данных. ФКА, введенный Рудольфом Вилле [2], является математическим подходом к анализу данных, базирующимся на теории решеток Биркгофа [3]. Он позволяет получить

116 у

из неструктурированной информации структурированную.

ФКА широко используется в прикладных областях, например при оценке качества воды по известным показателям.

Таким образом, если имеется достаточно большая база данных и предполагается, что в ней находятся некие «скрытые знания», необходимо разработать алгоритм обнаружения практически полезных знаний, которые представляют ценность для исследователя. Знания должны быть доступны для интерпретации, т. е. легко представимы в наглядной для пользователя форме, кроме того, должны давать понятные объяснения в терминах предметной области.

Целью работы является разработка такого алгоритма интеллектуального анализа данных для принятия решений при оценке качества воды.

Математическая модель формального концептуального анализа

Для проведения ФКА прежде всего необходимо определить термин «контекст» или «формальный контекст». Формальный контекст — это тройка M, I), где G — множество, называемое множеством объектов, M — множество, называемое множеством признаков, I — множество бинарных

№ 1 (37) 2012

отношений между объектами и атрибутами, I с G • М означает, что множество объектов G обладает множеством признаков М.

Следующие определения будут полезны для дальнейшего изложения:

1. На прямом произведении G ■ М двух упорядоченных множеств G и М определено отношение частичного порядка, если (х1,у1) < (х2,у2)тогда и только тогда, когда х1 < х2 в G и у1 < у2 в М.

2. Решеткой называется множество L, в котором любые два его элемента имеют точную верхнюю грань, т. е. «объединение», обозначаемое х V у, и точную нижнюю грань, или «пересечение», обозначаемое х а у.

Обычно контекст представляется в виде таблицы, в которой строки представляют объекты, а столбцы — атрибуты. Пред-

ставим контекст оценки контроля качества | воды: строки — вода с различной областью || применения, столбцы — микробиологиче- ^ ские показатели качества воды, представле- е-ны множеством атрибутов М, которые обозначены в табл. 1 цифрами от 1 до 13.

В таблице 1 каждый символ «+» помечает пару, являющуюся элементом бинарного отношения I, которое представимо в виде двудольного графа (рис. 1), в котором одному понятию соответствует максимальный по вложению полный подграф двудольного графа.

Например, бинарное отношение (питьевая вода, А) означает, что питьевая вода (объект) имеет определенные микробиологические показатели (атрибуты). Таким образом, (д,т) е I означает, что «объект д обладает свойством т».

Таблица 1

Пример контекста формирования логических правил

Объект/ атрибут Бактерии (отсутствие) Планктон(отсутствие) Вирусы (отсутствие) Простейшие (отсутствие) ОКБ (КОЕ/100 мл <10) ТКБ (КОЕ/100 мл <10) ОМЧ (КОЕ/1 мл <50) Колифаги (БОЕ/100 мл <10) Споры клостридий (отсутствие) Синегнойная палочка (отсутствие) Цисты лямблий (число цист/50 л <10) Ооцисты криптоспоридий (число ооцист/50 л <10) Е.соИ (отсутствие)

1 2 3 1" 5 6 8 9 10 11 12 13

Питьевая вода (А) — + + + + + + + + — — — —

Бутилиро-ванная вода (В) + + + + + — — + + + + + +

Сточные воды (С) — — + + + + — — — — — — —

Техническая вода ф) + + + — — — — — — — — — —

Вода в пищевой промышленности (Е) + + + + + + + + + + — — +

Вода бассейнов (Я) + + + + — — — — + + + + —

V117

№ 1 (37) 2012

10

11

12

13

А В С О Е Г

Рис. 1. Двудольный граф формального контекста К = ^, М, I)

§ со

и

£ £

I

0

1

1 I

I

I ! и

¡8

I §

<0

12 §

Л 6

I

8 §

I

й £

Главным понятием в ФКА является формальный концепт. Концепт (А, N определяет пару объекта А с G и атрибута N с M, которые удовлетворяют некоторым условиям. А называют экстентом, N — интентом концепта, а множество всех свойств, которыми они обладают, — содержанием (интенсио-налом). Чтобы определить необходимость и достаточность условий для формального концепта, определим два оператора, допустив А с G:

А' = {т е М I Уд е А :(д,т) е I}

и соответственно для N с М

N' = {д е G I Ут е N :(д, т) е I}.

Иначе говоря, множество А' содержит все атрибуты, которые являются общими для всех объектов А, а множество N есть множество всех объектов, которые обладают всеми свойствами множества N.

Тогда пара (А, N есть формальный концепт, если и только если

А' = N и А = N.

Данное свойство означает, что все объекты концепта содержат все его атрибуты. Питьевая вода, таким образом, имеет следующие микробиологические показатели: вирусы — отсутствие (норматив), планктон — отсутствие (норматив), простейшие — отсутствие (норматив), общие колиформные бактерии (ОКБ) — отсутствие (норматив), общее число микроорганизмов (ОМЧ) — КОЕ/1 мл < 50 (норматив), термотолерантные колиформные бактерии (ТКБ) — отсутствие (норматив), колифаги — отсутствие (норматив), споры сульфитредуцирующих клостридий —

118

отсутствие (норматив). Как следствие, вода безопасна в эпидемическом отношении, что соответствует санитарно-эпидемиологическим правилам и нормативам «Питьевая вода. Гигиенические требования к качеству воды централизованных систем питьевого водоснабжения. Контроль качества. СанПиН 2.1.4.1074 -01», которые устанавливают гигиенические требования к качеству питьевой воды, а также правила контроля качества воды, производимой и подаваемой централизованными системами питьевого водоснабжения населенных мест.

Для формальных концептов природа отношения подконцепт/надконцепт может быть определена следующим образом:

(АД) < (А2^2) « А1 с А2Д с N2.

Это отношение выявляет дуализм между атрибутами объектов концептов. Концепт С = (А^) — это подконцепт концепта С2 = (А2,N2), если множество его объектов является подмножеством объектов С2. Таким образом, множество всех формальных концептов образует так называемую концептуальную решетку.

Под супремумом подмножества X упорядоченного множества G будем понимать наименьший элемент G, который равен или больше всех элементов множества X({д е G I Ух е X : х < д}).

Аналогично инфимум подмножества Y упорядоченного множества М — это наибольший элемент М, который равен или меньше всех элементов множества Y ({т е М IУ у еY : у > д}).

Если контекст задан тройкой М, I), то инфинум такой решетки образуется мно-

№ 1 (37) 2012

жеством {0, М}, супремум формируется множеством 0}.

Исходя из дуализма между объектами и атрибутами, необходимо представить концепты, которые одинаково трактуют объекты и признаки. Это представление реализовано в линейных диаграммах.

Линейная диаграмма — графическое представление концептуальной решетки. Она позволяет исследовать и интерпретировать отношения между концептами, объектами и признаками, является эквивалентным представлением контекста, т. е. содержит точно такую же информацию, как помеченная таблица отношений, в которой каждому узлу соответствует концепт из данного контекста.

На диаграмме каждый объект обладает свойствами, приписанными узлу, и свойствами узлов, с которыми этот узел связан дугами снизу вверх. С другой стороны, учитывая дуализм между объектами и свойствами (атрибутами), можно утверждать, что каждым свойством обладают все объекты, приписанные этому узлу, и объекты, с узлами которых узел связан дугами сверху вниз.

Приведем пример построения решетки концептов для анализа качества воды. В таблице 1 задан формальный контекст К = М, I), где G — множество объектов, М — их свойства (атрибуты), I — бинарные отношения между объектами и атрибутами.

На рисунке 2 изображена концептуальная решетка контекста «вода с различными микробиологическими показателями качества».

Граф состоит из узлов, которые представляют собой концепты, и ребер, соединяющих эти узлы. Два узла С1 и С2 соединены тогда и только тогда, когда С1 < С2 и нет такого концепта С3, что С1 < С3 < С2.

Каждый объект и атрибут введены в граф только один раз. Атрибуты и объекты распространяются вдоль граней графа как своего рода наследование. Атрибуты распространяются вдоль граней к основанию графа. Верхний узел графа соответствует

0}, где G — множество объектов. Нижний узел графа соответствует {0, М}, где М — множество атрибутов.

Рис. 2. Концептуальная решетка контекста «вода с различными микробиологическими показателями качества»

Имена атрибутов записываются в виде цифр, а имена объектов — в виде букв около узлов графа.

Таким образом, граф отображает связи между объектами и атрибутами.

По решетке можно определить множество свойств, которыми обладает вода с различными микробиологическими показателями качества: это множество всех показателей, лежащих выше узла, помеченного названием воды. Каждый узел решетки соответствует концепту.

Заметим, что если для всех объектов контекста, для которых справедливо некоторое свойство Х, справедливо также некоторое свойство Y, то является истинной и импликация X^Y. Иными словами, если импликация Х^У истинна для контекста К= М, I) и к любому объекту д с G применим каждый признак из посылки Х, то к нему применим также признак из заключения импликации Y, где X с М и У с М.

Алгоритм формального концептуального анализа

На основе предложенной математической модели формального концептуального анализа разработан алгоритм, позволяю-

№ 1 (37) 2012

щий находить базис импликаций, справедливых для контекста, т. е. создавать правила логического вывода для принятия решения при оценке качества воды. Блок-схема алгоритма представлена на рис. 3.

Алгоритм основан на поиске в данных скрытых закономерностей (шаблонов информации). При этом накопленные сведения автоматически обобщаются для получения информации, которая может быть оха-

Начало

¡5

со

и $

£ I

0

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

1

1 I

I

I ! и

¡8

I §

<0

12 §

Л 6

I

8 §

I

й £

1

= 0

г

Определение типа воды (б)

Определение микробиологических

показателей качества воды (М)

г

Составление формального

контекста

11

Определение бинарных отношений

1 = 6 х М

1

/: = /+ 1

Да

^^ Отношения^^^_

^^ построены? ^^

НЕТ

Да НЕТ

-/ < 3 >-

У- = 0

Определение формальных концептов для каждого типа воды

Определение отношений между концептами

/: = /+ 1

Да

Построение

концептуальной решетки +

Формирование правил логического вывода

Рис. 3. Блок-схема алгоритма создания правил логического вывода

120

№ 1 (37) 2012

рактеризована как знания. Таким образом, алгоритм относится к методам интеллектуального анализа данных.

Работу алгоритма для построения базиса импликаций можно описать следующим образом:

1. Определить множество объектов G — типов воды.

2. Определить множество атрибутов М микробиологических показателей качества воды.

3. Составить формальный контекст: множество объектов G, множество атрибутов М и связь между ними I.

4. Составить бинарное отношение между объектами и атрибутами I с G х М.

5. Продолжать, пока не перечислены все элементы множества, которые могут порождать бинарные отношения.

6. Если все бинарные отношения построены, то определить формальные концепты для каждого типа воды. Если нет, то закончить алгоритм.

7. Определить бинарные отношения между концептами.

8. Если множество концептов пустое, то повторить операцию минимум три раза и закончить вычисления.

9. Если множество концептов не пустое, то перейти к построению концептуальной решетки.

10. Сформировать правила логического вывода.

Созданные с помощью алгоритма (рис. 3) правила позволяют определить все микробиологические показатели, которыми обладает тот или иной тип воды.

Предложенный алгоритм может использоваться для интеллектуального анализа данных для принятия решений при оценке качества воды.

Для генерации множеств атрибутов используется процесс обхода концептуальной решетки поиском в глубину.

Для того чтобы не генерировать избыточные множества атрибутов, используется следующее свойство: если осуществляется переход от одного понятия концептуальной

S

решетки к понятию, лежащему ниже, то би- |

нарные отношения могут быть образованы ||

только за счет добавления атрибутов, имею- ^

щихся у объектов, лежащих в объеме пре- е-дыдущего понятия и не лежащих в объеме текущего понятия.

Заключение

Недостаток описанного подхода состоит в том, что большое количество признаков влечет за собой большой размер таблицы. Другая проблема заключается в том, что результирующая таблица не содержит полную информацию о каждом объекте, кроме того, она может быть противоречивой. Противоречия обнаруживаются при непосредственном рассмотрении формального контекста и решаются после консультации со специалистом (например, при наличии в модели некоторой ошибки).

Несмотря на это, формальный концептуальный анализ делает связи между понятиями (концепциями) явными и тем самым помогает из неструктурированной информации получить структурированную, что позволяет делать выводы и принимать решения.

Разработанный алгоритм может использоваться в задачах, при решении которых требуется определение в данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.

Вычислительная сложность разработанного алгоритма и размер исходной таблицы данных подчиняются квадратичной зависимости, т. е. сложность алгоритма резко возрастает с ростом объема исходных данных.

Список литературы

1. Дюк В., Самойленко А. Data mining. СПб, Питер, 2001. — 505 с.

2. Ganter B, Wille R. Formal concept analysis: mathematical foundatioun. Springer — Verlag, New York, 1997. — 93 с.

3. Биркгоф Г. Теория решеток. М.: Наука, 1984. — 337 с.

i Надоели баннеры? Вы всегда можете отключить рекламу.