Научная статья на тему 'Применение методовdata mining для формирования базы знаний экспертной системы классификации радиосигналов'

Применение методовdata mining для формирования базы знаний экспертной системы классификации радиосигналов Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
144
33
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Применение методовdata mining для формирования базы знаний экспертной системы классификации радиосигналов»

17 декабря 2011 г. 19:46

ТЕХНОЛОГИИ ИНФОРМАЦИОННОГО ОБЩЕСТВА

Применение методов" Data Mining"

для формирования базы знаний экспертной

системы классификации радиосигналов

Виноградов А.Н., ведущий инженер МТУСИ Макарвнков С.А., к.т.н., преподаватель ИКСИ Чиров Д.С., к.т.н., ведущй научный сотрудник МТУСИ

Существует множество моделей представления знаний, применяемых в различных предметных областях. Одной из наиболее часто применяемых в экспертных системах мониторинга является продукционная модель — модель основанная на правилах [1 ]. Эта модель отличается своей наглядностью, высокой модульностью, легкостью внесения дополнений и изменений, простотой механизма логического вывода. Совокупность хранимых знаний представляется в виде набора правил вида "если (условие) то (действие)”. Под "условием” (антецедентом) понимается некоторое предложение-образец по которому осуществляется поиск в базе знании, а под "действием" (консеквентом) — действия, выюлняемые при успешном исходе поиска (действия могут быть как промежуточными, выступающими далее как условия, так и терминальными или целевыми, завершающими работу системы). Экспертные системы, использующие продукционные базы знаний, позволяют использовать прямой (от данных к цели) и обратный (от цели для её подтверждения к данным) механизмы вывода

При формировании базы знаний могут быть использованы знания экспертов предметной области, однако наибольший интерес представляет процесс автоматизированной обработки накопленной в ходе проведения мониторинга информации с использованием систем интеллектуального анализа данных и их отдельного направления — "обнаружения знаний в базах данных" ("Data Mining"). Использование систем данною класса позволяет выявить неявные либо скрытые закономерности в анализируемых данных, построить набор классифицирующих правил и определить достаточный для проведения классификации набор признаков. Алгоритмы предъявляют минимальные требования к типу анализируемых данных и применимы для обработки разнородной информации, получаемой в ходе мониторинга.

Наиболее популярные подходы в рассматриваемом классе аналитических систем реализуют алгоритмы построения деревьев решений и ограниченного перебора.

Немаловажной особенностью данных алгоритмов является то, что результаты их работы прозрачны для восприятия человеком и могут быть легко интерпретируемы оператором-аналитиком (оценка эффективности указанных алгоритмов производится по конечному результату на независимых контрольных выборках или с помощью процедур кросс-валкдизации).

Деревья решений позволяют свести анализируемые донные к набору простых правил, представленных в веде иерархической структуры — дерева. Корень дерева неявно содержит все клоссифи-цируемые данные, а листья — определенные классы после выполнения классификации. Промежуточные узлы дерева представляют пункты принятия решения о выборе или выполнения теспфующих процедур с атрибутами элементов данных, которые служат для дальнейшего разделения в этом узле (рис. 1).

Входной информацией для системы построения деревьев решений является обучающая выборка. Обучающая выборка содержит

множество примеров (объектов), каждый из которых характеризуется фиксированным набором атрибутов, причём один из них обязательно должен указывать на принадлежность объекта к определенному классу. Применительно к базам данных можно сказать, что несколько полей таблицы содержат параметры объекта, а одно поле указывает на принадлежность объекта к классу. Выходом системы является построенное по обучающей выборке дерево решений, отражающее найденные скрытые закономерности, и выявленный в ходе анализа набор признаков, достаточный для проведения классификации новых объектов.

На сегодняшний день существует значительное число алгоритмов, реализующих деревья решений — CART, С4.5, Newld, fTnjIe, СНАЮ, CN2 и тд. Наиболее широко распространенным из них является алгоритм С4.5 [5] — усовершенствованная версия алгоритма ID3 (Iterative Dichotomized. Алгоритм использует последовательность тестовых процедур, с помощью которых множество S разделяется на подмножества, содержащие объекты только одного класса. Ключевой в алгоритме является процедура построения дерева решений, в котором промежуточные узлы соответствуют тестовым процедурам, каждая из которых имеет дело с единственным атрибутом объектов из обучающэй выборки.

Пусть Т представляет любую тестовую процедуру, связанную с одним из атрибутов, а (О, ,Q2,QJ — множество допустимых выходных значений такой процедуры при ее применении к произвольному объекту х. Применение процедуры Т к объекту х будем обозначать как 7{х). Следовательно, процедура 7|х) разбивает множество S на составляющие {S,, Sj,..., Sn), такие, что

S«{x|T(x)«Q}

Если рекурсивно заменять каждый узел S поддеревом, то в результате будет построено дерево решений для обучающей выборки S. Как уже отмечалось выше, ключевым фактором в решении этой

Объект 3 65 81 408 Объект 4 34 1 9 212

всего 100 620

I

>1261 Л7

-f-

Частота

_____і_____

[ Объект 3 9913 227

Объект 4 087 г

Всего 3694 229

<■ 1261.717

!

Объект 3 46 29 181

Объект 4 53.71 210

Всего 63 06 391

Уровень

> 0.695

I

<-0695

Объект 3 100 163

Объект 4

Всего: 26 29 163

ЕОбъект 3 7.89 18

.■МДЕМДШ

Всего: 36.77 228

ft«c. 1. Структура дерева решений

T-Comm, #11-2010

61

ТЕХНОЛОГИИ ИНФОРМАЦИОННОГО ОБЩЕСТВА

проблемы является выбор тестовой процедуры — для каждого поддерева нужно найти наиболее подходящий атрибут, по которому можно выполнять дальнейшее разделение объектов.

Используем для этого заимствованное из теории информации понятие энтропии. Энтропия — это число, описывающее объем информации, содержащейся в множестве сообщений М = {т1,т2, ...,тп}. Вероятность получения определенного сообщения т1 из этого множества определим как р(гта). Объем информации, содержащейся в этом сообщении, будет в таком случае равен

Цт) = -1од р(т).

И)

Таким образом, объем информации в сообщении связан с вероятностью получения этого сообщения обратной монотонной зависимостью. Поскольку объем информации измеряется в битах, лого-рифм в этой формуле берется по основанию 2.

Энтропия множества сообщений Ц(А1) является взвешенной суммой количества информации в каждом отдельном сообщении, причем в качестве весовых коэффициентов используются вероятности получения соответствующих сообщений:

и(М) = -£;р|лі) Іодріт), і* 1,п

(2)

Чем большую неожиданность представляет получение определенного сообщения из числа возможных, тем более оно информативно. Если все сообщения в множестве равновероятны, энтропия множества сообщений достигает максимума.

Способ построения дерева решений базируется на следующих предположениях:

• Корректное дерево решений, сформированное по обучающей выборке Б, будет разделять объекты в той же пропорции, в кокой они представлены в этой обучающей выборке.

• Для какого-либо объекта, который нужно классифицировать, тестирующую процедуру можно рассматривать как источник сообщений об этом объекте.

Пусть N. — количество объектов в 5, принадлежащих классу С Тогда вероятность того, что произвольный объекте взятый из Я принадлежит классу С, можно оценить по формуле

р(сє су=N /151,

(3)

а количество информации, которое несет такое сообщение, равно Псе С)--1од2р(л1)(с€ С)бит. (4)

Теперь рассмотрим энтропию множества целевых классов, считая их также множеством сообщений {С,, Энтропия также

может быть вычислена как взвешенная сумма количества информации в отдельных сообщениях, причем весовые коэффициенты можно определить, опираясь на весомость классов в обучающей выборке:

и(М) = -Ін к ріс Є дхЦс € С,)бит.

Энтропия ЦМ) соответствует среднему количеству информации, которое необходимо для определения принадлежности произвольного объекта (с є 5), какому-то классу до того, как выполнена хотя бы одна тестирующая процедура. После того как соответствующая тестирующая процедура Твыполнит разделение б на подмножества (5,, $2, 5^, энтропия будет определяться соотношением

ЦМ--ЕН. к (|5|/|5(|)хи(5).

(6)

Полученная оценка показывает, сколько информации еще необходимо после того, как вьполнено разделение. Оценка формируется как сумма неопределенностей сформированных подмножеств, взвешенная в пропорции размеров этих подмножеств.

Из этих рассуждений очевидно следует эвристика выбора очередного атрибута для тестирования, используемая в алгоритме, — нужно вьбратъ тот атрибут, который обещает наибольший прирост информации. Прирост информации С5(Т) после выполнения процедуры тестирования Т по отношению ко множеству Б равен

(7)

Такую эвристику иногда называют минимизацией энтропии, поскольку увеличивая прирост информации на каждом последующем тестировании, алгоритм тем самым уменьшает энтропию или меру беспорядка в множестве.

Рассмотрим самый простой случай, когда множество целевых классов включает всего два элемента. Пусть п, — это количество объектов клосса С] в множестве обучающей выборки $ а — количество объектов класса С~ в этом же множестве. Таким образом, произвольный объект принадлежит к классу С, с вероятностью л,/(л,+ п2), а к классу С2 с вероятностью п2/(л, + г^). Ожидаемое количество информации в множестве сообщений М = {С,,С2) равно

ЦМ) = -п,/( л,+ П2) 1од2(п,/( п,+ л2)) --п2/(п,+п2) 1од2|п2/( п, + п2)).

(8)

Отношение |пь+п2/)/(п1+п21 соответствует весу каждой |'-й ветви дерева. Это отношение показывает, какая часть всех объектов 5 принадлежит подмножеству 5,

Недостатком эвристики, основанной на приросте количества информации, является то, что она отдает предпочтение процедурам с наибольшим количеством выходных значений (О,, 02, Оп). Возьмем, например, случай, когда практически бесполезные тесты будут разделять исходную обучающую выборку на множество классов с единственным представителем в каждом. Это произойдет, если обучающую выборку классифицировать по номеру измерения. Для описанной эвристики именно такой вариант получит преимущество перед прочими, поскольку ЩБ) будет равно нулю и, следовательно, разность С5(Т) = 1/(5) - 1/^5) достигнет максимального значения.

Для заданной тестирующей процедуры Т на множестве данных 5, которая характеризуется приростом количества информации С5(Т), возьмем в качестве критерия отбора относительный прирост Н$(7), который определяется соотношением

(5) Н5(7) = С5(7)|\1Я

где

(9)

(Ю)

Ц5) = -1р1 1 (15|/| 5г|) ж 1од2( 15|/15_|).

Важно понять, в чем состоит отличие величины Ц5) от Ц5). Величина N/(5) определяется множеством сообщений {О,, 02,...,0п} или, что то же самое, множеством подмножеств (Б,, $2_______5о), ассо-

62

Т-Сотт, # 11 -2010

циированных с выходными значениями тестовой процедуры, а не с множеством классов (С1# С^,...,С4) .Таким образом, при вычислении величины Ц5) принимается во внимание множество выходных значений теста, а не множество классов.

Новая эвристика состоит в том, что выбирается та тестирующая процедура, которая максимизирует определенную выше величину относительного прироста количества информации. Теперь те пустые тесты, о которых было упомянуто выше и которым прежний алгоритм отдал бы преимущество, окажутся наименее предпочтительны, поскольку для них знаменатель будет равен 1од2(Гч/), где N — количество элементов в обучающей выборке.

После того, как дерево решений будет построено, необходимо преобразовать его в набор логических правил, пригодный для заполнения базы знаний экспертной системы классификации радиосигналов.

Логические правила имеют следующий вид [3]:

1Р (условие 1) и (условие 1) и... (условие Ы) ТНВЧ (заключение), или ¥ (А) ТНВЧ (В)

Примеры условий: X = С,; Х< С, и тд, ще X — какой-либо параметр, С-константы.

Любое правило в виде условного суждения ЕСЛИ (А) ТО (В) имеет две основные характеристики — точность и полноту [3].

Точность правила — это доля случаев, когда правило подтверждается, среди всех случаев его применения (доля случаев В среди случаев А).

Полнота правила — это доля случоев, когда правило подтверждается, сред и всех случаев, когда имеет место объясняемый исход В (доля случаев А среди случоев В).

Таким образом, наиболее ценны правила, обладающие максимально возможной полнотой при заданной точности. Тем не менее, д ля пред метных областей со сложной системной организацией часто не удается найти единственное й-1Ьеп правило, обладающее 100 % полнотой.

Дерево решений можно преобразовать в набор логических правил. Условия в правиле — это тестовые процедуры, выполняемые в промежуточных узлах дерева, а заключение правила — отнесение объекта к определенному классу.

Однако строить набор правил перечислением всех возможных путей на графе — процесс весьма неэффективный. Некоторые тесты могут служить просто для того, чтобы разделить дерево и таким образом сузить пространство выбора до подмножества, которое в дальнейшем уточняется с помощью проверки других, более информативных атрибутов. Это происходит по той причине, что не все атрибуты имеют отношение ко всем классам объектов.

Применима следующая стратегия формирования множества правил из дерева решений. [2]

1. Сформировать начальный вариант множества правил, перечислив все пути от корня дерева к листьям.

2. Обобщать правила и при этом удалить из них те условия, которые представляются излишние. Например, в дереве решений одна ветвь отвечает условию "Чостота > 3000', в последствии эта ветвь разбивается на две подветви по параметрам "Частота > 3200" и "Частота <= 3200". В этом случае правило для одной подветви будет включать два условия: "Частота > 3000“ и "Частота > 3200'. Очевидно, что условие "Чостота > 3000" является лишним, так как условие "Частота > 3200" уточняет его.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

3. Сгруппировать правила в подмножества в соответствии с тем, к каким классам они имеют отношение, а затем удалить из каждого подмножества те правила, которые не вносят ничего нового в определение соответствующего класса.

4. Упорядочить множества правил по классам и выбрать класс, который будет являться классом по умолчанию.

Упорядочение правил, которое выполняется на шаге (4), можно рассматривать как форму механизма разрешения конфликтов. Порядок классов внутри определенного подмножества теперь уже не будет иметь значения. Назначение класса по умолчанию можно считать своего рода правилом по умолчанию, которое действует в том случое, когда не подходит ни одно другое правило.

Описанньїй алгоритм успечио применялся при обработке достаточно больших обучающих выборок, основанных на информации сигнально-параметрических баз данных, содержащих до сотен тысяч записей. Скорость работы алгоритма практически линейно зависит от произведения количества объектов в обучающей выборке на количество атрибутов, использованное для их представления. Кроме того, система способна работать с зашумленными и неполными данными, что так же немаловажно при решении задачи классификации и идентификации радиоизлучений.

Вторым классом систем поиска логических правил являются системы, реализующие алгоритмы ограниченного перебора. Современные реализации этих алгоритмов позволяют обойти некоторые недостатки методов построения деревьев решений. В большинстве случоев при построении деревьев решений используется индуктивное обучение (индукция деревьев), основанное на методе "разделения и захвата". Данный метод для перехода на следующий шаг требует прохода по всей длине построенного дерева. Оценка каждого правила происходит независимо от других правил в дереве. Это потенциально неоптимальный подход так как в этом случае можно получить правила излишней длины, то есть, различные ветви дерева могут содержать в себе одинаковые узлы (последовательности узлов). Альтернативой этому подходу может служить чередование правил при их построении, то есть необходимо оценивать качество каждого правила в контексте существующего набора. По аналогии с вышеизложенным, такой подход можно назвать "захват без разделения" ("conquering witbotf seporoSng" — CWS [4]).

В CWS каждый пример это вектор, состоящий из пар значений — признак и спецификация класса, к которому он принадлежит, признак может быть как символьным, так и числовым. Каждое провило состоит из антецедентов (тела) и прогнозируемого класса (головы). Каждый антецедент является условием, организованным но единственном признаке. Условия на символьных признаках могут иметь вид равенства а * v-, где а — признак, a v~— возможное значение признака. Условия на числовых признаках имеют вид неравенств о( > V- или а < у.. Также, каждое провило CWS связано с вектором вероятности класса; прогнозируемый класс — это класс с сомой высокой вероятностью- Для класса С, PJC) оценивается как пп/пґ где л — количество примеров покрываемых правилом г, а лп — количество примеров, принадлежащих к классу і из nf. Когда пример охвачен более чем одним правилом, вектора вероятности классов всех охватывающих этот пример правил суммируются, и класс с самой высокой вероятностью выбирается победителем для этого примера. Это подобно подходу, используемому в алгоритме CN2, только вместо частот используются вероятности.

Псевдокод алгоритма CWS представлен в таблице. Первоначально набор правил пуст, и всем примерам назначена принадлежность к превалирующему классу. В каждом цикле новое правило с пустым телом предварительно (условно) добавляется к набору, и каждое правило уже там активируется одним дополнительным антецедентом. Таким образом, индукция второго правила начинается сразу после начала первого и так долее, пока не индуцируются все правила на этом шаге. В конце каждого цикла, если к правилу не до-

T-Comm, #11-2010

63

бавляется антецедент, то правило деактивируется. Если деактивируется правило с пустым телом, то это правило удаляется из набора. Правило с пустым телом указывает на пустой (несуществующий) класс, но это не существенно, так как данное правило начинает участвовать в процессе классификации примеров только в том случае, ели имеет хотя бы один антецедент, а наличие антецедента сразу позволяет определить класс, к которому относится большинство примеров удовлетворяющему данному антецеденту. Прогнозируемый класс правила может изменяться в случаях когда к правилу добавляются новые антецеденты. Acc(BS) — точность набора правил BS на обучающей выборке (то есть доля правильно классифицируемых пр^еров правилами BS). Большинство алгоритмов индукции правил оценивают точность измененного правила только на примерах, которые оно покрывает. Это не позволяет учитывать влияние любых других правил, покрывающих эти примеры, и приводит к специализации (сужению) правила, чего следует избегать в пользу нахождения обобщенных правил. CWS не допускает этого за счет глобальной процедуры оценки и индукции вложенных правил.

Таблица

Пусть набор правил RS- О Повторять

Добавляем одно активное правило с пустым телом в набор RS.

1. Для каждого активного правила R из набора RS,

2. Для каждого возможного антецедента AV, Принимаем R' ■ Rc добавленным в тело

антецедентом AV.

Рассчитываем вектор вероятностей классов и предгкаэывпек^й кпосс для <?'. Принюлаем RS' -RScR замененным на R'.

Если Acc(RS) > Acc(RS), то RS = RS'. Возврат на 2.

Если RS не изменилось, то даактив^уем правило R. Возврат на I.

Пока все правила не деактивируются Возвращаем полученный набор гравия RS

В заключение хочется отметить, что описанные в статье методы автоматического поиска правил могут быть существенно оптимизи-

рованы и расширены. Идея усиления решения заключается в построении не сдного, а сразу нескольких деревьев решений. При этом главное требование к таким деревьям решений заключается в том, чтобы они как можно меньше дублировали друг друга. Эти деревья будут давать ошибки, но на разных объектах. В результате, использование совокупности таких деревьев, или правил, полученных из них, возможно, приведет к приросту точности классификации. Построение множества различных деревьев возможно за счет выбора отличных друг от друга параметров, по которым происходит разбиение множества в узле.

Особо стоит отметить подход при котором возможно построение нескольких деревьев решений (а также наборов правил), общее количество которых соответствует количеству классов в обучающей выборке. Каждое дерево (набор правил) при этом предназначено для классификации объектов только одного класса. Совокупность отдельных правил, полученных из таких деревьев, будет наиболее точно отражать найденные закономерности и, возможно, позволит в дальнейшем производить более точную классификацию неизвестных объектов.

Литература

1 Гаврилова Т., Хорошевский В. Базы знаний интеллектуальных систем. - СПб: Питер, 2000.

2 Джексон П. Введение в экспертные системы//Пер. с англ.: Уч. пос. — Mj Издательский дом "Вильямс", 2001.

3 Док В., Самойпенко Л Data mining: учебный курс. — СПб: ГЪтер, 2001.

4. Pedro Domingos: Fast Discovery of Simple Rules. AAAI/IAAI, VoL 2 1996: 1384.

5 Quinlan JA C4.5: Programs for Machine learning/ San Mateo, CA Morgan Kaulmann, 1993.

6 Аджвмое GQ Виноградов АН, Чфов ДС Фо$>мирование базы знаний по результатам ралиомониюринга в целях решения задачи классификации радиосигналов. T-Comm — Телекоммуникации и транспорт' Спец-вытуск апрель-2009, Москва, 2009.

64

T-Comm, # 11 -2010

i Надоели баннеры? Вы всегда можете отключить рекламу.