Научная статья на тему 'Взвешенное голосование правил в задаче классификации данных'

Взвешенное голосование правил в задаче классификации данных Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
819
64
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Кузьмич Р.И., Ступина А.А.

Рассматриваются алгоритмы простого и взвешенного голосования правил, применяющиеся в методе логического анализа данных, принцип работы которого состоит в выявлении закономерностей в данных и формализации их в виде набора логических правил.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Взвешенное голосование правил в задаче классификации данных»

Секция «Математические методы моделирования, управления и анализа данных»

УДК 519.854.33

Р. И. Кузьмич Научный руководитель - А. А. Ступина Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева, Красноярск

ВЗВЕШЕННОЕ ГОЛОСОВАНИЕ ПРАВИЛ В ЗАДАЧЕ КЛАССИФИКАЦИИ ДАННЫХ

Рассматриваются алгоритмы простого и взвешенного голосования правил, применяющиеся в методе логического анализа данных, принцип работы которого состоит в выявлении закономерностей в данных и формализации их в виде набора логических правил.

Рассматривается задача следующего вида. Имеется выборка данных, которая состоит из двух непересекающихся множеств и О- п-мерных векторов, принадлежащих соответственно «положительному» или «отрицательному» классу. Компоненты вектора, называемые также признаками, могут быть как метрическими, так и бинарными. Задача состоит в том, чтобы для некоторого нового наблюдения, являющегося также вектором п переменных, определить, к какому классу он принадлежит.

В методе логического анализа данных предлагается следующая процедура построения модели для случая двух классов (положительный и отрицательный) [2]:

а) исключить избыточные переменные в исходной выборке данных. Для этого в множестве переменных определяется некоторое подмножество S, используя которое можно различать положительные наблюдения от отрицательных. Далее для работы метода используются проекции О/ и ОТ множеств и О- на £. Такая процедура используется во многих методах классификации и анализа данных. Особенностью осуществления ее в методе логического анализа данных является то, что происходит выделение не только значимых по отдельности признаков, но и определение комбинаций признаков, которые оказывают коллективное влияние на результат;

б) построить относительно каждого объекта в обучающей выборке паттерн, который захватывал бы помимо этого объекта максимальное количество объектов своего класса и не захватывал бы объекты другого класса, либо допустить захват некоторого количества объектов другого класса с целью увеличения покрытия паттерна;

в) в итоге получаем семейство положительных и отрицательных максимальных паттернов, которые объединяются в модель.

Чтобы классифицировать новое наблюдение, воспользуемся следующим решающим правилом:

1) если наблюдение удовлетворяет условиям одного или нескольких положительных паттернов и не удовлетворяет условиям ни одного из отрицательных, то оно классифицируется как положительное;

2) если наблюдение удовлетворяет условиям одного или нескольких отрицательных паттернов и не удовлетворяет условиям ни одного из положительных, то оно классифицируется как отрицательное;

3) выбор алгоритма голосования;

а) алгоритм простого голосования. Если наблюдение удовлетворяет условиям р' из р положительных паттернов и д' из д отрицательных, то знак наблюдения определяется как р / р - д'/д.

б) алгоритм взвешенного голосования. Если наблюдение удовлетворяет условиям р' из р положительных паттернов и д' из д отрицательных, то знак

р' д'

наблюдения определяется как ^ ап Ьп , где а и Ь -

п=1 п=1

веса для положительных и отрицательных паттернов. Вес для п-го положительного паттерна находиться по

н

формуле: ап =-—, где Нп - информативность п-го

±нп

п=1

положительного паттерна, которая вычисляется по критерию бустинга: Н (р,д) = ^[р->/д [1]. Сумма

весов всех положительных паттернов равна единице:

р

^ ап = 1. Аналогично вычисляется информативность

п=1

и вес для п-го отрицательного паттерна;

4) в случае, если наблюдение не удовлетворяет условиям ни одного паттерна, положительного или отрицательного, то оно остается неклассифицированным.

Результаты классификации для задачи диагностики гепатита

Множество правил Покрытие отрицательных объектов Покрытие положительных объектов Степень правила Точность классификации (взвешенное голосование), % Точность классификации (простое голосование), %

Отрицательные 53 0 3 79 86

Положительные 0 5 4 78 56

Отрицательные 80 5 2 71 79

Положительные 5 9 4 100 67

Отрицательные 90 10 1 71 93

Положительные 10 11 3 78 33

Актуальные проблемы авиации и космонавтики. Информационные технологии

Проведем экспериментальное сравнение двух предложенных алгоритмов голосования правил на задаче диагностика гепатита. Для этого используется выборка данных, состоящая из 32 положительных (летальный исход) и 123 отрицательных (выжившие) объектов [3]. 15 % выборки использовалось при тесте и в построении решающей модели не участвовало. Бинарных признаков 37 получилось из 19 исходных. Результаты исследования приведены в таблице.

Согласно проведенным исследованиям алгоритм взвешенного голосования правил показал более высокие результаты точности классификации по параметру чувствительность (пациенты с осложнением), а это очень важно, так как на практике к чувствительности предъявляются большие требования, чем к специфичности (пациенты без осложнений).

УДК 519.8

Д. И. Ликсонова Научный руководитель - А. В. Медведев Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева, Красноярск

О МЕТОДИКЕ ПОВЫШЕНИЯ КАЧЕСТВА ОБРАЗОВАТЕЛЬНОГО ПРОЦЕССА В ВУЗЕ

Данная статья посвящена разработке методики совершенствования качества образовательного процесса в вузе.

Для начала рассматривается учебный процесс в вузе (рис. 1). Абитуриенты поступают в вуз, приобретают определенные знания в процессе обучения, участвуют в общественной жизни, по окончанию последнего года обучения пишут диплом и «выходят» на его защиту. Мониторинг учебного процесса формируется из ряда показателей учебного процесса для студентов, выпускников, преподавателей и других сотрудников вуза, которые в совокупности представляют собой иерархическое дерево. Показатели учебного процесса A1,A2,...An - являются внутренними критериями вуза. Примером таких показателей являются: авторские свидетельства; научная литература; участие в конференциях; курсовые работы; оборудование и др. Помимо этого на вуз оказывают влияние критерии качества подготовки специалиста К1,К2,...Кт -

внешние критерии, которые направлены на определение целей. Примером таких показателей являются: повышение квалификации; карьерный рост; положение в обществе и др. [2]. Для того чтобы связать внешние и внутренние критерии необходимо использовать методы воздействия на систему -M1,M2,..Mz. Примером методов являются: четкое распределение обязанностей и ответственностей между сотрудниками; внесение изменений в учебные планы и учебные программы; повышение степени взаимодействия между отдельными подразделениями университета и др.

В работе по повышению качества образовательного процесса в вузе используется метод экспертных оценок. Для оценивания выбранного внешнего крите-

Библиографические ссылки

1. Кузьмич Р. И., Масич И. С. Построение модели классификации как композиции информативных паттернов // Системы управления и информационные технологии : науч.-техн. журн. 2012. № 2 (48). С. 18-22.

2. Hammer P. L., Bonates T. Logical Analysis of Data: From Combinatorial Optimization to Medical Applications //RUTCOR Research Report 10-2005, 2005.

3. Hepatitis Data Set. URL: http://archive.ics.uci. edu/ml/datasets/Hepatitis.

© Кузьмич Р. И., 2013

Конкурентоспособность университета в условиях современных рыночных отношений и развитие высоких технологий, их коммерциализация, интеграция в мировую систему высшего образования требует от высшего учебного заведения (вуза) повышения качества подготовки квалифицированных кадров, востребованных на рынке труда. Поэтому получение качественного профессионального образования представляет собой комплексную проблему, решение которой позволяет отвечать существующим и будущим потребностям и вызовам времени. Модернизация управления системой образования - важная социальная задача, решение которой обеспечивает необходимое улучшение качества подготовки специалистов в вузе [1].

Мето ды во зд^нс твия на систему

MLШ, ,.,MS

I + I

Критерии качгстьа подготовки специалиста

Рис.1

i Надоели баннеры? Вы всегда можете отключить рекламу.