Научная статья на тему 'Исследование зависимости точности классификации от степени формируемых паттернов в методе логического анализа данных'

Исследование зависимости точности классификации от степени формируемых паттернов в методе логического анализа данных Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
58
9
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СТЕПЕНЬ ПАТТЕРНА / DEGREE OF PATTERN / ПОКРЫТИЕ / COVERAGE / ПСЕВДОБУЛЕВАЯ ОПТИМИЗАЦИЯ / PSEUDOBOOLEAN OPTIMIZATION

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Кузьмич Р.И.

Рассматривается влияние формируемых паттернов с заданной минимальной степенью на точность классификации в методе логического анализа данных. Экспериментальные исследования проводятся на задаче фибрилляция желудочков.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Кузьмич Р.И.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

RESEARCH OF DEPENDENCE OF CLASSIFICATION ACCURACY ON THE FORMED PATTERN DEGREE IN THE METHOD OF LOGICAL ANALYSIS OF DATA

The influence of the patterns formed with a predetermined minimum degree of classification accuracy is considered. Experimental studies are carried out for the task of ventricular fibrillation.

Текст научной работы на тему «Исследование зависимости точности классификации от степени формируемых паттернов в методе логического анализа данных»

Откуда можно оценить минимально необходимый размер одного элемента группы подстановок в битах как nlogn!, где n - степень группы подстановок. В то же время верно утверждение, что необходимо и достаточно всего log n! бит на элемент группы. Разработка алгоритмов «упаковки» подстановок позволит снизить требования к пространственным ресурсам каналов связи между узлами вычислительного комплекса в n раз. Величина n может принимать значения десятки, сотни, тысячи и т. д. в зависимости от целевой задачи. В настоящей работе в качестве такого алгоритма предлагается перевод подстановки в числовое значение в позиционной системе счисления с неравномерным факториальным основанием. Временные характеристики алгоритмов, реализующих основные операции, можно улучшить за счёт применения самих свойств подстановок и перейти к так называемым полуторапроходным алгоритмам.

Целью работы является разработка алгоритмов вычисления операций в группе подстановок, оценка пространственно-временных характеристик данных алгоритмов, а также реализация в виде законченного инженерно-технического решения.

Требования, предъявляемые к такому решению, следующие. Оно должно быть представлено в виде системы функций и распространяться под лицензией GNU LGPL (GNU Lesser General Public License). Максимальный размер элемента группы подстановок 231.

Внешнее распределение требуемой памяти. Должны быть предусмотрены средства как пользовательского ввода-вывода, так и механизмы парсинга и се-риализации [3]. Библиотека должна быть написана на языке C + + в виде системы функций и макросов для архитектуры процессора IA-32. Должно быть кросс-платформенным и не использовать программный интерфейс Windows или POSIX подобных систем.

Библиографические ссылки

1. Каргаполов М. И., Мерзляков Ю. И. Основы теории групп. 2-е изд. М. : Наука, 1977. 204 с.

2. Супруненко Д. А. Группы подстановок. Минск : Навука i тэхшка, 1996. 366 с.

3. Бентли Дж. Жемчужины программирования. 2-е изд. СПб. : Питер, 2002. 272 с.

References

1. Kargapolov M. I., Merzljakov Ju. I. Osnovy teorii grupp. Izdanie vtoroe [Bases of group theory. Second edition]. Moscow, Nauka, 1977, 204 p. (In Russ.)

2. Suprunenko D. A. Gruppy podstanovok [Symmetric group]. Minsk, Navuka i tjehnika, 1996, 366 p. (In Russ.)

3. Bently J. Zhemchuzhiny programmirovanija. 2-e izdanie [Programming pearls. Second edition]. St. Petersburg, Piter, 2002, 272 p. (In Russ.)

© Кузнецов А. А., Кукарцев А. М., 2014

УДК 519.854.33

ИССЛЕДОВАНИЕ ЗАВИСИМОСТИ ТОЧНОСТИ КЛАССИФИКАЦИИ ОТ СТЕПЕНИ ФОРМИРУЕМЫХ ПАТТЕРНОВ В МЕТОДЕ ЛОГИЧЕСКОГО АНАЛИЗА ДАННЫХ

Р. И. Кузьмич

Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева Российская Федерация, 660014, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31

E-mail: kuzrom88@mail.ru

Рассматривается влияние формируемых паттернов с заданной минимальной степенью на точность классификации в методе логического анализа данных. Экспериментальные исследования проводятся на задаче фибрилляция желудочков.

Ключевые слова: степень паттерна, покрытие, псевдобулевая оптимизация.

RESEARCH OF DEPENDENCE OF CLASSIFICATION ACCURACY ON THE FORMED PATTERN DEGREE IN THE METHOD OF LOGICAL ANALYSIS OF DATA

R. I. Kuzmich

Siberian State Aerospace University named after academician M. F. Reshetnev 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660014, Russian Federation E-mail: kuzrom88@mail.ru

The influence of the patterns formed with a predetermined minimum degree of classification accuracy is considered. Experimental studies are carried out for the task of ventricular fibrillation.

Keywords: degree of pattern, coverage, pseudoboolean optimization.

Имеется выборка данных, состоящая из двух непересекающихся множеств О + и О- «-мерных векторов, принадлежащих, соответственно, положительному или отрицательному классу.

Компоненты вектора, называемые также признаками, могут быть как численными, номинальными, так и бинарными. Задача состоит в том, чтобы для нового наблюдения, являющегося также вектором п

Математические методы моделирования, управления и анализа данных

переменных, определить, к какому классу он принадлежит.

В методе логического анализа данных для исключения избыточных переменных в исходной выборке данных во множестве переменных определяется некоторое подмножество S, используя которое можно различать положительные наблюдения от отрицательных. Далее для работы метода используются проекции О8 + и О.Т множеств О + и О- на &

В основе рассматриваемого подхода лежит понятие паттерна. Положительным паттерном называется подкуб пространства булевых переменных В2', который пересекается с множеством + и имеет некоторое ограниченное число общих элементов с множеством О/.

Положительный ю-паттерн для ю6 {0,1}' - это паттерн, содержащий в себе точку ю. Для каждой точки ю 6 + найдем максимальный ю-паттерн, т. е. покрывающий наибольшее число точек + . Соответствующий подкуб зададим с помощью переменных у-: ¡1, если х^ зафиксирована в подкубе,

У, =

0, в противном случае.

Позитивное наблюдение с 6 + будет тогда входить в рассматриваемый подкуб, когда переменная у, принимает значение 0 для всех индексов ,, для которых с, Ф ю,. Число положительных наблюдений, покрываемых ю-паттерном, может быть вычислено как

I П (1 - у,).

абО+ 3 =1

а, Ф га,

Условие, говорящее о том, что положительный паттерн не должен содержать ни одной точки О/, требует, чтобы для каждого наблюдения р 6 О/ переменная у, принимала значение 1 по меньшей мере для одного , для которых р Ф ю :

3=1 р,фга,-

у, > 1 для любого рбП_5

(1)

Усиление ограничения для повышения устойчивости к ошибкам производится путем замены числа 1 в правой части неравенства на целое положительное число ё.

Для повышения устойчивости метода к выбросам следует ослабить ограничение (1), чтобы паттерн захватывал некоторое малое число объектов другого класса. Тогда степень вычисляемых паттернов уменьшится, а покрытие увеличится. Таким образом, имеем задачу условной псевдобулевой оптимизации с алгоритмически заданными функциями:

I П (1 - у,) ^ тах,

абО+ 3=1

I

Р6Цу

^ о,

где =

0, если I у, > ё,

3=1

Р3Фга3

(2)

(3)

1, в противном случае,

где О - число объектов другого класса, которые допускаются быть покрытыми паттерном.

В рассматриваемой модели (2)-(3) паттерны формируются с максимальным покрытием и минимальной степенью, т. е. состоят из минимального количества переменных, позволяющих разделить объекты разных классов. При таком подходе, как правило, полученные паттерны хорошо разделяют объекты обучающей выборки, а на тестовой выборке допускают значительное количество ошибок. Поэтому в данной работе предлагается исследовать зависимость точности классификации от степени формируемых паттернов путем её постепенного увеличения.

Зависимость точности классификации от степени формируемых паттернов для задачи фибрилляции желудочков

Минимальная степень паттерна Множество паттернов Покрытие отрицательных объектов Покрытие положительных объектов Средняя степень паттерна Точность классификации, %

1 отр. 28 5 5 80

пол. 5 25 3 89

2 отр. 28 5 6 80

пол. 5 25 3 83

3 отр. 27 5 6 80

пол. 5 25 4 83

4 отр. 27 5 6 90

пол. 5 23 4 89

5 отр. 28 5 6 90

пол. 5 24 5 83

6 отр. 28 5 7 80

пол. 5 23 6 72

7 отр. 29 5 7 100

пол. 5 21 7 78

8 отр. 28 5 8 90

пол. 5 22 8 72

9 отр. 27 5 9 80

пол. 5 21 9 67

Для реализации предлагаемой идеи вводится параметр «Минимальная степень паттерна», позволяющий получать паттерны, степень которых не меньше значения данного параметра, задаваемого исследователем.

Проведем ряд экспериментов на задаче осложнения инфаркта миокарда - фибрилляция желудочков [1]. Для проведения испытаний использовалась выборка данных, состоящая из 70 пациентов с осложнением (положительные объекты) и 70 объектов без осложнения (отрицательные объекты). При проведении исследований 15 % выборки использовалось для проверки решающей модели и не участвовало при ее построении. Для нахождения правил использовалась оптимизационная модель (2)-(3), допускающая, чтобы правила покрывали некоторое ограниченное число объектов другого класса для «смягчения» возможных неточностей и ошибок в данных. Результаты испытаний приведены в таблице.

По результатам, приведенным в таблице, можно отметить, что при увеличении параметра «Минимальная степень паттерна» незначительно уменьшается среднее покрытие паттернов, что означает возможность построения паттернов, которые обладают высоким покрытием при увеличении заданной степени паттерна. Точность классификации изменяется несу-

щественно до определенного значения параметра «Минимальная степень паттерна» (5), а при дальнейшем его увеличении точность классификации снижается. Данное явление объясняется тем, что изначально при увеличении параметра мы не допускаем формирования паттернов с небольшой степенью (1)-(3), которые, как правило, захватывают объекты другого класса, а после определенного значения параметра (5) покрытие формируемых паттернов уменьшается, ослабляя их обобщающие способности, что сказывается на точности классификации.

Библиографическая ссылка

1. Горбань А. Н., Шульман В. А., Россиев Д. А. Осложнения инфаркта миокарда: база данных для апробации систем распознавания и прогноза. Препринт № 6. Красноярск : Вычислительный центр СО РАН, 1997.

Reference

1. Gorban A. N., Shulman V. A., Rossiev D. A. Complications of myocardial infarction: a database for testing systems of recognition and prediction. Krasnojarsk. Computing Center SB RAS: preprint № 6, 1997.

© Кузьмич Р. И., 2014

УДК 519.683.8

ПРИМЕНЕНИЕ СПАРЕННЫХ КРАСНО-ЧЕРНЫХ ДЕРЕВЬЕВ ДЛЯ СНИЖЕНИЯ ПРОСТРАНСТВЕННЫХ ХАРАКТЕРИСТИК АЛГОРИТМОВ ЧАСТОТНОГО АНАЛИЗА ИНФОРМАЦИОННЫХ СООБЩЕНИЙ ЭКСПОНЕНЦИАЛЬНОГО РАЗМЕРА

А. М. Кукарцев

Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева Российская Федерация, 660014, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31

E-mail: amkukarcev@mail.ru

При решении ряда теоретических и прикладных задач нужно производить расчёт частотных характеристик информационных сообщений. Для сообщений экспоненциального размера такой расчёт является сложно-решаемой инженерной задачей. Предлагается метод спаренных красно-чёрных деревьев для достижения оптимальных пространственно-временных характеристик алгоритма формирования частот. Описываются требования к разрабатываемому инженерно-техническому решению, реализующему предложенную методику.

Ключевые слова: частотный анализ, энтропия информации, красно-чёрные деревья.

USING THE PAIRED RED-BLACK TREES TO REDUCE SPACE COMPLEXITY OF FREQUENCY ANALYSIS ALGORITHMS OF INFORMATIONAL MESSAGES OF EXPONENTIAL SIZE

A. M. Kukartsev

Siberian State Aerospace University named after academician M. F. Reshetnev 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660014, Russian Federation E-mail: amkukarcev@mail.ru

The calculation of the frequency characteristics of information messages is needed for solving a number of theoretical and applied problems. This calculation is a complex engineering task for messages of exponential size. A description of the subject area and the main task are formulated. A method of paired red-black trees for optimal space

i Надоели баннеры? Вы всегда можете отключить рекламу.