Научная статья на тему 'Модели псевдобулевой оптимизации для выявления информативных закономерностей в данных'

Модели псевдобулевой оптимизации для выявления информативных закономерностей в данных Текст научной статьи по специальности «Математика»

CC BY
83
23
i Надоели баннеры? Вы всегда можете отключить рекламу.
Область наук
Ключевые слова
КЛАССИФИКАЦИЯ / ЛОГИЧЕСКИЕ ЗАКОНОМЕРНОСТИ / ЭЛЕКТРОННАЯ КОМПОНЕНТНАЯ БАЗА / CLASSIFICATION / LOGICAL PATTERNS / ELECTRONIC COMPONENT BASE

Аннотация научной статьи по математике, автор научной работы — Масич И.С., Краева Е.М.

Рассматриваются вопросы выявления скрытых закономерностей в наборах данных и их использования для поддержки принятия решений при распознавании. Задача выявления закономерностей рассматривается как задача условной оптимизации монотонных псевдобулевых функций. Предлагаемый подход использован для решения задачи обеспечения однородности партий электрорадиоизделий для комплектации радиоэлектронной аппаратуры космических аппаратов.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

MODELS OF PSEUDOBooLEan OPTIMIZATION FOR IDENTIFICATION OF INFORMATIVE patterns IN DATA

The paper deals with the identification of hidden regularities in data sets and their use to support decision making in recognition. The problem of finding patterns is considered as a problem of conditional optimization of monotone pseudo-Boolean functions. The proposed approach is used to solve the problem of ensuring the homogeneity of batches of electronic radio products for the assembly of radio electronic equipment for space vehicles.

Текст научной работы на тему «Модели псевдобулевой оптимизации для выявления информативных закономерностей в данных»

Математические методы моделирования, управления и анализа данных

УДК 519.854.33

МОДЕЛИ ПСЕВДОБУЛЕВОЙ ОПТИМИЗАЦИИ ДЛЯ ВЫЯВЛЕНИЯ ИНФОРМАТИВНЫХ

ЗАКОНОМЕРНОСТЕЙ В ДАННЫХ*

И. С. Масич, Е. М. Краева

Сибирский государственный университет науки и технологий имени академика М. Ф. Решетнева Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31

Е-шаП: masich@sibsau.ru

Рассматриваются вопросы выявления скрытых закономерностей в наборах данных и их использования для поддержки принятия решений при распознавании. Задача выявления закономерностей рассматривается как задача условной оптимизации монотонных псевдобулевых функций. Предлагаемый подход использован для решения задачи обеспечения однородности партий электрорадиоизделий для комплектации радиоэлектронной аппаратуры космических аппаратов.

Ключевые слова: классификация, логические закономерности, электронная компонентная база.

MODELS OF PSEUDOBOOLEAN OPTIMIZATION FOR IDENTIFICATION OF INFORMATIVE PATTERNS IN DATA

I. S. Masich, E. M. Kraeva

Reshetnev Siberian State University of Science and Technology 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660037, Russian Federation Е-mail: masich@sibsau.ru

The paper deals with the identification of hidden regularities in data sets and their use to support decision making in recognition. The problem of finding patterns is considered as a problem of conditional optimization of monotone pseudo-Boolean functions. The proposed approach is used to solve the problem of ensuring the homogeneity of batches of electronic radio products for the assembly of radio electronic equipment for space vehicles.

Keywords: classification, logical patterns, electronic component base.

Создание и использование логических алгоритмов классификации основывается на выявлении в исходных данных закономерностей, из набора которых формируется решающая функция. Поиск закономерностей можно рассматривать как задачу комбинаторной оптимизации.

Для получения более эффективного решения выбор алгоритма оптимизации следует производить исходя из характерных свойств, присущих рассматриваемой оптимизационной задаче. В данной работе рассматриваются некоторые свойства задач оптимизации, решаемых в ходе поиска логических закономерностей в данных.

Рассмотрим задачу распознавания наблюдений, описываемых бинарными признаками и разделенных на два класса

K = K + и K " с B^n ,

где £2" = {0,1}, Bn = B2 х B2 х---х B2.

Наблюдение X е K описывается бинарным вектором X = x2,...,xn). Наблюдения класса K + будем называть положительными точками выборки ^

а наблюдения класса K" - отрицательными точками выборки.

Под закономерностью P (или правилом) в данном случае понимается терм (конъюнкция некоторых признаков и их отрицаний), который покрывает хотя бы одно наблюдение некоторого класса и не покрывает ни одного наблюдения другого класса [1]. Множество наблюдений, которые покрываются закономерностью P, обозначим Cov(P).

Не существует единственного однозначного критерия для сравнения логических закономерностей между собой. При анализе различных данных к качеству и особенностям формируемых закономерностей могут предъявляться разные требования. В соответствие с [2] для оценки качества чистых (однородных, не покрывающих наблюдений других классов) закономерностей используем три критерия - простота, избирательность и доказательность, а также их возможные совмещения.

Закономерность P1 более предпочтительна по отношению к P2 по критерию простоты, если Lit(с Lit(P2), где Lit(P) - множество литералов закономерности P.

* Работа выполнена в рамках государственного задания № 2.5527.2017/8.9 Минобрнауки России.

Решетневские чтения. 2017

Закономерность P1 более предпочтительна по отношению к P2 по критерию избирательности, если S(P) с S(P2), где S(P) - множество точек булева гиперкуба, покрываемых закономерностью P.

Закономерность P1 более предпочтительна по отношению к P2 по критерию доказательности, если Cov(P) э Cov(P2).

Из всех типов закономерностей, полученных в соответствие с этими критериями и их комбинациями, наиболее полезными для выявления информативных закономерностей и их использования для поддержки принятия решений при распознавании представляются закономерности первичные (оптимальные по критерию простоты), сильные первичные (оптимальные по критериям доказательности и простоты) и сильные охватывающие (оптимальные по критериям доказательности и избирательности).

Выделим некоторое наблюдение a е K+ . Обозначим Pa закономерность, покрывающую наблюдение a. Те переменные, которые зафиксированы в Pa, равны соответствующим значениям признаков объекта a.

Для задания закономерности Pa введем бинарные переменные Y = (yv y2,..., yn):

ll, i-ый признак фиксирован в Pa J [0, в противном случае.

Тогда задачу нахождения максимальной закономерности можно записать в виде задачи поиска таких значений Y = (y1,y2,...,yn), при которых получаемая

закономерность Pa покрывает как можно больше точек b е K+ и не покрывает ни одной точки c е K~ [3]:

ЕП (1"У>) ^ max, (l)

beK+ i=1

bi Фai

n

Е yt ^ 1 для всех c е K~ . (2)

i=i

ci *ai

Эта задача является задачей условной псевдобулевой оптимизации, т. е. задачей оптимизации, в которой целевая функция и функции, стоящие в левой части ограничения, являются псевдобулевыми функциями - вещественными функциями булевых переменных.

Целевая функция и функция ограничения в этой задаче являются унимодальными монотонными псевдобулевыми функциями.

Используя свойства задачи оптимизации такого класса [4], были доказаны следующие утверждения.

Утверждение 1. Крайние точки допустимой области задачи (1)-(2) соответствуют первичным закономерностям.

Утверждение 2. Оптимальное решение задачи (1)-(2) соответствует сильной первичной закономерности.

Таким образом, применяя приближенные алгоритмы оптимизации, можно утверждать, что найденная закономерность будем являться первичной, но она не обязательно будет являться сильной. Если же исполь-

зовать точный алгоритм оптимизации, то найденная закономерность будет являться сильной первичной закономерностью.

В ходе исследования была построена новая модель оптимизации, для которой доказано следующее.

Утверждение 3. В задаче, соответствующей этой модели оптимизации, крайние точки допустимой области, и только они, соответствуют сильным охватывающим закономерностям.

Экспериментальные исследования проведены на практических задачах, в частности, на задаче, описанной в [5]. Использование сильных охватывающих закономерностей уменьшает ошибку распознавания, но при этом увеличивается степень правил по сравнению с первичными закономерностями.

В работе исследован вопрос поиска информативных закономерностей посредством формализации этого поиска в виде задачи условной псевдобулевой оптимизации. Проведен анализ свойств построенной модели оптимизации и предложена новая альтернативная модель оптимизации, предназначенная для поиска сильных охватывающих закономерностей.

Библиографические ссылки

1. Crama Y., Hammer P. L., Ibaraki T. Cause-effect Relationships and Partially Defined Boolean Functions // Annals of Operations Research. 1988. 16, P. 299-325.

2. Hammer P. L., Kogan A., Simeone B., Szedmak S. Pareto-optimal patterns in Logical Analysis of Data // Discrete Applied Mathematics. 2004. № 144 (1-2). P. 79-102.

3. Bonates T. O., Hammer P. L., Kogan A. Maximum patterns in datasets // Discrete Applied Mathematics. 2008. № 156 (6). P. 846-861.

4. Антамошкин А. Н., Масич И. С. Поисковые алгоритмы условной псевдобулевой оптимизации // Системы управления, связи и безопасности. 2016. № 1. C. 103-145.

5. Задача классификации электронной компонентной базы /Л. А. Казаковцев, В. И. Орлов, А. А. Ступина, И. С. Масич // Вестник СибГАУ. 2014. № 4 (56). С. 55-61.

References

1. Crama Y., Hammer P. L., Ibaraki T. Cause-effect Relationships and Partially Defined Boolean Functions // Annals of Operations Research. 1988. No. 16. P. 299-325.

2. Hammer P. L., Kogan A., Simeone B., Szedmak S. Pareto-optimal patterns in Logical Analysis of Data // Discrete Applied Mathematics. 2004. № 144 (1-2). P. 79-102.

3. Bonates T. O., Hammer P. L., Kogan A. Maximum patterns in datasets // Discrete Applied Mathematics. 2008. №156 (6). P. 846-861.

4. Antamoshkin A. N., Masich I. S. [Search algorithms for conditional pseudo-Boolean optimization] // Sistemy upravleniya, svyazi i bezopasnosti. 2016. № 1. P. 103-145.

5. Kazakovtsev L. A., Orlov V. I., Stupina A. A., Masich I. S. [The problem of classification of electronic components] // VestnikSibSAU. 2014. № 4 (56). P. 55-61.

© Масич И. С., Краева Е. М., 2017

i Надоели баннеры? Вы всегда можете отключить рекламу.