Применение метода неравномерных покрытий для решения задачи поиска максимума информативности предиката

Горчаков А.Ю.

А.Ю.Горчаков

Аннотация—В данной работе рассматривается решение задачи поиска максимума информативности предиката методом неравномерных покрытий. В статье приведен сравнительный анализ метода неравномерных покрытий с «жадным» алгоритмом и методом полного перебора на примере конкретной задачи.

Ключевые слова—задача глобальной оптимизации, методы поиска информативных закономерностей, задача бинарной классификации.

1.Введение

Задача бинарной классификации формулируется следующим образом. Пусть задано множество объектов X, множество меток У = {0,1}, и существует целевая функция у*: Х^У, значения которой

У1 = у*(х1), известны только на конечном множестве объектов Хг,..., ХпЕХ . Пары «объект-класс» (X^,у1) называются прецедентами. Совокупность пар (Х1, у^ )11=1 называется обучающей выборкой. Задача бинарной классификации заключается в том, чтобы по обучающей выборке научиться восстанавливать зависимость у*, то есть построить решающую функцию X ^ У , которая бы приближала целевую функцию, причем не только на объектах обучающей выборки, но и на всем множестве X.

В случае если данные X Е Я, некоторые из предлагаемых методов решения задачи [1],[2] предполагают бинаризацию этих данных.

Пусть ф(х) некоторый предикат, определенный на множестве объектов X, выделяет достаточно много объектов одного класса С, и практически не выделяет объекты другого класса. Введем обозначения:

Р - число объектов класса С в выборке

р - из них число объектов, для которых выполняется условие (р(х) = 1

N - число объектов не принадлежащих классу С в выборке

п - из них число объектов, для которых выполняется условие <р(х) = 1

*Работа выполнена при поддержке РФФИ, проект 16-07-00458 А.Ю. Горчаков - старший научный сотрудник Вычислительного центра им. А.А. Дородницина Федерального исследовательского центра «Информатика и управление» Российской академии наук. andrgor 12@gmail. com

Информативность предиката ф(х) относительно класса С ЕУ по выборке X1 = (X¿, у1 )-=1будем рассчитывать через статистическое определение информативности [2],[5]:

1С (ц>, X1) = где С* -

-In

f-P f-n °P °N

pP + n

, где 0 < p < P, 0 < n < N, (1.1)

ml

■ биномиальные коэффициенты,

к!(т-к)!

0 < к < т

Пусть f: X ^ Я - числовой признак. Зонами значений признака/, будем называть предикаты вида: (р(х) = [й< [(х) < й'], й < (И (1.2)

Требуется найти такие й и й' , что 1С (ф, X1) ^ тах . Возьмем для примера выборку из примерно 100000 прецедентов, где Х^ Е [0,1] , а множество меток У = {0,1}.

График зависимости функции 1С (ф, X1) от & , при различных d выглядит следующим образом (см. рис. 1):

Рис.1

II.Описание алгоритмов.

1.Жадный алгоритм слияния зон [1],[2] - возьмем пороги вида

^ = Я0 + т + 1),/(0 ФГм . = 1.....1 (1.3)

где [(1) < ••• < последовательность значений признака f на объектах выборки [(х^),...,/(х1) упорядоченная по возрастанию. Причем подбираются таким образом, что они проходят между всеми парами точек Х1-1, XI ровно одна из которых принадлежит классу С.

Таким образом начальное разбиение состоит их чередующихся зон «только С - только не С». Далее

зоны укрупняются путем слияния троек соседних зон. Зоны сливаются до тех пор, пока информативность некоторой слитой зоны превышает информативность исходных зон, либо пока не будет получено заданное количество зон г.

Каждый раз выбирается та тройка, при слиянии которой достигается максимальный выигрыш информативности.

2. Метод полного перебора - возьмем пороги вида (1.3) и вычислим значения функции для всех значений I = 1,..., I- 2, ] = I + 1,..., I- 1

3 .Метод перебора по равномерной сетке -простейший из методов оптимизации действительно-значных функций. Суть метода - разобьем й и й' на п равных частей:

й: = —, I = 0,..., п й' = —, ] =0,..., п и вычислим

' п 1п

значения функции 1С (<р, X1) в точках , сЦ I = 0,..., п,]' =0,..., п, г<|, далее путем сравнения найдем точку в которой функция принимает максимальное значение.

4.Метод неравномерных покрытий (незначительная модификация метода, приведенного в [3],[4]) -

Предположим, что функция [(х) удовлетворяет

условию Липшица, то есть для существует число Ь < 0 такое, что

любых х1 и х2

\f(xi) -f(x2)\ <1\\хг-х2\\, \\z\\

z\\ =

Ï>(0 )2

-i=1

(1.4)

\\x - Xj\\ = (Fk - f(Xj) + e)/L = Rj

(1.9)

аналогии с методом перебора по равномерной сетке), а далее считаем куб покрытым, если он целиком содержится в одной из п-мерных сфер Уг, У2,..., Ук.

Сначала сравним результаты работы 2-х алгоритмов

1. Метод полного перебора

2. «Жадный» алгоритм слияния зон.

Метод Кол-во вычисл ений 1с Максимум ¡с d d'

Полного перебора 502502 39.287 0.187 0.977

«Жадный» алгоритм 1351 17.901 0.031 0.047

Рис.2

Как видно из рис.2 метод полного перебора находит глобальный максимум, но при этом требует большего количества вычислений. «Жадный» алгоритм останавливает свою работу в локальном максимуме, далеком от глобального.

Далее посмотрим результаты работы метода поиска по равномерной сетке с различными значениями п.

и известны ее значения в точках х±, х2,... хк из (1.4) следует

Г(Хк) -Ц\х-хк\\<г(х) <Г(Хк) + Ц\х-Хк\\. (1.5) Определим величину

Рк = тах[/(х1), Г(х2).....[(Хк)] (1.8)

Найдем множество Ак такое, что на Ак имеет место Г(х) <Рк + Е (1.7)

Условие (1.7) выполнено для всех х, удовлетворяющих хотя бы одному из к условий

[(х}) + ¿Цх-х,-!! < ^ + £,у = 1,2,., к. (1.8)

При каждом фиксированном ] значения х удовлетворяющие (1.8), заполняют «-мерный шар V], границей которого является сфера

Значение n Кол-во вычисл ений 1с Максимум ¡с d d'

11 55 34.172 0.0 0.2

51 1275 38.065 0.0 0.14

101 5050 38.065 0.0 0.14

501 125250 38.785 0.0 0.156

1001 500500 39.287 0.187 0.975

Рис.3

Для более корректного сравнения модифицируем алгоритм слияния зон. Разобьем интервал ё на п равных подынтервалов и вычислим математическое ожидание у*, на каждом из них и на всем интервале

I

1= ,

i = 1

m

j = ^ Vi, где dj < f(i) < d

(1.10)

(1.11)

с центром в точке ху и с радиусом, равным Я^.

Центры шаров с наименьшими радиусами Ят1П = е/Ь располагаются в тех точках х^ , где f{x^) = Рк. Шар (1.8) и сферу (1.9) будем в дальнейшем обозначать одной буквой V].

Величина Рк является решением задачи об отыскании глобального максимума функции /(х) на множестве Ак= ^^-¡^У], так как максимальное значение функции /, удовлетворяющей (1.7) не превосходит на множестве Ак более чем на е величину Рк.

Если для некоторой последовательности точек х1, х2,... хк получено Ак покрывающее допустимое множество, то тогда Рк есть решение исходной задачи. Способов получения последовательностей таких точек может быть множество. Один из них - разбиваем множество на п-мерные кубы равного размера (по

Введем новый класс С', так что подынтервал принадлежит классу С' если М] > М, и не принадлежит если М] < М. На вход алгоритма «жадного» слияния зон подаем подынтервалы и новый класс С'.

Значение n Кол-во вычисл ений 1с Максимум ¡с d d'

11 6 25.860 0.0 0.3

51 50 34.204 0.0 0.24

101 139 36.214 0.0 0.15

501 576 37.757 0.0 0.158

1001 798 35.582 0.0 0.121

Рис.4

Приведем более подробное описание работы алгоритма: п=11

Шаг1: отрезок [0,1] разбивается на 10 равных подынтервалов. Вычисляется математическое ожидание

М = 0,505 и М1= 0,473; М2=0.490; М3=0.507; М4 =0.512; М5=0.518; М6=0.512; М7=0.506; М8=0.502; М9=0.522; М10=0.515

Шаг2: по формуле (1.3) подбираются пороги й1 =0.0; а2 = 0.3; аз = 0.8; а4 = 0.9; й5 = 1.0 Шаг3: находим тройку зон [0.3;0.8] [0.8;0.9] [0.9;1.0], при слиянии которой достигается максимальный выигрыш информативности и сливаем их в одну зону. Шаг4: в результате слияния зон на шаге 3 осталось 2 зоны [0.0;0.3] [0.3;1.0], из них выбираем зону с максимальной информативностью - [0.0;0.3]. п=51

Шаг1: отрезок [0,1] разбивается на 50 равных подынтервалов. Вычисляется математическое ожидание Шаг2: по формуле (1.3) подбираются пороги й1 =0.0; а2 = 0.2; аз = 0.22; й4 = 0.24; й5 = 0.28; й6 = 0.3; а7 = 0.34; й8 = 0.36; (19 = 0.52; й10 = 0.54; й11 = 0.6; а12 = 0.62; а13 = 0.64; й14 = 0.66; й15 = 0.7; й16 = 0.8; а17 = 0.94; й18 = 0.96; а19 = 1.0

Шаг3(1): сливаем тройку зон [0.34;0.36] [0.36;0.52] [0.52;0.54].

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Шаг3(2): сливаем тройку зон [0.8;0.94] [0.94;0.96] [0.96;1.0].

Шаг3(3): сливаем тройку зон [0.28;0.3] [0.3;0.34] [0.34;0.54].

Шаг3(4): сливаем тройку зон [0.24;0.28] [0.28;0.54] [0.54;0.6].

Шаг3(5): сливаем тройку зон [0.62;0.64] [0.64;0.66] [0.66;0.7].

Шаг3(6): сливаем тройку зон [0.6;0.62] [0.62;0.7] [0.7;0.8].

Шаг3(7): сливаем тройку зон [0.24;0.6] [0.6;0.8] [0.8;1.0]. Шаг3(8): сливаем тройку зон [0.0;0.2] [0.2;0.22] [0.22;0.24].

Шаг4: в результате слияния зон на шаге 3 осталось 2 зоны [0.0;0.24] [0.24;1.0], из них выбираем зону с максимальной информативностью - [0.0;0.24].

Если сравнивать (рис.3, рис.4) алгоритм перебора по равномерной сетке и «дискретизированный» вариант алгоритма слияния зон, то получается, что алгоритм слияния зон имеет существенно меньшую вычислительную сложность, но при этом значение найденного максимума у него ниже чем у алгоритма перебора по равномерной сетке. Причем, начиная с некоторого п, качество работы алгоритма ухудшается.

Теперь посмотрим, как работает алгоритм неравномерных покрытий: Зададим параметры метода е = 1.0 и I = 100.0

Значение n Кол-во вычисл ений 1с Максимум ¡с d d'

11 16 33.562 0.2 1.0

51 13 33.653 0.24 1.0

101 12 34.400 0.22 0.99

501 25 28.606 0.25 0.992

г = 1.0, п = 51

Значение L Кол-во вычисл ений 1с Максимум ¡с d d'

100 13 33.653 0.24 1.0

200 45 36.289 0.12 1.0

400 147 38.065 0.0 0.14

800 538 38.065 0.0 0.14

Рис.6

Из рис.5 и рис.6 видно, что для работы алгоритма неравномерных покрытий существенно важна оценка константы Липшица Ь. При заниженной константе метод неравномерных покрытий пропускает точку, в которой функция принимает максимальное значение, при завышенной - производится излишнее количество вычислений функции.

Далее на рис.7-рис.16 приводится первые 10 шагов работы метода с параметрами

е = 1.0, Ь = 100.0, п = 51. Легенда: «красный» -текущий найденный максимум, «желтый» - точки в которых вычислялась функция информативности предиката 1С , «зеленый» - покрытие при текущем вычислении функции, «синий» - покрытие при обновлении значения найденного максимума.

Рис.7, рис.8 покрытие осуществляется кубами минимального размера (вписанными в сферу радиуса Ктт =

рис.9 радиус покрытия увеличивается; рис.10 обновлено значение максимума, производится покрытие в окрестностях ранее вычисленных точек; рис.11, рис12 аналогично рис.9 рис.13 существенно обновлено значение максимума рис.14, рис.15, рис.16 заключительные шаги алгоритма - покрытие оставшегося множества.

Рис.7

Рис.8

0 0.2 0.4 0.6 0.8

Рис.9

Рис. 10

Рис.5

0 0.2 04 0.6 08

Рис.11

0 0.2 04 06 0.8

Рис.13

0 0.2 04 0.6 0.8 1

Рис.12

0.2 0.4 0.6 08

Рис.14

02 0.4 0.6 08

Рис.15

Рис.16

Ш.ЗАКЛЮЧЕНИЕ

Сравнительный анализ алгоритмов показал, что метод перебора по равномерной сетке гарантированно находит максимум с заданной точностью, но требует произведения большого количества вычислений. «Жадный» алгоритм слияния зон обходится небольшим количеством вычислений, но нахождение максимума не гарантируется.

Метод неравномерных покрытий, по вычислительной сложности аналогичен алгоритму «жадного» слияния зон и качеству нахождения максимума аналогичен методу перебора по равномерной сетке. Причем, в случае корректной оценки константы Липшица, метод неравномерных покрытий гарантированно находит значение глобального максимума с заданной точностью.

1У.БИБЛИОГРАФИЯ

[1] Кузьмич Р.И., Гулакова Т.К., Масич И.С. Способы бинаризации разнотипных признаков в задачах классификации //Актуальные проблемы авиации и космонавтики, vol. 6, 2010, pp. 323-325.

[2] Воронцов К. В. Математические методы обучения по прецедентам (теория обучения машин), Москва, 2011.

[3] Евтушенко Ю. Г. Численный метод поиска глобального экстремума функций (перебор на неравномерной сетке) //Журнал вычислительной математики и математической физики, 1971, vol. 6. - pp.1390-1403.

[4] Evtushenko Y., Posypkin M. A deterministic approach to global box-constrained optimization //Optimization Letters, 2013, vol. 4, pp. 819829.

[5] Dubner P. N. Statistical tests for feature selection in KORA recognition algorithms // Pattern Recognition and Image Analysis, 1994, Vol. 4, no. 4. p. 396.

Application of method nonuniform coverings for maximum information content of predicate

search

Andrei Y. Gorchakov

Abstract—In this paper, we consider the solution of the maximum information content of predicate search with method nonuniform coverings. The paper presents a comparative analysis of the nonuniform covering method with "greedy" algorithm and the method of exhaustive search for an example problem.

Keywords—the problem of global optimization, search methods informative laws, binary classification problem.

Применение метода неравномерных покрытий для решения задачи поиска максимума информативности предиката Текст научной статьи по специальности «Математика»

Аннотация научной статьи по математике, автор научной работы — Горчаков А. Ю.

Похожие темы научных работ по математике , автор научной работы — Горчаков А. Ю.

Текст научной работы на тему «Применение метода неравномерных покрытий для решения задачи поиска максимума информативности предиката»