Научная статья на тему 'Латентный анализ на базе метода штрафных функций для многомерных бинарных показателей'

Латентный анализ на базе метода штрафных функций для многомерных бинарных показателей Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
147
23
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КЛАССИФИКАЦИЯ С ОБУЧЕНИЕМ / ФОРДИАСИМПТ / ЛАТЕНТНЫЙ АНАЛИЗ / МЕТОД ШТРАФНЫХ ФУНКЦИЙ / КОРА / НАИВНЫЙ БАЙЕСОВСКИЙ КЛАССИФИКАТОР / МЕТОД K БЛИЖАЙШИХ СОСЕДЕЙ / ДЕРЕВО РЕШЕНИЙ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Шовин В.А., Гольтяпин В.В.

Проведено сравнение алгоритмов классификации с обучением ФОРДИАСИМПТ, латентный анализ на базе метода штрафных функций, КОРА, наивный байесовский классификатор, метод k ближайших соседей, дерево решений на базе прироста информации и снижения средней энтропии на примере многомерных бинарных показателей.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Латентный анализ на базе метода штрафных функций для многомерных бинарных показателей»

структуры и моделирование 2017. №2(42). С. 80-87

УДК 519.237.7

ЛАТЕНТНЫЙ АНАЛИЗ НА БАЗЕ МЕТОДА ШТРАФНЫХ ФУНКЦИЙ ДЛЯ МНОГОМЕРНЫХ БИНАРНЫХ

ПОКАЗАТЕЛЕЙ

В.А. Шовин

научный сотрудник, e-mail: v.shovin@mail.ru В.В. Гольтяпин

доцент, к.ф.-м.н., e-mail: goltyapin@mail.ru

Институт математики им. С.Л. Соболева СО РАН (Омский филиал)

Аннотация. Проведено сравнение алгоритмов классификации с обучением ФОРДИАСИМПТ, латентный анализ на базе метода штрафных функций, КОРА, наивный байесовский классификатор, метод k ближайших соседей, дерево решений на базе прироста информации и снижения средней энтропии на примере многомерных бинарных показателей.

Ключевые слова: классификация с обучением, ФОРДИАСИМПТ, латентный анализ, метод штрафных функций, КОРА, наивный байесовский классификатор, метод k ближайших соседей, дерево решений.

Введение

Деревья решений являются альтернативным методом классификации с обучением. Деревья решений позволяют вскрывать структуру обучающего множества по определённому критерию прироста информации. Использование данного критерия в узле дерева делит исходное множество на два подмножества. В качестве такого критерия может выступать снижение средней энтропии разделённого множества. Деление множеств осуществляется рекурсивно до тех пор, пока в потомке не окажутся объекты одного класса. Использование данного принципа позволяет осуществлять классификацию для объектов различной природы, в том числе, когда показатели объектов имеют бинарный вид [1]. В данном случае в качестве предиката, разделяющего множество на подмножества, используется сравнение бинарного показателя по значению.

Наивный байесовский классификатор использует предположение о независимости показателей. В качестве решающего правила для классификации используется формула Байеса.

Метод к ближайших соседей использует в качестве решающего правила для классификации наиболее распространённый класс среди соседей данного элемента.

Алгоритм КОРА (комбинаторного распознавания) — алгоритм классификации (взвешенного голосования правил), предложенный М. Вайнцвайгом и

М. Бонгардом в 1973 г. [2,3], который применяется как метод распознавания двух образов в пространстве двоичных признаков путём построения и анализа набора конъюнктивных закономерностей.

Алгоритм латентного анализа позволяет для группы показателей найти вероятности принадлежности объектов к различным классам на базе латентной модели связи условных вероятностей наличия показателей при принадлежности к классу и вероятностей распределения объектов по классам. Вычислить латентные вероятности модели возможно на базе метода штрафных функций.

Алгоритм ФОРДИАСИМПТ является методом латентного анализа, когда известны независимые тройки показателей. Найти латентные вероятности для троек параметров оказывается возможным однозначно на базе аналитического расчёта.

1. Дерево решений

Алгоритм построения дерева решений можно описать следующим образом:

1. з0 := вычисляем энтропию исходного множества.

2. Если = 0, значит:

- все объекты исходного набора, принадлежат к одному классу;

- сохраняем этот класс в качестве листа дерева.

3. Если < > 0 значит:

- перебираем все элементы исходного множества;

- для каждого элемента перебираем все его показатели;

- на основе каждого показателя генерируем предикат, который разбивает

исходное множество на два подмножества;

- рассчитываем среднее значение энтропии;

- вычисляем А5;

- нас интересует предикат, с наибольшим значением А5;

- найденный предикат является частью дерева принятия решений, сохраняем его.

4. Разбиваем исходное множество на подмножества, согласно предикату.

Повторяем данную процедуру рекурсивно для каждого подмножества.

Для бинарных показателей в качестве предиката используется сравнение показателя по значению.

Энтропия системы 5 высчитывается в виде энтропии Шеннона:

S = - Ег Рг ■ 1п Рг = - Ег (N 1п N), где

N — общее количество объектов, N — количество объектов ¿-го класса,

рг = N — вероятность, что случайно выбранный объект будет ¿-го класса.

2. Наивный байесовский классификатор

Из формулы Байеса для п показателей вероятность р (Аг |хь х2,..., хп) того, что объект при данном векторе показателей (х, х2,...,хп) имеет класс Аг:

р (А;) р (Х1,Х2, . . . ,Хп А )

р (Аг |Х1,Х2, . . . ,Хп ) ~

Р (Аг) Р (XI, Х2, . . . , Хп | А ) '

где р(Аг) — вероятность появления объекта класса Аг, р(х1,х2,... ,хп |Аг) — вероятность появления объекта класса Аг с вектором показателей

(x1, х2, . . . , Хп).

Из предположения о независимости показателей следует, что вероятность

п

р (Х1,Х2, . . . ,Хп |Аг ) = Д р (Xj |Аг ) .

3 = 1

Используется частотное представление вероятностей: р (Аг ) = ^^, где

N — число объектов обучающей выборки, N (Аг) — число объектов класса Аг обучающей выборки, р (Хз |Аг) = , где

N (х3-; Аг) — число объектов класса Аг обучающей выборки с /-ым показателем равным х3-.

3. Метод к ближайших соседей

Задаётся число £ ближайших соседей по метрике й евклидова пространства

& (х,У)

\

X] (хг - Уг)2

г=1

Среди к ближайших соседей выбирается самый многочисленный класс, который присваивается классифицируемому объекту.

4. Латентный анализ

В модели латентного анализа определены следующие величины: Уз — значение /-го показателя у /-го объекта; т — количество показателей объектов; п — количество объектов;

рг — отношение количества объектов к п, у которых /-ый показатель равен 1;

ф (хг) — частота, соответствующая относительному объёму 1-го класса; /г (хг) — вероятность значения 1 по /-му показателю у объекта, находящегося в 1-ом классе.

Величина ф (хг) фактически является вероятностью, что объект принадлежит 1-му классу.

Тогда, чтобы найти вероятность одновременных событий, что объект принадлежит 1-му классу и имеет значения 1 по г-му показателю, необходимо перемножить вероятности этих двух («И») событий.

Пусть £ — количество различных классов.

Тогда, чтобы найти вероятность, что объект имеет г-ый показатель, равный 1, необходимо сложить вероятности альтернативных («ИЛИ») событий, что г-ый показатель равен 1 в конкретном классе:

к

Рг = ^ ^ (Х1) Ф (Х1) • 1=1

Аналогично с величинами:

Рч — отношение количества объектов к п, у которых г-ый и /-ый показатель равен 1;

/ч (хг) — вероятность значения 1 по г-му и /-му показателю у объекта, находящегося в 1-ом классе.

к

Рч = ^ & (хг) ф (хг)

г=1

и с любым другим произвольным маргиналом г показателей:

к

= ^ /*1*2...*, (хг) ф (хг)

¿в

г=1

где zi — соответствует значению определённого показателя равному 1 или 0. При этом выполняются следующие равенства:

/*1ЗД...*в (хг) = П ^ (хг) '

г=1

т. е. вероятность одновременных («И») событий, что объект имеет набор показателей г1, г2,.. гз и принадлежит классу I, равна произведению вероятностей, что объект имеет показатель гг и принадлежит классу I.

(хг) + М (хг) = 1,

т. е. сумма вероятностей событий («ИЛИ»), что объект имеет одно из двух бинарных значений (0 или 1) по показателю гг, равна вероятности достоверного события. Пусть

у (хг) , ^ = 1

= \ ,

г 1 - ¡Х1 (хг) , Zг = 0

тогда вероятность принадлежности объекта с набором показателей ... 2т к г-му классу:

Р (г |г1г2 . . . ) = 7*17*2 ■ ... ■ 7*т ф Ы.

5. Метод штрафных функций

Численный метод расчёта модели латентного анализа на базе метода штрафных функций.

Необходимо минимизировать сумму квадратов невязок отдельных уравнений модели латентного анализа:

к

1 - X Ф (Хг) = £ 1=1

Рг - Ек=1 /г (X) Ф (X) = £г, г = 1,. . . ,Ш

Ру - Егк=1 /г (хг) Л' (хг) Ф (хг) = %> / = 1>. . . ,т

Р12...т - егк=1 /1 (Хг) /2 (Хг) ■ ... ■ /т (х) ф (X) = £12...т, г, / = 1,.. . ,т.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

В данном методе оптимизируемыми являются параметры ф (х1), ф (х2) ,...,ф (хк) и /г (хг), г=1,. .. ,т; /=1,. Известными являются параметры р , . . . ,Р12...т.

6. ФОРДИАСИМПТ

Алгоритм ФОРДИАСИМПТ является частным видом латентного анализа, когда имеется два набора из трёх показателей и два класса [3].

Тогда вероятность принадлежности объекта с набором показателей к г-му классу на основе /-го набора показателей рассчитывается по формуле Байеса:

ть- т! т! ф (х1)

у -У ^ — _*1 *2 *3_

Р (г И

1 2 ^ 7!;717!;ф Ы + 727272ф Ы '

*1 *2 *3 *1 *2 *3

12

где величины 71; и 72 вычислены для каждого класса.

*г *г

Р (г 12121 г,1^22) = Р (г ) ■ Р (г К2^2) .

Теоретический расчёт для вычисления значений 7^ и ф (х8) приведён в ра-

боте [3].

7. Корректный ФОРДИАСИМПТ

Корректное значение вероятности принадлежности к г-му классу следует вычислять по формуле:

Р

• i 1112 2 2

г р! ^%^ ^zз

Р (г

11122

z1 ^ z3 z1z2 Z'

2)

р (1 кЧЧ^Ч2) + Р (2 кЧЧЧЧЧ2) •

8. Численный эксперимент

В качестве исходных данных для вычислительного эксперимента были взяты бинарные показатели с объёмом выборки 150 [3].

Вид дерева решений для объектов независимого контроля представлен на рис. 1.

Рис. 1. Дерево решений объектов обучающей выборки

Сравнение классификаций объектов независимого контроля алгоритмов ФОРДИАСИМПТ, КОРА, метод к ближайших соседей (к-ЫЫ) и дерево решений представлено в таблице 1.

Из таблицы сравнения видно, что отличия распознавания объектов алгоритмами ФОРДИАСИМПТ и дерево решений составили 1 объект, при этом неправильно распознан был 1 объект алгоритмом ФОРДИАСИМПТ и 0 объектов алгоритмом дерева решений. Аналогично наивный байесовский классификатор и метод к ближайших соседей имели одно отличие в распознавании, в котором они имели правильный ответ. Алгоритм ФОРДИАСИМПТ, как и наивный байесовский классификатор, имеет преимущество перед алгоритмом дерево решений, поскольку принадлежность к тому или иному классу имеет

Таблица 1. Таблица объектов независимого контроля с результатом распознавания алгоритмами ФОРДИАСИМПТ, КОРА и дерево решений

Класс B ФОРДИАСИМПТ ФОРДИАСИМПТ Корректн. КОРА Дерево решений Байес k-NN LAS LAS(K) LA

1 1 0 0 0 0 A A A A A A A A A

0 0 1 0 1 1 B B ? B B B A B B

0 0 1 0 0 1 A B A A A A A B A

1 1 1 0 1 1 A A A A A A A B B

0 0 0 1 1 1 B B B B B B B B B

0 0 0 0 1 1 B B B B B B B B B

0 0 0 0 0 0 A B A A A A A B A

1 0 0 1 1 0 B B B B B B B B B

0 0 0 0 1 0 B B B B B B B B A

1 1 1 1 1 1 A B A A A A A B B

1 0 1 1 1 0 A B A A B A A B B

1 0 0 0 1 0 B B B B B B B B A

0 1 1 1 0 0 A A A A A A A A A

0 0 1 1 0 0 A A A A A A A A A

0 1 0 1 1 1 B B B B B B B B B

0 1 1 1 0 1 A A A B A B A A B

1 0 1 0 0 0 A A A A A A A A A

1 0 0 0 0 0 A A A A A A A B A

0 0 1 1 1 1 B B ? B B B A B B

нечёткое выражение. Однако использование ансамбля деревьев может нивелировать этот недостаток, когда пограничные объекты различных классов имеют нечёткое отношение к различным классам. В тоже время по результатам независимого контроля алгоритм ФОРДИАСИМПТ показал худший результат.

Латентный анализ на базе метода штрафных функций дал на 2 правильный распознавания больше чем алгоритм ФОРДИАСИМПТ, и на 1 ответ больше, чем алгоритмы «дерево решений» и «наивный байесовский классификатор». Преимуществом латентного анализа на базе метода штрафных функций является отсутствие необходимости разбивать параметры на независимые группы.

Программная реализация

В качестве библиотеки классификации по методу построения дерева решений была использована общедоступная библиотека с исходным кодом на языке Java: https://github.com/lagodiuk/decision-tree.

Наивный байесовский классификатор и метод k ближайших соседей были реализованы как web-приложение, доступное по адресу: http://svlaboratory.org/application/bayes после регистрации пользователя.

Латентный анализ на базе метода штрафных функций был реализован в качестве отдельной Java-программы.

9. Заключение

Приведено сравнение алгоритмов классификации с обучением: ФОРДИАСИМПТ, КОРА, метод k ближайших соседей, дерево решений, наивный байесовский классификатор и латентный анализ на базе метода штрафных функций

для многомерных бинарных показателей. Показано отсутствие преимущества алгоритма ФОРДИАСИМПТ. На тестовом множестве метод ФОРДИАСИМПТ дал на одно неверное распознавание объектов больше. Лучший результат показал алгоритм латентного анализа на базе метода штрафных функций. Преимуществом латентного анализа на базе метода штрафных функций перед алгоритмом ФОРДИАСИМПТ является отсутствие необходимости разбивать параметры на независимые группы.

Литература

1. Segaran T. Programming Collective Intelligence. Building Smart Web 2.0 Applications. O'Reilly Media, 2007.

2. Вапник В.Н. Алгоритмы обучения распознаванию образов. М. : Советское радио, 1973.

3. Гольтяпин В.В., Шовин В.А. Алгоритмы КОРА и ФОРДИАСИМПТ как методы распознавания двух образов в пространстве двоичных признаков // Математические структуры и моделирование. 2015. № 4(36). С. 74-92.

LATENCY ANALYSIS BASED ON PENALTY METHOD FOR MULTIDIMENSIONAL BINARY INDICATORS

V.A. Shovin

Scientist Researcher, e-mail: v.shovin@mail.ru V.V. Goltyapin

Ph.D. (Phys.-Math.), Associate Professor, e-mail: goltyapin@mail.ru Sobolev Institute of Mathematics Siberian Branch of the Russian Academy Sciences

Abstract. A comparison of following classification algorithms with learning is carried out: FORDIASIMPT, latency analysis based on penalty method, KORA, naive Bayes classifier, k-nearest neighbors algorithm, decision tree based on information growth and reduction of the average entropy in an example of multidimensional binary indicators.

Keywords: classification with learning, FORDIASIMPT, latency analysis, penalty method, KORA, naive Bayes classifier, k-nearest neighbors algorithm, decision tree.

Дата поступления в редакцию: 31.01.17

i Надоели баннеры? Вы всегда можете отключить рекламу.