Научная статья на тему 'Тест обобщающей способности линейных методов прогнозирования'

Тест обобщающей способности линейных методов прогнозирования Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
165
47
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
АНАЛИЗ ДАННЫХ / ЛИНЕЙНАЯ РЕГРЕССИЯ / МЕТОД ГЛАВНЫХ КОМПОНЕНТ / ОШИБКА ОБУЧЕНИЯ / ОШИБКА ОБОБЩЕНИЯ / DATA MINING / LINEAR REGRESSION / PRINCIPAL COMPONENT ANALYSIS / TRAINING ERROR / GENERALIZATION ERROR

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Таскин Андрей Сергеевич

Исследуются традиционные линейные методы прогнозирования. Обнаружена устойчивая зависимость соотношения ошибки обучения и ошибки обобщения методов от соотношения количества объектов и числа признаков выборки. Тестирование осуществлялось на искусственных и реальных выборках.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Таскин Андрей Сергеевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

THE GENERALIZATION ABILITY TEST OF LINEAR PREDICTION METHODS

Traditional linear prediction methods were researched. Persistent dependence between the ratio of training error to generalization error and the ratio of objects count to features count of the dataset was found. The testing was produced with artificial and real datasets.

Текст научной работы на тему «Тест обобщающей способности линейных методов прогнозирования»

УДК 004.67

А. С. Таскин

Сибирский федеральный университет пр. Свободный, 79, Красноярск, 660041, Россия

E-mail: and0000@inbox.ru

ТЕСТ ОБОБЩАЮЩЕЙ СПОСОБНОСТИ ЛИНЕЙНЫХ МЕТОДОВ ПРОГНОЗИРОВАНИЯ

Исследуются традиционные линейные методы прогнозирования. Обнаружена устойчивая зависимость соотношения ошибки обучения и ошибки обобщения методов от соотношения количества объектов и числа признаков выборки. Тестирование осуществлялось на искусственных и реальных выборках.

Ключевые слова: анализ данных, линейная регрессия, метод главных компонент, ошибка обучения, ошибка обобщения.

Введение

Для решения задачи прогнозирования разработано и применяется множество методов различной природы: нейронные сети [1], деревья решений [2], нелинейная регрессия (см., например, [2; 3]) и др. Но существует еще один класс эффективных и простых для понимания методов - линейные методы прогнозирования.

Имеет место эмпирическое правило, согласно которому простые линейные методы чаще всего обеспечивают лучшую точность прогнозирования на вневыборочных данных по сравнению с нелинейными методами. Существует предположение, что преимущество линейных моделей связано с их общей устойчивостью к неверной спецификации модели, к смещению и неточности при оценивании, структурным сдвигам, дрейфу параметров модели [4].

К настоящему времени разработано множество различных линейных методов прогнозирования. Но зачастую они являются либо вариацией метода наименьших квадратов (МНК), либо комбинацией классических методов прогнозирования и классификации. Поскольку в данной работе не стоит задача определить качество того или иного линейного метода, то рассматриваются основные, базовые линейные методы прогнозирования и анализа данных - линейная регрессия и метод главных компонент (см., например, [5]).

Очень важный вопрос - как тестировать методы прогнозирования. В общем, существует универсальная схема тестирования: из исходной выборки выделяют тестовое и обучающее множества. Далее модель строится по обучающей выборке, а тестирование (построение прогноза и его сравнение с эталонным значением) производится на тестовом множестве. Но у данного подхода есть множество реализаций. Их отличие заключается в отношении между тестовым и обучающим множествами (они могут совпадать, пересекаться, не пересекаться, одно множество может включать другое и т. д.), в количестве объектов в каждом из множеств, в принципе отбора объектов.

В данной работе для тестирования методов используются в некотором смысле «стандартные» процедуры тестирования: тест обучающего множества для оценки обучающей способности метода и скользящий контроль для оценки обобщающей способности.

Таскин А. С. Тест обобщающей способности линейных методов прогнозирования // Вестн. Новосиб. гос. ун-та. Серия: Информационные технологии. 2013. Т. 11, вып. 2. С. 116-123.

ISSN 1818-7900. Вестник НГУ. Серия: Информационные технологии. 2013. Том 11, выпуск 2 © А. С. Таскин, 2013

Тест обучающего множества

Тест обучающего множества - это процедура контроля метода, показывающая, насколько хорошо объекты выборки описываются построенной с его помощью моделью. При проведении теста обучающего множества обучающее и тестовое множества совпадают: на основе выборки строится модель данных, и с помощью полученной модели проводится тестирование каждого объекта выборки (рис. 1).

A={ai г • - ■ / ам}

1 1 1 г

ai <32 aP ap+i ам

Построение модели данных

Контроль

Рис. 1. Тест обучающего множества

Тест обучающего множества имеет низкую вычислительную сложность - для его проведения достаточно только один раз построить модель данных. Но он не оценивает обобщающую способность метода: неизвестно, какие результаты покажет метод на объектах выборки, которые не участвовали в построении модели.

Скользящий контроль

Для эмпирической оценки обобщающей способности метода на заданной конечной выборке применяют скользящий контроль [6]. В данной работе используется полный скользящий контроль по отдельным объектам (leave-one-out cross validation). Выборка N раз (N -мощность выборки) разбивается на тестовое и обучающее множество. В тестовое множество попадает один объект из выборки, остальные объекты составляют обучающее множество. Каждый объект ровно один раз участвует в контроле (рис. 2). Мощность обучающего множества всего на единицу меньше мощности полной выборки.

A={ai f • • , ам}

1 1 1 г 1 \г

ai ai . . . aP aP+i ам

Построение модели -данных

Контроль

Рис. 2. Полный скользящий контроль по отдельным объектам (на р-й итерации)

Полный скользящий контроль по отдельным объектам имеет негативное свойство - необходимо N раз построить модель. На больших выборках это является существенным препятствием для его применения.

Постановка задачи

Пусть имеется выборка А размерностью N X М, где N - число объектов наблюдения; М -число признаков объектов. Выборка А не содержит пробелов. Строка таблицы является формализованным описанием некоторого объекта наблюдения. Каждый столбец таблицы - это некоторое свойство описываемых объектов.

Введем характеристику выборки, определяющую соотношение количества объектов и количества признаков выборки:

«=М

М

Прогнозирование осуществляется с помощью базовых, основных линейных методов анализа данных - линейной регрессии и метода главных компонент. Результаты прогнозирования оцениваются по суммарной ошибке прогнозирования:

N

Ер = £\аг - р,\, (1)

1=1

где а1 - истинное значение целевого признака 1-го объекта, р1 - прогнозное значение целевого признака 1-го объекта.

Для строгости определим понятия «ошибка обучения» и «ошибка обобщения». Ошибка обучения (Й) - ошибка прогнозирования, полученная тестом обучающего множества. Ошибка обобщения (Eg) - ошибка прогнозирования, полученная скользящим контролем. Величину, показывающую, во сколько раз ошибка обобщения больше ошибки обучения, назовем относительной ошибкой обобщения (Egr):

Egr = .

Е1

Для ряда выборок различной природы ставится задача экспериментально определить, существует ли зависимость между относительной ошибкой обобщения Е§г и соотношением количества объектов и количества признаков выборки Q, а также определить такое значение Q, при котором нет необходимости использовать алгоритмически более сложный метод -скользящий контроль, а можно ограничиться тестом обучающего множества.

Линейная регрессия

Одним из самых популярных и в некотором смысле естественным линейным методом прогнозирования является линейная регрессия. Линейная регрессия - это метод, позволяющий аппроксимировать зависимость между несколькими входными и одной выходной переменной. Модель линейной регрессии описывается гиперплоскостью.

Запишем уравнение регрессии [7]:

М

у=Е ьл+V

к=1

Коэффициенты уравнения линейной регрессии подбираются так, чтобы минимизировать сумму квадратов отклонения реальных точек данных от этой гиперплоскости вдоль оси целевого (вычисляемого) признака. Найдем коэффициенты В :{Ь0,Ь1,.,bN} из условия минимума функции невязки

1 N _

Ф(В) =1Е (У - у )2 ^ тт,

2 1=1

где У1 - вычисленное значение в точке х1, - истинное значение в точке X.

Пусть целевой вектор имеет вид О1 : {о^,..., о'^г} и содержит пробел о1 = @. Тогда его прогнозное значение можно найти как

М

о1 = Е ьо+ьо.

к=1

к * 1

Метод главных компонент

Метод главных компонент разрабатывался для решения задачи наилучшей аппроксимации конечного множества точек прямыми и плоскостями [8].

Первая главная компонента - это такая нормированно-центрированная линейная комбинация исходных признаков, которая среди всех прочих нормированно-центрированных линейных комбинаций признаков обладает наибольшей дисперсией [9]. Первая главная компонента находится из условия минимума функции невязки:

ф=1 (-х<У1 -Ъц )2 ^тт,

•, ]

где а7ц - значение /-го признака 7-го объекта; х7 - проекция 7-го объекта на главную компоненту; у - главная компонента; Ъ - смещение.

Запишем условие минимума функции ф для каждой переменной:

|ф = -21 (-ху-Ъц )Уц =0; (2)

= (а,-ху-Ъц )х =0; (3)

дЪГ = -2Е(ац-ху-Ъ,) = 0. (4)

ц 7

Главная компонента находится по итерационному алгоритму: произвольным образом выбираются значения у и Ъ, а х вычисляется явным образом из условия (2). Далее, для найденного значения х определяются величины у и Ъ из решения системы из уравнений (3) и (4).

АФ

Процедура повторяется до тех пор, пока изменение ф значительно: — > е.

Для нахождения к-й главной компоненты из каждого объекта выборки вычитается его проекция на предыдущую найденную (к - 1)-ю главную компоненту с учетом смещения Ъ:

-1 (ак-1, Ук-1)

ак = ак-1 - ук-1 4 7 " 2 ; - Ък-1,7 = 1...Ж

• 7 ^ I , -I 12 7

|ук -1|

Затем производится поиск следующей главной компоненты как первой главной компо-

к

ненты для полученных остатков а .

Пусть целевой вектор имеет вид О' :{о1,...,о'м} и содержит пробел оЦ = @. Тогда его прогнозное значение можно найти как

м

= I(( • ук + Ък)

о,

к=1

где Пр^. о{ - проекция 7-го объекта на к-ю главную компоненту, рассчитанная без учета пробелов в объекте о7 (в данном случаец-я составляющая):

м / м 2

ПРуо = ^оруЧ £ (укр).

р=0 / р=0

о'р / о'р

Тестовые базы данных

Рассмотрим искусственную выборку «Гиперплоскость», которая формировалась таким образом, чтобы входные признаки {а1,...,ам} были функционально независимыми друг от друга, а выходной признак имел линейную зависимость от входных признаков. В выходной

признак вносится ошибка e с целью смоделировать разброс значений целевого признака и избежать точных линейных зависимостей:

к N к л rand -

yk = eV aak, e = 1 +-— 2D,

tf 100

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

где ak - 7-й признак k-го объекта выборки; e - ошибка (шум) с равномерным распределением; rand - случайное число в диапазоне от 0 до 1; D - максимальное отклонение значения выходного признака (в процентах) относительно значения, соответствующего точной линейной зависимости.

База данных «Fried» 1 также является искусственной выборкой. Входные признаки (,...,a10) генерировались независимо друг от друга случайным образом из диапазона (0,1), а выходной - рассчитывался по формуле

y = 10sin(n-a1 • a2) + 20(a3 -0,5)2 + 10a4 + 5a5 + e,

где e - шум с нормальным распределением из диапазона (0,1). Такая выборка использовалась Джеромом Фридманом (Jerome Friedman) при тестировании метода MARS [10]. База содержит 40 768 объектов, 10 входных признаков и один выходной. Все признаки имеют непрерывные шкалы.

База данных «Шаттл» 2 в исходном варианте содержит объекты, упорядоченные по времени. В этой работе используется вариант базы данных, в котором объекты расположены в произвольном порядке и часть из них отсутствует. Всего база данных содержит 58 000 объектов и 10 признаков - 9 входных и один выходной. Выходной признак имеет номинальную дискретную шкалу. База данных разделена на обучающее множество (43 500 объектов) и тестовое множество (14 500 объектов).

База данных «Ископаемый уголь» предоставлена компанией «Weatherford Laboratories». Она описывает зависимость химического состава образцов ископаемого угля от их физических характеристик и содержит 6 504 объекта и 12 признаков: 3 входных и 9 выходных.

Постановка вычислительного эксперимента

Тестирование проводилось на четырех базах данных: двух искусственных («Гиперплоскость», «Fried») и двух естественных («Ископаемый уголь», «Шаттл», полученных опытным путем, в ходе измерений).

На всех базах данных эксперименты проводились при различном соотношении количества объектов и признаков Q: 2, 5, 10, 25, 50, 100. Для этого из выборки случайным образом удалялись «лишние» объекты. Поскольку объекты отбираются случайным образом, все эксперименты повторялись 30 раз, результаты усреднялись. На выборке «Ископаемый уголь» результаты тестирования имели большой разброс, поэтому дополнительно исключались выбросы.

Было сгенерировано 9 выборок типа «Гиперплоскость», в которых варьировались параметры:

• количество входных признаков M - 5, 10, 20;

• разброс выходного признака - максимальное отклонение значения выходного признака относительно значения, соответствующего точной линейной зависимости D - 5, 10, 20 %.

Для тестирования применялись линейная регрессия и метод главных компонент. Используемые процедуры контроля: скользящий контроль и тест обучающего множества. Результаты тестирования оценивались по ошибке прогнозирования (1).

Следует заметить, что тестирование рассматриваемых методов прогнозирования осуществлялось на одинаковых данных. Это позволяет сравнивать результаты тестирования методов напрямую.

1 Bilkent University. Function Approximation Repository. URL: http://funapp.cs.bilkent.edu.tr (дата обращения: 14.05.2012).

2 UCI Machine Learning Repository. URL: http://archive.ics.uci.edu/ml (дата обращения: 14.05.2012).

Основная цель эксперимента - оценить влияние соотношения количества объектов Q и признаков на относительную ошибку обобщения а также определить значение Q, при котором ошибки обучения и обобщения близки, т. е. относительная ошибка обобщения мала. В данной работе относительную ошибку обобщения будем считать малой, если ошибка обобщения превосходит ошибку обучения не больше, чем на 10 %:

Еяг < 1,10. (5)

Результаты вычислительного эксперимента

В табл. 1 на базах данных типа «Гиперплоскость» с различными параметрами выборки показано, во сколько раз ошибка обобщения больше ошибки обучения. В таблицах использованы обозначения: ЛР - линейная регрессия, МГК - метод главных компонент.

Таблица 1

Относительная ошибка обобщения. Выборки типа «Гиперплоскость»

Разброс, % Q ЛР МГК

М = 5 М = 10 М = 20 М = 5 М = 10 М=20

1 100 1,024 1,022 1,021 1,016 1,041 1,069

50 1,048 1,045 1,044 1,080 1,080 1,171

25 1,099 1,093 1,090 1,099 1,246 1,122

10 1,276 1,262 1,248 1,588 1,256 1,575

5 1,717 1,647 1,597 1,785 5,357 1,566

2 8,144 5,727 4,278 2,138 2,858 5,996

5 100 1,024 1,022 1,021 1,016 1,053 1,063

50 1,048 1,045 1,043 1,083 1,069 1,139

25 1,100 1,094 1,089 1,088 1,217 1,122

10 1,284 1,268 1,248 1,543 1,274 1,468

5 1,755 1,700 1,585 2,213 1,848 1,842

2 7,335 5,368 4,491 2,078 2,277 2,461

10 100 1,025 1,022 1,021 1,015 1,035 1,075

50 1,051 1,046 1,043 1,078 1,067 1,090

25 1,107 1,096 1,089 1,090 1,202 1,114

10 1,289 1,265 1,244 1,477 1,280 1,419

5 1,746 1,688 1,600 2,064 1,885 1,941

2 9,280 5,439 4,268 2,255 2,745 2,329

20 100 1,025 1,022 1,021 1,014 1,013 1,030

50 1,051 1,045 1,043 1,061 1,049 1,061

25 1,107 1,095 1,089 1,082 1,156 1,093

10 1,289 1,260 1,245 1,334 1,207 1,281

5 1,746 1,644 1,603 1,804 1,541 1,627

2 9,280 5,539 4,560 2,780 2,807 2,591

Рассматривая результаты тестирования на выборках типа «Гиперплоскость», можно сделать следующие выводы.

1. Относительная ошибка обобщения слабо зависит от разброса выходного признака выборки и от количества входных признаков и сильно зависит от соотношения количества признаков и количества объектов выборки.

2. Для линейной регрессии характерно устойчивое монотонное уменьшение относительной ошибки обобщения при увеличении количества входных признаков M. Для метода главных компонент это не так.

3. Метод главных компонент более чувствителен к разбросу выходного признака, чем линейная регрессия.

В табл. 2 приведена зависимость относительных ошибок прогнозирования от параметра Q для баз данных «Ископаемый уголь», «Шаттл», «Fried».

Таблица 2

Относительная ошибка обобщения. Выборки «Ископаемый уголь», «Шаттл», «Fried»

Ископаемый уголь

Q Влажность Летучее вещество Связанный углерод Шаттл Fried

ЛР МГК ЛР МГК ЛР МГК ЛР МГК ЛР МГК

100 1,04 1,03 1,05 1,01 1,04 1,02 1,03 1,01 1,02 1,01

50 1,08 1,07 1,09 1,05 1,08 1,09 1,04 1,04 1,05 1,02

25 1,18 1,19 1,20 1,28 1,20 1,12 1,12 1,05 1,10 1,06

10 1,56 1,44 1,64 1,74 1,67 1,51 1,34 1,25 1,28 1,19

5 2,63 1,64 2,64 1,87 2,73 2,94 1,70 3,79 1,70 1,32

2 26,84 2,14 32,79 7,14 25,16 5,31 5,17 7,31 4,12 2,10

Тестирование на реальных и искусственных данных показало очень похожие результаты.

• При Q > 25 величины относительных ошибок обобщения близки к полученным на искусственных выборках, т. е. в целом на реальных данных выявленная зависимость относительной ошибки обобщения от соотношения N/M подтвердилась.

• При Q > 50, с учетом критерия (5), можно использовать тест обучающего множества как универсальный показатель качества прогнозирования линейных методов.

• При Q > 100 результаты теста обучающего множества оказываются очень близки к результатам скользящего контроля.

Найденную закономерность можно применять, например, при тестировании на выборках с большими соотношениями Q»50: если относительная ошибка обобщения при Q > 50 достаточно мала, то для контроля можно позволить использовать более простой, в вычислительном смысле, тест обучающего множества и при этом ожидать весьма незначительную потерю точности.

Заключение

Найденная зависимость имеет большое практическое значение при решении задач прогнозирования и анализа данных: в ряде случаев (причем в «тяжелых» случаях, при работе с большим количеством объектов) она позволяет существенно снизить вычислительные затраты.

Безусловно, нельзя утверждать, что выявленная закономерность будет проявляться на любых данных и при использовании любых методов. В нашей работе не предлагается универсальный «рецепт», а лишь описывается обнаруженное при тестировании линейных методов прогнозирования интересное свойство. Открытым остается вопрос, чье это свойство: выборки или линейных методов.

В работе рассматривалось только четыре различных выборки, что, конечно, не позволяет обобщить результат даже для какого-либо класса задач. Однако следует заметить, что довольно близкие результаты были получены на выборках совершенно различной природы. Это позволяет предположить, что определенные эмпирическим путем соотношения имеют не специфический (например, для искусственных данных) характер, а некоторое «фундаментальное» основание.

Список литературы

1. Haykin S. Neural Networks and Learning Machines. N. Y.: Prentice Hall, 2009. 936 p.

2. Левитин А. В. Алгоритмы: введение в разработку и анализ. М.: Вильямс, 2006. 576 с.

3. Motulsky H., Christopoulos A. Fitting Models to Biological Data Using Linear And Nonlinear Regression. A Practical Guide to Curve Fitting. Oxford: Univ. Press, 2004. 351 p.

4. Ицхоки О. Выбор модели и парадоксы прогнозирования // Квантиль. 2006. № 1. C. 43-51.

5. Gorban A. N., Kegl B., Wunsch D., Zinovyev A. Y. Principal Manifolds for Data Visualisation and Dimension Reduction. Berlin; Heidelberg; N. Y.: Springer, 2007. Vol. 58. 340 p.

6. Воронцов К. В. Комбинаторный подход к оценке качества обучаемых алгоритмов // Математические вопросы кибернетики / Под ред. О. Б. Лупанова. М.: Физматлит, 2004. T. 13. С. 5-36.

7. Дрейпер Н., Смит Г. Прикладной регрессионный анализ. М.: Вильямс, 2007. 912 с.

8. Pearson K. On Lines and Planes of Closest Fit to Systems of Points in Space // Philosophical Magazine. 1901. Vol. 2 (11). P. 559-572.

9. Айвазян С. А., Бухштабер В. М., Енюков И. С., Мешалкин Л. Д. Прикладная статистика. Классификация и снижение размерности. М.: Финансы и статистика, 1989. 607 с.

11. Friedman J. Multivariate Adaptive Regression Splines // Annals of Statistics. 1991. Vol. 19. P. 1-141.

Материал поступил в редколлегию 07.09.2012

A. S. Taskin

THE GENERALIZATION ABILITY TEST OF LINEAR PREDICTION METHODS

Traditional linear prediction methods were researched. Persistent dependence between the ratio of training error to generalization error and the ratio of objects count to features count of the dataset was found. The testing was produced with artificial and real datasets.

Keywords: data mining, linear regression, principal component analysis, training error, generalization error.

i Надоели баннеры? Вы всегда можете отключить рекламу.