Научная статья на тему 'Об интервальном оценивании риска для решающей функции'

Об интервальном оценивании риска для решающей функции Текст научной статьи по специальности «Математика»

CC BY
73
13
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по математике, автор научной работы — Неделько В.М.

Рассматривается задача построения оценок риска для статистических решений при отсутствии априорной информации о распределении. Предложен метод построения эмпирических оценок доверительного интервала для риска путем выбора конечного множества распределений. Эффективность метода проиллюстрирована на примере задачи классификации по ближайшему прецеденту.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The problem of statistical decisions risk estimates construction by the absence of any information on the probabilistic distribution is considered. A method of empirical confidence interval construction via selection of a finite set of distributions is proposed. The method was probed on the task of classification by the nearest neighbour

Текст научной работы на тему «Об интервальном оценивании риска для решающей функции»

УДК 519.9

Об интервальном оценивании риска для решающей функции

© Неделько В.М.

Институт математики со ран Лав. Анализа да н н ы x пр-т Коптюгд, 4, г. Новосибирск, 630090, Россия

e-mail: nedelko@math.nsc.ru

Abstract. The problem of statistical decisions risk estimates construction by the absence of any information on the probabilistic distribution is considered. A method of empirical confidence interval construction via selection of a finite set of distributions is proposed. The method was probed on the task of classification by the nearest neighbour3.

Введение

Рассмотрим следующую достаточно общую постановку задачи построения решающей функции. Пусть Г - некоторая (генеральная) совокупность объектов, и^СГ-выборка из нее. Требуется сопоставить выборке некоторую / £ Ф - решающую функцию так, чтобы она в определенном смысле характеризовала генеральную совокупность. Последнее означает, что задана так называемая функция потерь L : ГхФ —^ 3?, и необходимо выбрать отображение Q : V —^ Ф, которое бы минимизировало потери. Отображение Q будем называть алгоритмом построения решающей функции. Здесь V - множество всех выборок заданного объема.

Первая проблема состоит в том, что на основе заданной функции потерь нужно сформировать некоторый функционал качества, характеризующий алгоритм на всей генеральной совокупности, что требует наличия оснований для переноса свойств v на Г. Одно из решений заключается в предположении существования на Г некоторой вероятностной меры с е С, в соответствии с которой выборка v генерируется случайным образом. Говоря о вероятностной мере, мы подразумеваем также задание подходящего вероятностного пространства.

Теперь, чтобы охарактеризовать качество решения на всей Г, можно на основе функции потерь определить функционал риска R(c, /), например, как средние (ожидаемые) потери.

Заметим, что это не единственный подход к проблеме экстраполяции свойств v на Г, одна из альтернатив предложена в [2].

Для оценивания качества решения, то есть функционала риска, рассмотрим возможность построения доверительных интервалов.

Определение 1. Функция /\ : \ —> / С 2^ называется доверительным интервалом, если

Усе С, Р (R (с, g(u)) Е К (u)) ^ г] G (0, 1).

3Работа выполнена при поддержке РФФИ, проекты № 07-01-00331-а и № 08-01-00944-а.

Впервые нетривиальные доверительные интервалы для риска в задаче классификации построили Вапник и Червоненкис [1]. При этом важен факт получения оценок без каких-либо предположений о виде распределений.

Если рассматривать статистические задачи вообще, то первым подобным результатом, видимо, является теорема Гливенко. Заметим, что в формулировках этой теоремы не отражен факт равномерной сходимости по с, хотя из доказательства он

Оценки Вапника-Червоненкиса используют характеристики класса Ф, а именно емкостную меру его сложности. Альтернативой емкостным характеристикам может служить колмогоровская сложность [3].

Известно, что оценки Вапника-Червоненкиса являются сильно завышенными, однако в некоторых случаях можно получить более приемлемую точность [4]. Очевидно, что лучшие оценки можно получить [5], рассматривая свойства самого алгоритма (}. а не класса Ф. Такие оценки могут быть нетривиальными, даже если класс Ф имеет бесконечную емкость.

Построение доверительного интервала для риска требует оценивания вероятности по всем возможным распределениям. Поскольку известные аналитические оценки такого рода имеют большую погрешность, оправдано построение эмпирических оценок путем статистического моделирования на широком классе распределений. В работе представлены результаты применения данного подхода к оцениванию риска для метода классификации по ближайшему прецеденту.

1. Постановка задачи построения решающей функции

Пусть X - пространство значений переменных, используемых для прогноза, а У -пространство значений прогнозируемых переменных, и пусть С - множество всех вероятностных мер на заданной сг-алгебре подмножеств множества В = X х У. При каждом с & С имеем вероятностное пространство: (I), В, Рс), где В - сг-алгебра, РС[В] - вероятностная мера. Параметр с будем называть стратегией природы.

Решающей функцией называется соответствие / : X —^ У.

Качество принятого решения оценивается заданной функцией потерь Ь : У2 —^ [0,оо). Под риском будем понимать средние потери:

Пусть V = {(х\уг) е В | г = - случайная независимая выборка из распре-

деления РС[В]. Эмпирический риск определим как средние потери на выборке:

о

г=1

Заметим, что значение риска зависит от стратегии природы с - распределения, которое неизвестно. Функционал скользящего экзамена определяется как:

1 М

1=1

где = и\{(хг,уг)} - выборка, получаемая из и удалением г-го наблюдения, (5 : {У} —^ Ф ~ алгоритм построения решающих функций, Д>)г/ - функция, построенная по выборке V алгоритмом <2, Ф - заданный класс решающих функций.

Задача построения решающей функции заключается в выборе подходящего алгоритма ш в оценивании риска принятого решения.

2. Методы оценивания риска

Доверительный интервал для К будем задавать в виде [0, />'(/'). Здесь мы ограничиваемся односторонними оценками, поскольку на практике для риска важны именно оценки сверху. Таким образом, в данном случае построение доверительного интервала эквивалентно выбору функции Д(^), которую будем называть оценочной функцией или просто оценкой (риска).

При этом должно выполняться условие:

где г] - заданная доверительная вероятность.

При построении оценок риска первая проблема, которую нужно решить, это сравнение качества различных оценок.

Можно положить, что задан функционал качества д(-)), где д(-) - функция распределения оценки К(и). Выбор данного функционала, так же как и выбор функции потерь, определяется практическими соображениями. Простейшим вариантом такого функционала является математическое ожидание.

При фиксированной стратегия природы с функционал Т позволяет сравнивать качество оценок риска и находить оптимальную оценку.

Однако на практике распределение с неизвестно, а оценки, оптимальной при всех распределениях, может не существовать. В этом случае естественным является поиск множества Парето недоминируемых оценок.

Известные на данный момент оценки риска (напр. [1]) строятся не как функции непосредственно выборки, а через композицию Ё,{у) = Ке (Щи)), то есть как функции значений некоторого эмпирического функционала Д, в качестве которого обычно выступает эмпирический риск или скользящий экзамен.

Эмпирический функционал здесь выступает в роли точечной оценки риска, на основе которой строится интервальная оценка.

Актуальной является задача исследования эффективности функционалов эмпирического риска и в различных прикладных задачах. При этом под эффективностью понимается, насколько хорошая интервальная оценка риска может быть построена на основе данного функционала.

Существует очевидный класс задач, в которых скользящий экзамен эффектив-ноо — это случаи использования алгоритмов бесконечной емкости, для которых эмпирический риск всегда равен нулю. При этом для многих алгоритмов бесконечной емкости возможно построение оценки риска на основе функционала скользящего экзамена, что будет проиллюстрировано ниже. Однако для других алгоритмов предпочтительность скользящего экзамена уже не очевидна. Один из доводов в пользу эмпирического риска состоит в том, что он характеризует именно построенную решающую функцию /, в то время как скользящий экзамен характеризует алгоритм Q в целом_ Привлекательной выглядит идея одновременного использования обоих функционалов.

Определение 2. Оценочную функцию />'(/') назовем согласованной с эмпирическим функционалом К, если для выборок и ^ одинакового объема

к{их) > к{их) Щщ) > &(и2).

Достаточно естественным представляется ограничиться рассмотрением только таких оценочных функций, которые согласованы с функционалами эмпирического риска и скользящего экзамена. Это означает, что оценка вероятности ошибки не должна убывать при увеличении значения эмпирического функционала.

Данное условие позволяет резко сузить пространство поиска при нахождении Парето-оптимальных оценочных функций.

3. Построение эмпирической оценки риска

Недоминируемость оценочной функции является безусловно желательным, но трудно проверяемым свойством. Более того, на практике оказывается проблематичным даже оценивание доверительной вероятности для заданной оценочной функции, поскольку это подразумевает взятие супремума по всем распределениям. Класс распределений иногда может быть ограничен некоторым параметрическим семейством, однако при отсутствии априорной информации единственным ограничением становится измеримость функции потерь, что на практике обычно означает допустимость любых вероятностных мер на ст-алгебре борелевских множеств пространства переменных.

Задача построения точных аналитических оценок доверительной вероятности в настоящее время не решена, поэтому на практике оправданным является построение эмпирических оценок. Под эмпирической оценкой понимается величина, полученная оцениванием максимальной доверительной вероятности по некоторому эвристически выбранному множеству распределений. Если это множество выбрано достаточно «богатым», то естественно ожидать, что полученная оценка будет близка к истинной. При этом не предполагается оценивание точности данного эмпирического приближения, однако, возможность доверия такому подходу может быть аргументирована следующим соображением. Если целенаправленным эвристическим поиском не удалось построить распределения, при котором доверительная вероятность была бы меньше заданной величины, то можно ожидать, что и в реальной задаче распределение окажется таким, что оценка останется справедливой.

4. Иллюстративный пример

Приведем пример использования данного метода для построения доверительного интервала для риска в задаче классификации методом ближайшего соседа. Пусть Xi, ...,Хп - непрерывные переменные, a Y е {1,2} - номер класса. Зададим семейство распределений, которые задаются плотностью вероятности р(х,у) = (р(х) ■ Р(у/х), гДе v{x) ~ равномерное распределение в гиперку-

I О (X ) %} —— 1

бе [0,1]", а Р(у/Х) = < 1 _(\ - функция условной вероятности. Функ-

х = (^1,..., хп). Функция Ф(-) принимает значение 1, если целая часть аргумента является четным числом, и значение —1 в противном случае.

В приведенной модели гиперкуб [0,1]" разбит на кп областей, которым в «шахматном» порядке приписаны классы. Параметр А соответствует байсовскому риску (вероятности ошибочной классификации для наилучшего правила).

Оценочную функцию будем строить как функцию от числа ошибок скользящего экзамена.

Результаты моделирования при N = 50 приведены на рис. 1. Точки (маркеры) на графике отображают пары значений (Д, К) для некоторой случайной выборки. Разные виды маркеров соответствуют различным распределениям, параметры которых отражены в легенде, где а = 100А, п = 1. Помимо отраженных на графике для построения эмпирического доверительного интервала были использованы еще 20 распределений с различиными параметрами.

Построены две оценочных функции: градиентная и линейная (серая и черная кривые на графике). Доверительная вероятность ^ = 0,9.

Градиентный алгоритм работает итеративно. В качестве начального приближения оценочной кривой берется Щи) = 0. Далее на каждом шаге находится распределение, при котором вероятность выхода за оценочную кривую максимальна. Затем функция Щи) увеличивается на фиксированную малую величину в точке, где это изменение максимизирует доверительную вероятность для этого распределения. Итерации прекращаются, когда текущая доверительная вероятность станет не меньше порогового значения г/.

Полученная градиентным методом оценка оказалась достаточно близка к линейной, что говорит о разумности построения оценки в классе линейных функций. Чтобы обеспечить единственность решения, потребуем, чтобы оценка максимизировала площадь над ее графиком. Оценочную прямую удобно задавать двумя точками: (0, Итгп) и (Ятах, 0, 5). В рассмотренном примере получены значения: Етгп = 0, 035, ^тах = 0, 365. Первый параметр есть минимум оценки риска, который достигается при нулевом числе ошибок на скользящем экзамене. Второй параметр есть значение доли ошибок на скользящем экзамене, начиная с которого оценка риска равна 0, 5.

ция g(x) = Р /х) задается

-0.05

¡рЧ* | 'А * Р ш 4 i / J*

Ш^г........

шШа

. к=4 а=5 ■ к=4а=10 i, к=4 а=20 . к=2а=10 * к=2 а=0 bound ^—linear

0.05 0.1

0.2 0.25 0.3 0.35

0.45 0.5

0.55

Рис. 1. Зависимость риска от ошибки скользящего контроля.

5. Общий вид доверительного предиката

Понятие доверительного интервала можно обобщить введением понятия доверительного предиката.

Определение 3. Предикат Т(с. и) называется доверительным предикатом, если

Усе С, Р(Т(с,и)) ^//G (0, 1).

В случае построения доверительных интервалов T(c.v) = (R(c. (j(v)) е К (у)). В общем случае предикату соответствует некоторое подмножество в С х V.

Доверительный предикат можно использовать для проверки статистических гипотез. Для этого введем функцию Ö(V) = {с | T(c.v)}. Данная функция каждой выборке сопоставляет множество согласующихся с пей гипотез о распределении. Приведенная схема используется классическими методами статистики для оценивания параметров распределений в случае, когда С представлает собой параметрическое семейство. Однако нет принципиальных препятствий для использования этого подхода и в непараметрическом случае, где он может являться альтернативой критериям согласия. Примером может служить известная теорема Гливепко, если ее вместе с сопутствующими результатами переформулировать подходящим образом. А именно,

Vc е С. Р ^sup \F(x) - F{.г)I < е(•//)) j ^ •//,

где F(x) - функция распределения случайной величины A', a F(x) - эмпирическая функция распределения.

При построении доверительного предиката представляется перспективным использование эмпирических методов оценивания доверительной вероятности.

Заключение

В работе предложен метод оценивания риска для решающей функции посредством построения эмпирического доверительного интервала. Эффективность метода проиллюстрирована на примере задачи классификации по ближайшему прецеденту. В отличие от сложностных оценок Вапника-Червоненкиса метод построения эмпирических доверительных интервалов применим также для алгоритмов, использующих классы решающих функций бесконечной емкости.

список литературы

1. Вапник В.Н., Червоненкис А.Я. Теория распознавания образов. М.: Наука, 1974. 415 с.

2. Воронцов К. В. Слабая вероятностная аксиоматика и надежность эмпирических предсказаний. // Доклады 13-й всероссийской конференции «Математические методы распознавания образов». М. 2007. С. 21-24.

3. Донской В.И. Колмогоровская сложность классов общерекурсивных функций с ограниченной емкостью. // Таврический В6СТНИК информатики и математики. HAH Украины. 2005, № 1. С. 25-34.

4. Неделько В.М. Об оценивании вероятности ошибочной классификации. // Искусственный интеллект. Изд-во HAH Украины, 2006, № 2. С. 197-200.

5. Неделько В.М. Об эффективности эмпирических функционалов Kci46CTBci решающей функции. // Доклады 13-й всероссийской конференции «Математические методы распознавания образов». М. 2007. С. 47-49.

Статья поступила в редакцию 01.05.2008

i Надоели баннеры? Вы всегда можете отключить рекламу.