Научная статья на тему 'Коллектив многомерных непараметрических регрессий, основанный на композиции обучающей выборки по ее объему'

Коллектив многомерных непараметрических регрессий, основанный на композиции обучающей выборки по ее объему Текст научной статьи по специальности «Математика»

CC BY
86
24
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
НЕПАРАМЕТРИЧЕСКАЯ РЕГРЕССИЯ / БОЛЬШИЕ ВЫБОРКИ / АСИМПТОТИЧЕСКИЕ СВОЙСТВА / ПРИНЦИПЫ ДЕКОМПОЗИЦИИ / КОЛЛЕКТИВНОЕ ОЦЕНИВАНИЕ / ПАРАЛЛЕЛЬНЫЕ ВЫЧИСЛИТЕЛЬНЫЕ ТЕХНОЛОГИИ / NONPARAMETRIC REGRESSION / BIG SAMPLES / ASYMPTOTIC PROPERTIES / PRINCIPLES OF DECOMPOSITION / COLLECTIVE ESTIMATIONS / PARALLEL COMPUTING TECHNOLOGIES

Аннотация научной статьи по математике, автор научной работы — Лапко Александр Васильевич, Лапко Василий Александрович

Предлагается методика синтеза и анализа коллектива многомерных непараметрических регрессий, обеспечивающего высокую вычислительную эффективность решения задач восстановления стохастических зависимостей за счет использования технологии параллельных вычислений. Исследуются асимптотические свойства коллектива. Приводятся результаты их сравнения со свойствами традиционной непараметрической регрессии.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Лапко Александр Васильевич, Лапко Василий Александрович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

COLLECTIVE OF MANY-DIMENSIONAL NONPARAMETRIC REGRESSIONS, GROUNDED ON DECOMPOSITION OF LEARNING SAMPLE ACCORDING TO ITS SIZE

The technique of synthesis and analysis of collective of many-dimensional nonparametric regressions, which provides for high computing efficiency of problem solving of restoration of stochastic dependencies, at the account of usage of technology of parallel calculations, is offered. Asymptotic properties of collective are researched, results of their comparison with properties of traditional nonparametric regression, are presented.

Текст научной работы на тему «Коллектив многомерных непараметрических регрессий, основанный на композиции обучающей выборки по ее объему»

УДК 519.7

А. В. Лапко, В. А. Лапко

КОЛЛЕКТИВ МНОГОМЕРНЫХ НЕПАРАМЕТРИЧЕСКИХ РЕГРЕССИИ, ОСНОВАННЫЙ НА ДЕКОМПОЗИЦИИ ОБУЧАЮЩЕЙ ВЫБОРКИ ПО ЕЕ ОБЪЕМУ

Предлагается методика синтеза и анализа коллектива многомерных непараметрических регрессий, обеспечивающего высокую вычислительную эффективность решения задач восстановления стохастических зависимостей за счет использования технологии параллельных вычислений. Исследуются асимптотические свойства коллектива. Приводятся результаты их сравнения со свойствами традиционной непараметрической регрессии.

Ключевые слова: непараметрическая регрессия, большие выборки, асимптотические свойства, принципы декомпозиции, коллективное оценивание, параллельные вычислительные технологии.

Непараметрические регрессии, основанные на оценках плотности вероятности типа Розенблатта-Парзена, широко используются при восстановлении однозначных стохастических зависимостей. На их

Будем считать, что плотность вероятности р (х) известна. В этих условиях на основании каждой выборки Уу осуществим синтез непараметрической

основе создаются типовые информационные средства, регрессии [1]:

1

Щф

пр (х )П с, ге1у -1

( г \ х, - X

У = 1, Т , (2)

адаптируемые к условиям функционирования объектов различной природы. Однако при увеличении объ- фу(х) ="

ема обучающей выборки вычислительная эффективность непараметрических статистик снижается. Подобные ситуации часто ^третаютс^ например при где ядерные функции Ф(и,) удовлетворяют услови-обработке больших массивов аэрокосмической ин-

ям Н:

Ф(и, ) = Ф(-и,), 0 <Ф(м,)<да,

|ф(м,)ёи, = 1, |и2 Ф(и,)ёи, = 1,

|и™ Ф(и,)ёи, < да, 0 <т < да, , = 1, к ,

а их коэффициенты размытости с, = с, (п) ^ 0 с ростом п . Здесь и далее бесконечные пределы интегрирования опускаются.

При синтезе каждой статистики фу (х) будем ис-борка, составленная из п независимых наблюдений пользовать непараметрическую оценку многомерной

плотности вероятности р (х, у) типа Розенблатта-Парзена [2].

формации. В этих условиях использование традиционной непараметрической регрессии приводит к значительным временным затратам при формировании решений.

В данной статье рассмотрена разработка методики синтеза и анализа коллектива многомерных непараметрических регрессий, основанного на декомпозиции обучающих выборок по их объему.

Синтез коллектива многомерных непараметрических регрессий. Пусть У = (хг, ( , г = 1, п) - вы-

случайной величины (х = (х,,, = 1, к), у) с плотностью вероятности р (х, у). Обозначим плотность вероятности случайной величины х через р (х), а кри вую регрессии у по х - через

В качестве приближения у = ф(х) (1) возьмем статистику вида

ф(х )= | ур I -I ёУ. ^ '

(1)

_ _ 1 т _

у = ф(х )=Т Хф,-(х).

Т У=1

(3)

Оптимизация частных непараметрических регрессий (2) по коэффициентам размытости с,, , = 1, к, ядерных функций осуществляется в режиме скользящего экзамена из условия минимума статистической

Разобьем выборку У на Т групп наблюдений Уу =(хг, ( , г е Iу), ) = 1, Т , где 1у - множество номеров наблюдений переменных (х, у), составляющих оценки точности аппроксимации зависимости (1):

= Щу‘-фу (х'))2.

У-ю группу, причем ^Iу = I = (г = 1, п). Количество

WJ =-

у=1

Пу = |1^ элементов в выборках Уу одинаково и равно

у

_ П

П = —.

Т

При формировании критерия W у ситуация (х', у') в выражении непараметрической регрессии (2) исключается из процесса обучения.

Статистика (3) допускает использование технологии параллельных вычислений при оценивании кривой регрессии (1) в условиях больших выборок.

Асимптотические свойства коллектива непараметрических регрессий. Для получения аналитически значимых результатов при исследовании свойств коллектива непараметрических регрессий (3) будем считать, что интервалы изменения значений компонент х,,, = 1, к, вектора х одинаковы. В этих условиях появляется возможность полагать одинаковыми значения коэффициентов размытости с, = с,, = 1, к, ядерных функций в статистике (2).

Тогда частные непараметрические регрессии (2) запишутся в виде

Фі (х)=3

1 к -птХП®

пр (х )с 1ЄІіу=і

Мі

і=1

- Т Х пСкР(Х)х і—і у Пф

Т і-1 пс р\Х)іеІі

V—1

: р(уі, х1, —,хгк|ёу1 ёх1...ёх1к

і

х„ - х

с

У

_1_____

кр(х у

і — і у П ф("х—^ р (^1, —, ік )ЛуЛ1 — —

V—1 V с )

к1-т~) і—іф(і уП ф р (х)

с

где М -

' У

,=1 знак

математического ожидания;

(xv- к )с-1 — 1

разложим

ф(х, - с',,, = 1, к), р (х, - с',,, = 1, к) в ряд Тейлора в точке х . Тогда с учетом свойств Н ядерных функций при достаточно больших значениях П получим асимптотическое выражение смещения коллектива непараметрических регрессий:

„2 к

М (ф(х )-ф(х су

2 р Xх) V—1

Х(ф(х ) р(х)у

X2)

к к

Х ХфХ”М рХ2|(х)

V—1 г—1

і — 1, Т . (4)

Асимптотические свойства ф(х) определяются следующей теоремой.

Теорема. Пусть ф(х) , р(х, у), р(х)^ 0 и первые две их производные по каждой компоненте х, , , = 1, к , ограничены и непрерывны; ядерные функции Ф(и,) удовлетворяют условиям Н ; последовательности с = с (П) коэффициентов размытости ядерных функций такие, что при П ^да значения с ^ 0 , а Пск ^да. Тогда при конечных значениях Т коллектив многомерных непараметрических регрессий ф( х)

обладает свойствами асимптотической несмещенности и состоятельности.

Доказательство. По определению имеем

х)) = ТXМ (у(х)) =

4 р (х)

X ф(2)(х) р,2)(х )| и,4Ф(и, )ёи, + 0 (с6), (6)

,=1 /

где ф,2^ (х), р,2) (х), (ф(х)р(х))(2) - вторые производные функций ф(х) , р (х) и их произведения по компоненте х,; символом 0 (с6) обозначены слагаемые степени малости порядка с6 . Отсюда из условия с ^ 0 при П ^да следует свойство асимптотической несмещенности коллектива непараметрических регрессий ф( х) .

Для доказательства состоятельности оценки ф( х) вычислим ее дисперсию:

°(ф(х))= М(ф(х)-ф(х))2 -{М(ф(х)-ф(х)) . (7)

Исследуем асимптотические свойства среднеквадратического отклонения

(

М(ф(х)-ф(х))2 — Т1 М Х(ф(х)-Фі (х))2

Т V і—1

Т Т

ХХ((х )- Фі(х у) ((х)- ф^ (х у))

і—11—1

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

(8)

Определим асимптотическое выражение М (ф(х)-фу (х))2 =

= М (у (х)) - 2ф(х)М (ф( (х)) + ф2 (х).

(9)

Следуя использованной ранее технологии вычислений, проведем преобразования:

М

ф (') = М ^—J . При выполнении данных преобразований учитывается, что элементы статистической выборки У являются значениями одних и тех же случайных величин (', у) с плотностью вероятности

р (у, 'и •, 'к ).

Проведем в выражении (5) замену переменных

X(х сУ

1

п 2 с2к- 2

р (х)

Ґ

+Х Хм (УII ф(

хм (уу пф

’і V *

Л к (

У Пф

V—1

ЛЛ

/

ЛЛ

V

/)

функции

—2 2к 2 / \ п с р (х)

гі—ІФ2 Х,.— ік )П ф2

4

с

V—1

и

х р (,..., 'к ) ) • ё'к + п (п -1)

|-|ф('1,-, 'к )П Ф

x, ', !р('1,...,'к

Пренебрегая величинами малости 01 —

( 1 у

— к-2 ч пс ,

0 (с6), найдем асимптотическое выраже-

ние:

М(ф2(х))~ф2(х)+П к1 ( )ф2(х)П|ф2(и,)ёи,

4 7 пс р(х) -

,=1

4р (х)

2 (ф(х) р (х)) + с2 ^ Е(ф(х) р (х))1

I ,=1 У р^^,=1

ф(х)-

(2)

+ с

ф(х). 2 р (х)

2 2(ф,2)(х)рГ-'М)-

,=1 г=1

V

- 2 (ф(,2) (х) р( (х) / и> (и,)ёи,)

,=1

(10)

При достаточно большом объеме п статистических данных ^ф(х)) — (ф( х)). Тогда, подставляя

выражения (6) и (10) в (9), получим

М (фу (х)-ф(х))2 ~ П’к р^П /ф 2 (и, )ёи

пс

р(х)

4 р (х)

(11)

(2)

С учетом свойства асимптотической несмещенности (6) и статистической независимости выборок Уу,

У второе слагаемое выражения (8) представим в виде Т2 2 2 (М (ф(х )-ф у (х))М (ф(х)-ф'(х))) ~

Т у=1'=1 ' ^ у

-4 ( к

4 р2 (х)

2((х) р (х)),2) +0 (с6). (12)

V ,=1

Подставляя выражения (11) и (12) в (8), получим асимптотическое выражение среднеквадратического отклонения:

м (ф(х )-ф(х ))2

с

_1_

Т 2

4 ( к

Т

( ф2 (х) к

'р (х)

П|Ф2 (и,)ё

и.. +

4р2(х)

2(ф(х ) р(х))

(2)

2

V ,=1

2 (ф(х) р(х))

V ,=1

+ Т (Т -1)

ф2(х) ; Т Пскр (х)

4р2(х)

П/Ф2 (и,)ё

,=1

и, + -

4 р2 (х)

2 (ф(х ) р(х)).

V ,=1

(2)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

. (13)

Отсюда, если принять во внимание соотношения (6) и (13), то из условия с ^ 0, Пск ^да при П ^да следует свойство состоятельности коллектива многомерных непараметрических регрессий ф(х).

При Т = 1, к = 1 полученный результат (13) совпадает с утверждением работы [3], что подтверждает корректность выполненных преобразований.

Анализ аппроксимационных свойств статистики ф( х). Для анализа в принятых условиях эффективности коллектива ф( х) и традиционной непараметрической регрессии

1 _п к ( х

ф(х)= ()-к 2 ПФ

пр (х)с ;=1 ,=

с

V У

рассмотрим отношения соответствующих им асимптотических выражений среднеквадратических отклонений, дисперсий и смещений при оптимальных значениях коэффициентов размытости ядерных функций.

Определим минимальное значение W2 выражения

П /ф2 (и, )ёи,

ТПск

/ • /ф2 (х) р 1 (х) ёх1... ёхк +

+Т.Г”/I р1 (х)2(ф(х)р(х))!,2) ёх1 •••ёхк, (14)

4 V ,=1 У

которое получено путем интегрирования результата (13).

Из условия минимума (14) по коэффициенту размытости с нетрудно получить его оптимальное значение для составляющих статистики ф(х):

(

с =

кА П/Ф2 (и,)ёи,

у/(к+4)

п В

где

А = / • / ф2 (х) р 1 (х) ёх1... ёхк ;

В=/••• /I р-1 (х)2(ф(х)р(х)),2) ёх1 ■■■•.

Тогда, подставляя с * в выражение (14), получим

W2 =

( к

А П/ф2 (и, )ёи, ,=1

V

ВК

4 + Тк 4Ткк (+4)

. (15)

4

0

4

с

+

,=1

4

4

Асимптотическое выражение среднеквадратического отклонения непараметрической регрессии ф (х) совпадает с результатом (13) при Т — 1, п — п и с — с (п) — с , при этом его минимальное значение при оптимальном коэффициенте размытости

~* =*„-1/ ( к+4)

с — с Т ’ определяется выражением

A ШФ2 Mv)duv

\ 4

V (k+4)

Bk

4 + k

4 k4 (k+4).

После несложных преобразований получим отно-

шение W21W2:

4 + Tk

k/ (k+4)

(4 + k )

Для статистики ф(х) и непараметрической регрессии ф (х) главные дисперсионные составляющие

определяются соответственно первыми слагаемыми выражений (13) и (11) при п = п . Вычислим отношение их минимальных значений W3 и .3 при оптимальных коэффициентах размытости с*, с * ядерных функций:

я = . = 1

3 Wз Тк/(к+4) '

Нетрудно убедиться, что отношение асимптотических выражений смещений W1, . анализируемых оценок кривой регрессии (1) ф(х) и ф (х) при оптимальных коэффициентах размытости ядерных функций соответствует значению

я = = т 2 (к+4)

1 .1

С ростом количества Т составляющих коллектива непараметрических регрессий наблюдается увеличение значений отношений Я1 >1 (см. рисунок, часть а) и Я2 > 1 (см. рисунок, часть б). Отмеченное ухудшение

аппроксимационных свойств коллектива ф(х) по сравнению с непараметрической регрессией р (х) объясняется снижением объемов n выборок, используемых при оценивании составляющих р(х). Такая тенденция особенно характерна для малых размерностей к случайной величины х . При усложнении условий оценивания кривой регрессии (1) с ростом к эффективность непараметрических оценок р(х) и

р (х) снижается. Соответствующие им критерии W2,

W2 и W1, W1 становятся соизмеримыми, что проявляется в снижении значений их отношений R2 и R1.

Предлагаемый коллектив р(х) имеет меньшую дисперсию по сравнению с непараметрической регрессией р (х). Это обусловлено структурой статистики р(х), так как ее синтез осуществляется на основе усредняющего оператора (см. рисунок, часть в), причем с увеличением количества T составляющих коллектива непараметрических регрессий р(х) и

размерности к аргументов восстанавливаемой зависимости преимущество этой статистики возрастает.

Таким образом, на основе анализа асимптотических свойств коллектива непараметрических регрессий обоснована возможность декомпозиции исходных статистических данных при восстановлении многомерных зависимостей в условиях больших выборок. Исследуемая статистика по сравнению с традиционной непараметрической регрессией имеет значительно меньшую дисперсию и позволяет использовать технологию параллельных вычислений.

Библиографические ссылки

1. Надарая Э. А. Непараметрические оценки кривой регрессии // Тр. ВЦ АН ГССР. 1965. Вып. 5. С. 56-68.

2. Parzen E. On Estimation of a Probability Density Function and Mode // Ann. Math. Statistic. 1962. Vol. 33. P.1065-1076.

3. Лапко А. В. Имитационные модели неопределённых систем. Новосибирск : Наука, 1993.

3579 11 1 з 5 7 9 11 13579 11

а б в

Зависимости отношений от количества Т составляющих коллектива непараметрических регрессий ф(х) (3) и размерности к = 1; 5; 9 (кривые 1, 2, 3) аргументов восстанавливаемой функции (1):

а - Я1; б - Я2; в - Я3

A. V. Lapko, V. A. Lapko

COLLECTIVE OF MANY-DIMENSIONAL NONPARAMETRIC REGRESSIONS,

GROUNDED ON DECOMPOSITION OF LEARNING SAMPLE ACCORDING TO ITS SIZE

The technique of synthesis and analysis of collective of many-dimensional nonparametric regressions, which provides for high computing efficiency of problem solving of restoration of stochastic dependencies, at the account of usage of technology of parallel calculations, is offered. Asymptotic properties of collective are researched, results of their comparison with properties of traditional nonparametric regression, are presented.

Keywords: nonparametric regression, big samples, asymptotic properties, principles of decomposition, collective estimations, parallel computing technologies.

© Лапко А. В., Лапко В. А., 2012

УДК 004.932.2

К. Э. Левтин

ВИЗУАЛЬНОЕ ДЕТЕКТИРОВАНИЕ ДЫМА НА ОСНОВЕ ПРОСТРАНСТВЕННО-ВРЕМЕННОГО

АНАЛИЗА ВИДЕОПОСЛЕДОВАТЕЛЬНОСТЕЙ

Предложен гибридный подход к визуальному детектированию дыма на основе пространственно-временной кластеризации объектов. Разработана и реализована система визуального детектирования дыма. Проведен экспериментальный анализ применения созданного программного обеспечения для детектирования дыма на видеопоследовательностях. Сделаны выводы об эффективности созданного гибридного метода и предложены направления его дальнейшего развития.

Ключевые слова: визуальное детектирование дыма, пространственно-временная кластеризация.

В настоящее время наиболее распространенными методами обнаружения задымления и огня в помещениях являются взятие проб частиц воздуха, измерение внешней температуры и прозрачности среды. Однако все они требуют размещения соответствующих датчиков и приборов в непосредственной близости от источника огня и дыма. Кроме того, эти методы не являются достаточно надежными в отношении объектов, расположенных на открытом воздухе [1; 2].

В связи с широким распространением камер видеонаблюдения появилась возможность встраивать модули визуального обнаружения дыма и огня в существующие видеосистемы. Детектирование дыма по видеопоследовательностям имеет ряд преимуществ по сравнению с традиционными методами:

- возможность обнаружения дыма даже на открытых пространствах, где обычные методы химического анализа не могут быть использованы;

- практически мгновенная реакция на возникновение опасной ситуации: обнаружение дыма происходит в момент его возникновения;

- возможность точного определения месторасположения очага возгорания [3; 4].

Несмотря на многообразие научных статей по данной тематике, задача визуального детектирования дыма по-прежнему остается нетривиальной. Одним из путей решения поставленной задачи является разработка теоретической базы для построения, исследова-

ния и реализации методов, позволяющих наиболее эффективно детектировать дым в видеоматериалах.

В данной статье рассматривается проблема визуального детектирования дыма на видеопоследовательностях, включающая в себя нахождение на последовательных кадрах областей задымления и их маркирование. Эта проблема является чрезвычайно актуальной, поскольку по статистике урон от пожаров имеет одни из самых высоких показателей как по человеческим жертвам, так и по материальному ущербу по всему миру. Кроме того, детектирование дыма по видеопоследовательностям существенно дополняет традиционные методы обнаружения пожароопасной обстановки.

Гибридный метод визуального детектирования дыма основывается на методах пространственной и временной кластеризации детектированных блоков в видеопоследовательностях.

Преимуществом данного метода является способность отслеживать и объединять найденные области задымления, даже если они разделились в процессе горения (например, под воздействием потоков воздуха), и, наоборот, разделять области задымления от различных источников. Оптимальное отслеживание объектов дает возможность анализировать их форму и динамические показатели: траекторию, скорость и вектор движения, что значительно улучшает показатели эффективности детектирования.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.