Научная статья на тему 'Разработка и исследование непараметрической оценки плотности вероятности, основанной на принципе декомпозиции обучающей выборки по ее объему'

Разработка и исследование непараметрической оценки плотности вероятности, основанной на принципе декомпозиции обучающей выборки по ее объему Текст научной статьи по специальности «Математика»

CC BY
131
28
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ОЦЕНКА ПЛОТНОСТИ ВЕРОЯТНОСТИ / БОЛЬШИЕ ВЫБОРКИ / АСИМПТОТИЧЕСКИЕ СВОЙСТВА / ИССЛЕДОВАНИЕ СВОЙСТВ / ПАРАЛЛЕЛЬНЫЕ ВЫЧИСЛИТЕЛЬНЫЕ ТЕХНОЛОГИИ / ESTIMATION OF DENSITY PROBABILITY / THE BIG SAMPLES / ASYMPTOTIC PROPERTIES / RESEARCH OF THE PROPERTIES / PARALLEL COMPUTING TECHNOLOGIES

Аннотация научной статьи по математике, автор научной работы — Лапко Василий Александрович, Варочкин С. С., Егорочкин Иван Александрович

Предлагается двухуровневая непараметрическая оценка плотности вероятности, основанная на принципе декомпозиции обучающей выборки по ее объему. Данная оценка характеризуется высокой вычислительной эффективностью за счет возможности использования технологии параллельных вычислений. Приводятся результаты вычислительных экспериментов.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Лапко Василий Александрович, Варочкин С. С., Егорочкин Иван Александрович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Development and research of nonparametric estimation of probability density based on the principle of training sample decomposition according to its volume

The two-level nonparametric estimation of probability density based on the principle of decomposition of training sample according to its volume is offered. This estimation is characterized by high computing efficiency due to the opportunity of parallel computing technologies use. The results of computing experiments are given.

Текст научной работы на тему «Разработка и исследование непараметрической оценки плотности вероятности, основанной на принципе декомпозиции обучающей выборки по ее объему»

Библиографический список

1. Epitaxial BiFeO3 Multiferroic Thin Film Heterostructures / J. Wang, J. B. Neaton, H. Zheng [et al.] // Science. 2003. Vol. 209. P. 1719.

2. Звездин, A. К. Фазовые переходы и гигантский магнитоэлектрический эффект / А. К. Звездин, А. П. Пятаков // УФИ. 2004. T. 174. С. 465.

3. Possible evidence for electromagnons in multiferroic manganites / A. Pimenov, A. Mukhin, V. Ivanov [ et al.] // Nature Physics. 2006. Vol. 2. P. 97.

4. Веневцев, Ю. Н. Сегнетомагнетики / Ю. Н. Венев-цев. М. : Наука, 1982.

5. Mechanisms of exchange bias with multiferroic BiFeO3 epitaxial thin films / H. Beam, B. Dupe, X. Zhu [et al.] // Phys. Rev. Lett. 2008. Vol. 11. P. 100.

6. Golovenchits, E. Magnetic and magnetoelectric dynamics in RMn2O5 (R = Gd and Eu) / E. Golovenchits, V. Sanina // J. Phys.:Condens. Matter. 2004. Vol. 16. P. 4325 .

7. Смирнов, А. И. Магнитоэлектрические эффекты и эффект Штарка в антиферромагнетике / А. И. Смирнов, И. Н. Хлюстиков // УФН. 1995. Т. 165. С. 1215.

8. Аплеснин, С. С. Транспортные свойства и ферромагнетизм сульфидов / С. С. Аплеснин, Л. И. Рябинкина,

О. Б. Романова [и др.] // ЖЭТФ. 2008. Т. 133. С. 875.

S. S. Aplesnin, O. N. Bandurina, O. B. Romanova, L. I. Raybincina, E. V Eremin MAGNETOELECTRIC EFFECT IN MN^CO^S

Dielectric permittivity measurements depending on magnetic and electric fields at various frequencies in the temperature limits 80... 300 К are carried out. The change in the dielectric permittivity is found in the external magnetic field at the temperature associated with creation of spontaneous magnetic moment at T ~ 120 K and at T2 ~ 230 K. The nonlinear behavior of dielectric permittivity similarly to superparamagnetic versus external electric field at T > 230 K is revealed. These effects are explained in terms offormation of bounded electron-phonon state having incommensurate dipole ordering and ferromagnetic order of orbital magnetic moments.

Кeywords: dielectric permittivity, magnetoelectric effect, multiferroic.

УДК 681.513

В. А. Лапко, С. С. Варочкин, И. А. Егорочкин

РАЗРАБОТКА И ИССЛЕДОВАНИЕ НЕПАРАМЕТРИЧЕСКОЙ ОЦЕНКИ ПЛОТНОСТИ ВЕРОЯТНОСТИ, ОСНОВАННОЙ НА ПРИНЦИПЕ ДЕКОМПОЗИЦИИ ОБУЧАЮЩЕЙ ВЫБОРКИ ПО ЕЕ ОБЪЕМУ1

Предлагается двухуровневая непараметрическая оценка плотности вероятности, основанная на принципе декомпозиции обучающей выборки по ее объему. Данная оценка характеризуется высокой вычислительной эффективностью за счет возможности использования технологии параллельных вычислений. Приводятся результаты вычислительных экспериментов.

Ключевые слова: оценка плотности вероятности, большие выборки, асимптотические свойства, исследование свойств, параллельные вычислительные технологии.

Непараметрические методы принятия решений, основанные на оценках плотности вероятности ядерного типа, широко применяются при исследовании объектов различной природы в условиях априорной неопределенности.

Вычислительная эффективность непараметрических алгоритмов во многом определяется объемом п статистических данных и снижается по мере его увеличения, что проявляется в росте временных затрат обработки информации. Возникающие проблемы затрудняют построение непараметрических систем принятия решений при анализе аэрокосмической информации, исследовании

медико-биологических, экологических процессов и т. д., характеризующихся большими объемами априорной статистической информации.

Перспективным методом «обхода» возникающих проблем является применение принципов декомпозиции обучающих выборок по их объему и последовательных процедур принятия решений.

Цель данной работы - обосновать эффективность использования принципов декомпозиции при решении задач оценивания плотности вероятности в условиях больших выборок на основе анализа асимптотических свойств непараметрической оценки смеси плотностей вероятно-

1 Работа выполнена в рамках гранта РФФИ N° 07-01 -00006.

сти и результатов вычислительных экспериментов, а также разработать методику синтеза двухуровневой оценки плотности вероятности, обеспечивающей применение технологии параллельных вычислений.

Непараметрическая оценка смеси плотности вероятности и ее свойства. Пусть V = (х', ' = 1, п) - выборка из п независимых наблюдений одномерной случайной величины х с плотностью вероятности р (х), вид которой априори неизвестен. Причем объем выборки достаточно большой, что снижает вычислительную эффективность непараметрических алгоритмов.

Разобьем исходную обучающую выборку V на К групп наблюдений Vj = (х',' е I3), 3 = 1, К . Здесь

I. - множество номеров наблюдений х, составляющих

у-ю группу, причем 01. = I = (' = 1, п) .

3=1

На основе каждой выборки V. построим непараметрическую оценку плотности вероятности [1]

1

(х )=—Хф

( л

х - X

где

Ь (с ) =

р(Xі ) = -

тах

1

П Р (Xі)

.і=1

п I

X *

ния ® 0 , а пр1 ® ¥. Здесь и далее бесконечные пре-

делы интегрирования опускаются.

Тогда при конечных значениях к непараметрическая оценка плотности вероятности р (х) обладает свойством асимптотической несмещенности и состоятельности.

П.С.‘е11 ч ,

3 = 1*, (1)

где Ф(-) - ядерные функции, удовлетворяющие условиям нормированности, положительности и симметричности; п. = \1. | - количество элементов множества I ; с.. = с (п.) - коэффициенты размытости ядерных функций, значения которых убывают с ростом п. .

Оптимизацию оценок плотностей вероятности по коэффициентам размытости с,, V = 1, к будем осуществлять в режиме «скользящего экзамена» из условия максимума функции правдоподобия

1-й уровень

2-й уровень

Рис. 1. Структура непараметрической системы оценки плотности вероятности, основанной на декомпозиции обучающей выборки по ее объему

Доказательство

1. По определению

м (р (х ))=* ££м (р.(х ))=

К 3=1

(п - 1) С '=!

3 , V

В качестве приближения р (х) по статистической выборке V примем смесь непараметрических оценок плотностей вероятности

р (х)=* х рз(х). (2)

К 3=1

Статистика типа (2) допускает использование технологии параллельных вычислений при оценивании плотности вероятности в условиях больших выборок.

Структура предлагаемой непараметрической системы оценки плотности вероятности представлена на рис. 1.

Асимптотические свойства р (х) определяются следующим утверждением.

Теорема. Пусть р (х) и первые две ее производные ограничены и непрерывны; ядерные функции Ф (и) удовлетворяют условиям

Ф(и) = Ф(-и), 0 <Ф(и)<¥,

|ф(и)du = 1, |и2 Ф(и)<з?и = 1,

|ит Ф(и^и <¥, 0 <т <¥;

последовательности с3 = с3 (п.) коэффициентов размытости ядерных функций таковы, что при п3 ®¥, значе-

р (ґ) йґ =

1 К

= Х[Ф(М ) Р (х - с]и ) йи,

к і=1

где М - знак математического ожидания.

Разложим р (х - сіи) в ряд Тейлора и, ограничиваясь первыми двумя членами ряда, имеем

ґ—/\ / \\ Р^ (х) 1 К

= М(р(х)-р(х))--------2— кX сі, (3)

2 к 1=1

где р1-2-1 (х) - вторая производная плотности вероятности р (х) по х.

Отсюда при выполнении условий с1 ® 0 при п1 ® ¥ следует свойство асимптотической несмещенности статистики (2).

2. Рассмотрим выражение

М|(р (х)- р (х)) йх =

( К _ ^

X І(р(х)- рі (х)) йх+

К2

і=1

НХ X |(р (х)- рі (х)) (р (х)- рк (х))йх

і=1 к=1 к * і

(4)

С учетом результатов исследования асимптотических свойств традиционной непараметрической оценки Розен-блатта-Парзена [2] выражение (4) при достаточно больших значениях п., ] = 1, К принимает вид

К2

М

М|(р (х)- р (х)) йх ~ ф(и )||2 с]\р (2)(х )

X

і=1

|2 Л Л

р (х)

-XX

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

і=1 к=1 к * і

2 2 сі ск

(5)

где ||Ф(и)||2 = |ф2 (и) du .

Нетрудно заметить, что при выполнении условий с] ® 0 и п]с] ® ¥ при п3 , з = 1, к оценка плот-

ности вероятности (2) сходится к р (х) в среднеквадратическом, а с учетом свойств асимптотической несмещенности является состоятельной.

Сравнение аппроксимационных свойств непараметрической оценки (2) и традиционной оценки Розенблатта-Парзена р (х). Для получения аналитически значимых результатов примем п./ = п / К, ] = 1, К. В этом случае можно полагать, что с = с (п.) = с (п / К), ] = 1, К.

На этой основе сравним отношения смещений, среднеквадратических отклонений и дисперсий непараметрических оценок р (х) и р (х) при оптимальных значениях коэффициентов размытости ядерных функций.

Асимптотическое выражение смещения для непараметрической оценки Розенблатта-Парзена р (х) имеет вид [2]

W2 = М (р (х) - р (х)) ~ р 2( ) с2 (п),

а для оценки р (х) определяется выражением (3).

Вычислим отношение W2 / W1 при оптимальных значениях коэффициентов размытости

||ф(и )||

п ||р'_' (х)1

К| Ф(и )||

п

р(2) (х )||

W3

||ф(и )||

р (х)

||ф(и)

п с

|2 Л4

р (х)

(6)

4 + К

4К1/5

ґ

мі^4

ф(и )||

р(2) (х)|

Рассмотрим отношение

Ж,/ Ж =

< 1,

Однако дисперсия оценки р(х) меньше, чем для традиционной статистики р (х). В чем нетрудно убедиться, если сравнить дисперсионные составляющие

||ф(и )||2 ||ф(и )|2

Ж = 11 V ЛI и W6 = 11 у

пс псо

в среднеквадратических отклонениях р(х) и р (х).

Их отношение

W6/ Ж5 = с = К1/5 > 1. со

Сравним вычислительную эффективность предложенной двухуровневой системы оценки плотности вероятности и традиционного непараметрического алгоритма (1). Будем полагать, что объем частных выборок Уі, і = 1, К одинаков и равен п/Т, время расчета одной ядерной функции составляет т.

Тогда максимальное время, необходимое для принятия решения традиционным непараметрическим алгоритмом и предлагаемой системой, составляют значения п т (к + К)

ґтр

ґт.

• пк т, ґ

7 п

кК

К

Вычислим их отношение:

соответственно для оценок р (х) и р (х).

После несложных преобразований получим

^ / W = 1 < 1 К '/5 ’

т. е. смещение статистики р (х) больше по сравнению с р (х).

При разбиении исходной выборки V на * групп точек одинакового объема п/К выражение (5) при оптимальных коэффициентах с * преобразуется к виду

Заметим, что при К = 1 выражение (6) совпадает со среднеквадратическим отклонением W4 для традиционной оценки Розенблатта-Парзена [2]:

Если значение к > К (характерное для боль-

Г„ к + К

ших выборок), то вычислительная эффективность предлагаемой системы возрастает по мере роста К.

Исследование свойств двухуровневой непараметрической оценки плотности вероятности. На основании данных вычислительного эксперимента сравнивались эффективность предлагаемого алгоритма (2) с хорошо зарекомендовавшим себя на практике традиционным непараметрическим алгоритмом (1) оценки плотности вероятности.

Традиционный алгоритм строился на полной обучающей выборке V = (х',' = 1, п).

Исследования осуществлялись при решении задачи оценки плотности вероятности, законы распределения формировались датчиками случайных чисел:

- для равномерного закона распределения х' = 10 • е',' = 1, п, при е е [0; 1] - случайная величина с равномерным законом распределения;

- для нормального закона распределения

______х' = Мх + о (2е' - 1)х

1-2 • 1п((2е' -1)2 +(2е' -1)2) ____

х ------------2------------2-,' = 1, п,

\ (2е' -1)2 +(2е' -1)2

при математическом ожидании Мх = 0,5 и среднеквадратическом отклонении о = 1,2.

Вычислительный эксперимент при фиксированных условиях исследований проводился пять раз, полученные результаты расчетов усреднялись.

Для определении эффективности предлагаемой оценки плотности вероятности использовался среднеквадратический критерий эффективности

Ж =-пі = 1

1 п _ 2

- X( р>(х) - рі (х))

(7)

4 + К

которое подтверждает несколько большую эффективность в среднеквадратическом непараметрической оценки р (х) по сравнению с предлагаемой р (х).

где п -объем выборки; р(х) - искомая плотность вероятности; р(х) - вычисленная оценка плотности вероятности.

Эффективность как традиционного (1), так и предлагаемого алгоритма (2) увеличивается с ростом объема обучающей выборки V (рис. 2,3).

2

При этом отмечается некоторое ухудшение результатов оценки плотности вероятности при увеличении количества групп К обучающей выборки V (рис. 4).

\Л/

Рис. 2. Зависимость критерия эффективности (7) от объема выборки п. Кривые 1, 2 соответствуют традиционному методу и предлагаемому методу (1) при К = 4.

Закон распределения - нормальный; ядерная функция - параболическая

Рис. 3. Зависимость критерия эффективности (7) от объема выборки п. Кривые 1, 2 соответствуют традиционному методу и предлагаемому методу (1) при К = 4.

Закон распределения - равномерный; ядерная функция - параболическая

\л/

0.04

0.035 _________

0,03 9

0 -,-,-,-,-,-.-.-.-. К

123456789 10

Рис. 4. Зависимость критерия эффективности (7) от количества групп К. Кривые 1, 2 соответствуют нормальному и равномерному законам распределения при объеме выборки п = 5 000.

Ядерная функция - параболическая

Результаты оценки времени выполнения алгоритмов приведены на рис. 5. Моделирование проводилось на

компьютере с двухъядерным процессором 1Пе1 Соте2Био Е6550 2.33вИ с разбиением вычислительного процесса на потоки (технология параллельных вычислений). Наблюдается существенное сокращение времени расчетов при количестве групп К = 2. Дальнейшее сокращение времени расчетов при увеличении количества групп К происходит менее интенсивно. Для улучшения результатов рекомендуется использовать многопроцессорные системы.

1:, сек

Рис. 5. Зависимость времени вычислений от количества групп К. Объем выборки п = 10 000. Ядерная функция - параболическая

Вид используемой ядерной функции практически не оказывает влияния на эффективность оценки плотности вероятности (рис. 6).

О 2 ■

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

0,1& •!

I

0:16 *

100 500 900 1300 1700 2100 2500 2900 3300 3700 4100 4500 4900

Рис. 6. Зависимость критерия эффективности от вида ядерной функции: кривые 1, 2, 3 соответствуют параболической, ступенчатой и треугольной ядерным функциям при объеме выборки п = 5 000 и К = 4

Таким образом, на основе анализа асимптотических свойств непараметрической оценки смеси плотностей вероятности обоснована возможность декомпозиции исходных статистических данных при синтезе непараметрических статистик в условиях больших выборок. С этих позиций предложена методика построения двухуровневой непараметрической системы оценки плотности вероятности, характеризующейся высокой вычислительной эффективностью. Приведены результаты вычислительных экспериментов, которые подтверждают правильность аналитических исследований.

Перспективность данного направления исследований состоит в возможности построения целого ряда модификаций многоуровневых непараметрических систем оценки плотности вероятности и использовании технологии параллельных вычислений.

Библиографический список 2. Епанечников, В. А. Непараметрическая оценка мно-

гомерной плотности вероятности / В. А. Епанечников //

1. Parzen, E. On estimation of a probability density Теория вероятности и ее применения. 1969. Вып. 1. Т. 14. function and mode / E. Parzen // Ann. Math. Statistic. 1962. С. 156-161.

Vol. 33. Р 1065-1076.

V A. Lapko, S. S. Varochkin, I. A. Egorochkin

DEVELOPMENT AND RESEARCH OF NONPARAMETRIC ESTIMATION OF PROBABILITY DENSITY BASED ON THE PRINCIPLE OF TRAINING SAMPLE DECOMPOSITION ACCORDING TO ITS VOLUME

The two-level nonparametric estimation of probability density based on the principle of decomposition of training sample according to its volume is offered. This estimation is characterized by high computing efficiency due to the opportunity ofparallel computing technologies use. The results of computing experiments are given.

Keywords: estimation of density probability, the big samples, asymptotic properties, research of the properties, parallel computing technologies.

УДК004.94

Д. Н. Колегов

ДП-МОДЕЛЬ КОМПЬЮТЕРНОЙ СИСТЕМЫ С ФУНКЦИОНАЛЬНО И ПАРАМЕТРИЧЕСКИ АССОЦИИРОВАННЫМИ С СУБЪЕКТАМИ СУЩНОСТЯМИ

Вводится понятие параметрически-ассоциированной с субъектом сущности в компьютерной системе (КС) и строится расширение ФАС ДП-модели КС, охватывающее такие сущности. Формулируются и обосновываются условия получения недоверенным субъектом права доступа владения к другому субъекту в этом расширении.

Ключевые слова: компьютерная безопасность, математические модели безопасности, дискреционные модели, анализ безопасности, права доступа, информационные потоки.

Анализ безопасности компьютерных систем является одной из актуальных проблем теории компьютерной безопасности. Данная проблема возникает в связи с необходимостью использования формальных (математических) моделей для проведения оценки безопасности КС на соответствие функциональным требованиям, критериям, политикам или стандартам безопасности. Причем для разработки КС с высоким уровнем доверия к их безопасности использование математических моделей является обязательным.

Для анализа безопасности КС используются формальные модели, позволяющие анализировать условия передачи прав доступа и реализации информационных потоков в КС. Одной из таких современных моделей КС с дискреционным управлением доступа является ДП-модель с ее расширениями [1].

Дальнейшее изложение будет опираться на работу [1] с учетом всех определений, обозначений и теорем в ней.

Сущность называется функционально-ассоциированной с субъектом, если она определяет вид преобразования данных, выполняемого этим субъектом. В ДП-моде-лях с функионально-ассоциированными с субъектами сущностями (ФАС ДП-моделях) анализируется ситуация, когда реализация информационного потока по памяти к сущности, функционально-ассоциированной с субъек-

том, приводит к изменению вида преобразования данных, реализуемого этим субъектом.

В то же время в современных КС возможна реализация информационного потока по памяти от сущности, позволяющая получить права доступа различных субъектов КС, в том числе и доверенных. Такие сущности являются параметрически-ассоциированными с субъектами КС. Например, получение субъектом-нарушителем доступа на чтение к конфигурационному файлу или реестру, в котором хранится пароль или хэш-значение пароля субъекта КС, позволяет субъекту-нарушителю получить право доступа владения к последнему субъекту.

Кроме того, в настоящее время дополнительно к классическим угрозам нарушения конфиденциальности, целостности и доступности информации рассматривают угрозу раскрытия параметров КС - возможность идентификации параметров, функций безопасности и свойств КС, знание которых позволяет реализовать нарушение безопасности [2]. Например, чтение сообщения, выдаваемого субъектом-процессом при подключении к нему, позволяет нарушителю идентифицировать программное обеспечение (ПО), реализующее данный субъект-процесс КС, и получить права доступа последнего, используя известные уязвимые места в ПО.

i Надоели баннеры? Вы всегда можете отключить рекламу.