Научная статья на тему 'Границы точности восстановления информации, теряемой при округлении результатов наблюдений'

Границы точности восстановления информации, теряемой при округлении результатов наблюдений Текст научной статьи по специальности «Математика»

CC BY
40
8
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ОКРУГЛЕННЫЕ ДАННЫЕ / ВЫБОРОЧНОЕ СРЕДНЕЕ / НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ / РАСПРЕДЕЛЕНИЕ ЛАПЛАСА / РАСПРЕДЕЛЕНИЕ СИМПСОНА / ROUNDED DATA / SAMPLE MEAN / NORMAL DISTRIBUTION / LAPLACE DISTRIBUTION / SIMPSON DISTRIBUTION

Аннотация научной статьи по математике, автор научной работы — Ушаков В.Г., Ушаков Н.Г.

В работе получены нижние и верхние оценки отклонения предела выборочного среднего от оцениваемого математического ожидания, когда обрабатываются округленные данные. Рассмотрены случаи распределений ошибок: нормального, Симпсона (треугольного) и Лапласа (двойного экспоненциального).

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Bounds for accuracy of recovering of information lost due to rounding

In this work, upper and lower bounds for deviation of the sample mean from the expectation to be estimated are obtained in the case when data are rounded and the discretization step is large compared with measurement errors. These bounds are obtained for three families of distributions of the measurement errors: normal, Laplace and Simpson.

Текст научной работы на тему «Границы точности восстановления информации, теряемой при округлении результатов наблюдений»

8. Шестаков О.В. О скорости сходимости оценки риска пороговой обработки вейвлет-коэффициентов к нормальному закону при использовании робастных оценок дисперсии // Информатика и ее применения. 2012. 6. № 2. С. 122-128.

9. Mai la t S. A Wavelet Tour of Signal Processing. New York: Academic Press, 1999.

10. Abramovich F., Bailey T.C., SapatinasT. Wavelet analysis and its statistical application//The Statistician. 2000. 49. P. 1-29.

11. DonohoD., Johnstone I. M. Ideal spatial adaptation via wavelet shrinkage // Biometrika. 1994. 81. N 3. P. 425-455.

12. Donoho D., Johnstone I. M. Adapting to unknown smoothness via wavelet shrinkage//J. Amer. Stat. Assoc. 1995. 90. P. 1200-1224.

13. Jansen M. Noise Reduction by Wavelet Thresholding. Lecture Notes in Statistics. Vol. 161. New York.: Springer Verlag, 2001.

14. Serfling R. Approximation Theorems of Mathematical Statistics. New York: John Wiley & Sons, 1980.

15. Serfling R., Mazumder S. Exponential probability inequality and convergence results for the median absolute deviation and its modifications // Statistics and Probability Letters. 2009. 79. N 16. P. 1767-1773.

16. Bahadur R. R. A note on quantiles in large samples // Ann. Statist. 1966. 37. N 3. P. 577-580.

Поступила в редакцию 08.11.16

УДК 519.21

В. Г. Ушаков, Н. Г. Ушаков2

ГРАНИЦЫ ТОЧНОСТИ ВОССТАНОВЛЕНИЯ ИНФОРМАЦИИ, ТЕРЯЕМОЙ ПРИ ОКРУГЛЕНИИ РЕЗУЛЬТАТОВ НАБЛЮДЕНИЙ*

В работе получены нижние и верхние оценки отклонения предела выборочного среднего от оцениваемого математического ожидания, когда обрабатываются округленные данные. Рассмотрены случаи распределений ошибок: нормального, Симпсона (треугольного) и Лапласа (двойного экспоненциального).

Ключевые слова: округленные данные, выборочное среднее, нормальное распределение, распределение Лапласа, распределение Симпсона.

1. Введение. В последнее время наблюдается рост интереса к проблеме обработки округленных данных (см. [1-4] и ссылки в этих статьях). Это вызвано рядом причин, среди которых, в частности, быстрый рост компьютерных технологий, делающих обычными большие объемы данных. Как было показано в [5], при статистической обработке округленных данных ошибка измерения может быть использована для снижения влияния ошибки округления. Более того, во многих случаях целесообразно искусственно увеличивать ошибку измерения, чтобы добиться повышения точности конечного результата. В данной работе получены верхние и нижние границы точности оценки математического ожидания наблюдаемой случайной величины, если распределение ошибки измерения подчиняется одному из трех типов распределений с плотностью распределения /(ж) и характеристической функцией

112 0.2

1) нормальному с /(ж) = __и ср(г) =

л/2тта

1 _ I 2еи1*

2) Лапласа с /(ж) = -д-е <т |ж м и ф) = —ц^—у

1 Факультет ВМК МГУ, проф., Институт проблем информатики ФИЦ ИУ РАН, ст. науч. сотр., д.ф.-м.н., e-mail: vgushakovQmail.ru

2 Department of Mathematical Sciences, Norwegian University of Science and Technology, Trondheim, Norway, проф., д.ф.-м.н., e-mail: ushakovQmath.ntnu.no

* Работа выполнена при финансовой поддержке РНФ, проект № 14-11-00364.

1 1 2 sin2 (у |cri

3) Симпсона с /(ж) = —=----|ж — /х| и <y?(i) =---—e%ßt.

уб ст ост2

Во всех трех случаях /х — математическое ожидание ист2 — дисперсия.

Далее будем считать (не ограничивая общности), что шаг дискретизации равен 1. Введем следующие обозначения. Целую и дробную часть действительного числа ж будем обозначать соответственно [ж] и {ж}. Округленное до ближайшего целого значение обозначим ж*. Таким образом, ж* = [ж], если {ж} < 1/2 и ж* = [ж] +1, если {ж} ^ 1/2. Заметим, что ж* = [ж + 1/2]. Почти наверное предел последовательности случайных величин Xi,X2, ■ ■ ■ будем обозначать lim (п. н.)Хп.

п—о

При нахождении как верхних, так и нижних оценок будет необходима следующая

Лемма. Пусть Y — абсолютно непрерывная случайная величина с плотностью распределения f(y) и характеристической функцией <p(t). Если cp(t) абсолютно интегрируема, то имеет место равенство

°° 1 ^^ 1т(р(2тгп)

Е{у} = / у Е /(» + ")<*» =

7Г П

Q п=—оо п= 1

Доказательство. Действительно, используя формулу суммирования Пуассона (см., например, [6])

оо оо

Е /(У + п)= Е ¥>(2™)е-*2™,

п= — сю п= — оо

получим искомое равенство

00 1 1 1т(р(2ттп)

Г 1

В {Y}= Е ¥>(2™) J уе~^п dy = 2 - Е

2жп 2 ' жп

n= — 0О Q п^О п=1

2. Верхние оценки. Пусть Л'). Л' .----— последовательность независимых одинаково распределенных случайных величин с неизвестным математическим ожиданием /х, а £1,62, ■ ■ ■ — последовательность с одним из описанных выше распределений с математическим ожиданием 0 и дисперсией а2. Рассмотрим последовательность округленных величин (Х1 +£1)*, (Х1 +£2)*, — Положим

Д(/х,(т) =

1

lim (п.н.)~y^(Xi +£i)* - ц

i—>оо п *—*

г= 1

Теорема 1. Для любого /х в зависимости от того, какое распределение имеют еп, п = 1,2,..., выполняется одно из следующих неравенств:

1) ДОмО < £ (i +

э-2тrV

в случае нормального распределения;

2) Д(/х, а) <

1

1

7Г (27Г2(Т2 + 1) 47Г3(Т2

в случае распределения Лапласа;

8111 (-\/б7ГСг)

3) Д(/х, ст) ^ -1———т—!- в случае распределения Симпсона. •зЬтТЧ

Доказательство. Пусть ф(1) и — характеристические функции случайных величин Х1, Х2, ■ ■ ■ и г 1. ----соответственно. Так как

Д(/х,(т) =

то в силу леммы будем иметь

^ 1т (у{2ип)ф{2ипУжп) _ ^ (-1)"1т (-ф(2жп)) ср(2жп)

Г 11 1 Г 11

Е Xi + £i + ~ — - - Е 1 Xi + £i Н -2}

п= 1

п=1

7Г П

Отсюда получим

(р(2жп)

А{ц,а) <

7Г П п= 1

Рассмотрим каждый тип распределения случайных величин еп, п = 1, 2,..., отдельно. 1. Для нормального распределения получим:

^ ю(2ттп) -А е-2ж2<т2п2 1/ } 1'i;"»".,'" \ ¿ 2 2,-1 y¡p(Z7m)=ye- < i Í-2M + / е-\ < 4тг <т ÎV2^ .

ЖП ' ЖП Ж \ . X 1 4ж (7

П=1 п=1

2. Для распределения Лапласа получим:

оо

Еср(2жп) 1 1 f dx

тгп. .Z—/ ~

жп ' жп 2ж2а2п2 + 1 ж (2ж2а2 + 1) ж x (2ж2а2х2 + 1)

n=1 n=1 1

1 1 , Л 1 !

' ln 1 + ——г <

ж (2тг2бг2 + 1) 2тг V 2тг2(т2 / тг (2тг2с72 + 1) 4ж3а2'

3. Для распределения Симпсона получим:

оо оо • 2 í ÍF \

9р(27гп) _ sin (yo-пап)

' ТГП ' 67Г3С72П3

п=1 п=1

Так как |sin(na)| ^ п sin а, то

^ |sin (л/бтгег) | 1 |sin (л/бтгег) |

' 67Г3С72 п2 36-7ГС72

п= 1

Теорема доказана.

3. Нижние оценки. При нахождении верхних оценок отклонения предела выборочного среднего от оцениваемого математического ожидания в предыдущем пункте учитывалась только дополнительно внесенная случайная ошибка измерения, задаваемая последовательностью г 1. г-_......

Для нахождения нетривиальных нижних оценок нужно учитывать все случайные ошибки измерения. Поэтому мы не будем выделять в наблюдениях исходные случайные ошибки Х1, Х2,... и дополнительно внесенные £\, £2, ■ • ••

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Пусть Х1,Х2,... — последовательность независимых одинаково распределенных случайных величин, имеющих одно из трех указанных выше распределений с математическим ожиданием рь и дисперсией а2. Рассмотрим последовательность округленных значений .V. .V[.— Нас будут интересовать нижние границы отклонения предела выборочного среднего округленных наблюдений 2 п

— У] X* от а при "наихудшем" значении а и зависимость этих границ от а. Положим п ¿=1

п

А(а) = sup Д(/х, о) = sup

1 ^

lim (п.н.)- \ X* - ц

п—>оо п ¿—*

i= 1

Теорема 2. В зависимости от того, какое распределение имеют Xi,X2, ■ ■ ■, выполняется одно из следующих неравенств:

е-2тг2<72 е-18тг2<72 / I \

1) А (а) >----- ( 1 + „ „ „ ) в случае нормального распределения;

Ж Зя" \ Ьж и )

1 1

2) А (а) > —„ „-—г — ч „ , „ в случае распределения Лапласа;

Ж (2ж (7 + 1) 1Ьж6аг

Isin (л/бтгег) I _

3) А\а) ^ 1- —1 ( sin(v67ro') —0.4) в случае распределения Симпсона.

Dît лаг 1 1

Доказательство. Заметим, что в силу усиленного закона больших чисел

А (с) = яир \ЕХ* — ц\ = вир

Е

= Бир Ц

1 Г 1 - - Е \Хг + -

= Бир Ц

о " Е Ш

В силу леммы будем иметь

1тср(2жк)

2 ^ тг к к= 1

Рассмотрим каждый тип распределения Хх,Х2, ■ ■ ■ отдельно. 1. В случае нормального распределения получим

Е {Х^ = 8т(ц2жк)

2 7г ^—' к к=1

и, следовательно,

Бир Ц

— яир У^ \е 27г2(т2/г2 $т([12ик).

Очевидно, что имеет место неравенство

ОО 1 00 1

к=1

к=3

к

Оценим сверху сумму в правой части последнего неравенства. Имеем

Е ь

к=з

-е~2М2 йх. х

Далее, получим

Отсюда будем иметь

и, следовательно,

1

1

1

-е"2т ахёх<- е~6ж а Хйх= 10 . X 3 „/ 1б7Г £о£

3 3

, —187Г О"

к=3

к

1

67Г2С72

Бир Ц

> I (е-2-2-2 _ , !

6'7Г20':

2. В случае распределения Лапласа получим

Бир Ц

1

1 ^ 1 8т(^2пк)

= — Бир

Е

к=1

к 1 + 2и2о2к2 '

Следовательно, будем иметь

Бир Ц

2

1 1 > -

1 °° 1 1 V -ч 1

тг Ь

7г 1 + 2тг2бг2 тг ^ /,• 1 + 2и2о2к2 к=3

>

1 1 > -

йх

1 1 > -

1

7Г 1 + 2/Г1'гТ1' У ж(1 + 27Г2С72Ж2) 7Г 1 + 2/Г1'гТ1' 1б7Г3С72

2

3. В случае распределения Симпсона получим

sup ц

sin2 (л/бся") sin2 (у/Есгяк)

"" йтт3а2 ' йтт3а2к3 ""

к=з

Sin2(-\/6o"7r) |sin (л/б7Г<т) | /7Г2 5\ |sill (л/бтГСт)

^ —7 - —г.. „ 71 ---)>

6ir3a2 6ir3a2 V 6 4 / 6ir3a2

sin voir а

0.4

Теорема доказана.

Сравнение верхних и нижних оценок показывает, что они имеют одинаковые порядки убывания при а —> оо. При очень малых значениях а оценки становятся бесполезными: нижние оценки становятся отрицательными, а верхние — очень большими. Однако, это отражает существо дела: если ошибка измерения в десятки раз меньше, чем ошибка округления (шаг дискретизации), то она практически перестает оказывать влияние на точность конечного результата.

СПИСОК ЛИТЕРАТУРЫ

1. Li W.M., Bai Z.D. Rounded data analysis based on multi-layer ranked set sampling // Acta. Math. Sin. 2011. 27. P. 2507-2518.

2. Schneeweiss H., Komlos J., Ahmad A. S. Symmetric and asymmetric rounding: a review and some new results // AStA Adv. Stat. Anal. 2010. 94. P. 247-271.

3. Wang В., Wertelecki W. Density estimation for data with rounding errors // Comput. Statist. Data Anal. 2013. 65. P. 4-12.

4. Zhao N., Bai Z. Analysis of rounded data in mixture normal model // Stat. Papers. 2012. 53. P. 895-914.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

5. Ушаков В. Г., Ушаков Н. Г. Об усреднении округленных данных / / Информатика и ее применения. 2015. 9. № 4. С. 116-119.

6. Феллер В. Введение в теорию вероятностей и ее приложения. Т. 2. М.: Мир, 1984.

Поступила в редакцию 11.11.16

УДК 519.7

С. Н. Селезнева1

О СЛОЖНОСТИ ЗАДАЧИ ВЫПОЛНИМОСТИ МУЛЬТИЛИНЕЙНЫХ ФОРМ НАД КОНЕЧНЫМ ПОЛЕМ*

В работе рассматриваются мультилинейные формы над конечными полями. Муль-тилинейной формой над некоторым полем называется произведение, в котором каждый сомножитель является суммой переменных или элементов этого поля. Каждая мультили-нейная форма определяет некоторую функцию над этим полем. Мультилинейная форма называется выполнимой, если она задает ненулевую функцию. Показана iVP-полнота задачи распознавания выполнимости мультилинейных форм над каждым конечным полем из q элементов при q ^ 3. Доказана теорема, разделяющая случаи полиномиальности и АГР-полноты задачи выполнимости мультилинейных форм при каждом возможном

ОЗ.

Ключевые слова: функция над конечным полем, линейная функция, мультилинейная форма, выполнимость, АГР-полная задача, полиномиальная задача.

1. Введение. В [1] получена классификация сложности задачи выполнимости конъюнктивных форм. Пусть К = ... hFm — конъюнктивная форма, где Fi,..., Fm — отношения над двухэлементным множеством, зависящие от произвольных переменных из некоторого множества X.

1 Факультет ВМК МГУ, доц., д.ф.-м.н., e-mail: seleznQcs.msu.su

* Работа выполнена при финансовой поддержке РФФИ, проект № 17-01-00782-а.

i Надоели баннеры? Вы всегда можете отключить рекламу.