Научная статья на тему 'Метод идентификации форм распределений малых выборок'

Метод идентификации форм распределений малых выборок Текст научной статьи по специальности «Математика»

CC BY
12
2
i Надоели баннеры? Вы всегда можете отключить рекламу.
Область наук

Аннотация научной статьи по математике, автор научной работы — Максим Валериевич Федоров

Предложен метод непараметрической гистограммной оценки формы выборочного распределения, основанный на вычислении оптимальных параметров сдвига и масштаба путем поиска экстремума ACF-функционала. Показано, что предлагаемый метод более эффективен в случае небольшого объема выборки, чем различные неоптимизированные гистограммные оценки плотности. С помощью этой оценки сделано обобщение метода топографической классификации форм распределений на случай малого объема выборки. Метод позволил обнаружить квазипериодические колебания характеристик тонкой структуры распределений результатов измерений α-активности образцов ²³⁹Pu.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Метод идентификации форм распределений малых выборок»

УДК 539.16+519.224

Метод идентификации форм распределений малых выборок

М. В. Федоров

МАКСИМ ВАЛЕРИЕВИЧ ФЕДОРОВ — младший научный сотрудник лаборатории физической биохимии Института теоретической и экспериментальной биофизики РАН (ИТЭБ РАН). Область научных интересов: статистическая физика, закономерности в реальных стохастических процессах, непараметрическая статистика, вейвлет-анализ и его приложения.

142290 Пущино, Московская область, Институтская ул., д. 3, ИТЭБ РАН, E-mail max@pbc.iteb. serpukhov. su

Предложен метод непараметрической гистограммной оценки формы выборочного распределения, основанный на вычислении оптимальных параметров сдвига и масштаба путем поиска экстремума ACF-функционала. Показано, что предлагаемый метод более эффективен в случае небольшого объема выборки, чем различные неоптимизированные гистограммные оценки плотности.

С помощью этой оценки сделано обобщение метода топографической классификации форм распределений на случай малого объема выборки. Метод позволил обнаружить квазипериодические колебания характеристик тонкой структуры распределений результатов измерений а-активности образцов ^^^

Введение

Как было показано в работе [1], тонкая структура распределения амплитуд флуктуаций результатов измерений процессов разной природы неслучайна. В связи с этим актуальна задача идентификации и сравнения форм соответствующих гистограмм. Традиционно применяемые методы анализа распределений оказались для этой цели мало пригодными [1]. Однако прогресс в решении этой задачи может быть достигнут при сочетании нескольких статистических критериев.

Предлагаемый метод основан на классификации выборочных распределений по оценкам двух парамет-

X

Рис. 1. Зависимость сглаженных форм выборочных распределений из пуассоновского процесса от их расположения на (х, Ке°р1)-плоскости.

Пояснения см. в тексте.

ров — коэффициента контрэксцесса % и энтропийного коэффициента К [2—4]. Каждому выборочному распределению в этом случае соответствует определенная точка в (%, Ке)-плоскости. Для классификации форм гистограмм оказалось достаточным разбиение этой плоскости на девять областей. Типичные «базовые» формы гистограмм, соответствующие разным областям, показаны на рис. 1. Решение о сходстве (различии) гистограмм определяется в соответствии с принадлежностью их к тем или иным базовым формам. Для классификации форм гистограмм существенна предлагаемая нами оптимизированная оценка параметра Ке. Такая оценка более эффективна в случае малых выборок, чем обычно применяемые [2—4].

Определение контрэксцесса

Контрэксцесс определяется как [3]:

Х = 1/л/П (1)

где п — параметр эксцесса, определяемый как

П = Ц4/04 (2)

где о — среднеквадратичное отклонение; Ц4 — выборочный четвертый центральный момент [3, 5, 6].

Параметр % изменяется от 0 (распределение Коши) до 1 (дискретное двузначное распределение). Для нормального распределения % = 1/43 ~ 0,577.

Определение энтропийного коэффициента

Вторым параметром, характеризующим форму распределения, является энтропийный коэффициент ^ [2—4]

K = Де/о

(3)

где Де — так называемое энтропийное значение погрешности [2—4]

др = 1eH(X/X п) Е 2

(4)

H(X/Xп) — изменение энтропии (неопределенности), вносимое измерением случайной величины X. Эта величина определяется как [3, 7]:

H(X/Xп ) = - J p(X)ln(p(X))dX

(5)

М. В. Федоров

где р(Х) — плотность вероятности случайной величины.

Так как интеграл (5) определен для любых распределений, следовательно, и величину энтропийного значения погрешности можно определить для любого закона распределения случайной величины.

Было показано [7], что максимальным значением

Ке = V2пе/2 « 2,066 обладает нормальное распределение. Для распределения Коши и дискретного двузначного распределения К = 0, для равномерного распределения К £ = л/3 = 1,73.

Для расчета энтропийного коэффициента по конечной выборке необходимо сделать оценку функции плотности вероятности наблюдаемой случайной величины. Если этой оценкой служит гистограмма (кусочно-постоянная функция на т интервалах группировки, каждый из которых имеет ширину №), то выборочный энтропийный коэффициент по гистограмме определяется [3, 4] как

К £ =

10-^|д( п ]

(6)

где № — размер интервала группировки (размер бина гистограммы); N — объем выборки; т — число интервалов группировки (число бинов гистограммы); о — выборочное стандартное отклонение; п, — число измерений, попавших в ¡-й интервал группировки соответствующей гистограммы.

В различных руководствах по статистической обработке результатов измерений [2—6, 8, 9] приводятся различные рекомендации по выбору как числа интервалов группировки т, так и их размера №. Одной из наиболее распространенных оценок оптимального числа интервалов является [3, 5, 6, 8]

т

=

(7)

В работе [3] рекомендуется выбирать число интервалов т из диапазона:

0,55№'4 < т < 1,25№'4 (8)

При этом т должно быть нечетным [3]. В работах [10, 11] для распределений, близких по форме к нормальному, рекомендуется выбирать № как

№ = 3,5оЫ~'

(9)

В большинстве работ ничего не говорится о выборе начального значения первого интервала группировки — параметра сдвига е. Неопределенность в выборе этого параметра может привести к значительному смещению оценок К£. В работе [3] рекомендуют выбирать б таким образом, чтобы середина центрального интервала гистограммы совпадала с рассчитанным центром распределения. Основание для этих рекомендаций вызывает сомнения, поскольку б начинает в этом случае зависеть от флуктуирующего параметра центра распределения и неопределенным образом задаваемого числа интервалов. По-видимому, для каждой конкретной выборки существуют оптимальные значения параметров № и б (см., например, [8, 9]). Следовательно, можно попытаться найти некоторый функционал г(№,б), экстремальному значению которого будут соответствовать оптимальные значения № и б. В работах [10, 11] обсуж-

даются проблемы, связанные с выбором такого функционала. Исходя из результатов этих работ и проведенного нами исследования, мы используем в качестве г(№,б) следующую функциональную зависимость:

Е[ пт, з (, )пт, з (, + 1)]

АОР(и/, б) =

, = 0

т

Е [ П„, з (, )2] , =1

(10)

где пЩз() — число результатов измерений, попавших в ¡-й интервал группировки гистограммы.

Оптимальным значениям № и б соответствует тах(АОР(№,Б)). В случае дискретных распределений расчет № и б следует проводить следующим образом: для каждой конкретной выборки задаются некоторые начальные значения № и б, в соответствии с формулами (7)—(9). После чего производится поиск максимума функционала АОР(№,з) на двумерной сетке (№,б) с шагом, равным единице. Далее по соответствующим максимуму значениям (1^, БорО строится выборочная гистограмма и по формуле (6) рассчитывается К

ор1

Классификация форм выборочных распределений по их расположению в (%, Ке°р1)-плоскости

Для анализа поведения во времени форм выборочных распределений различных стохастических процессов нами предлагается следующая процедура.

1) Выбирается размер исследуемых выборок N. Это число не должно быть слишком большим, чтобы не нивелировались особенности каждой конкретной реализации исследуемого случайного процесса; N следует выбирать из диапазона 30—200.

2) Исходный ряд измерений делится на последовательные неперекрывающиеся отрезки размером N.

3) Для каждого из этих отрезков рассчитываются параметры % и К£0р

4) По всем полученным значениям % и К£0р рассчитываются доверительные интервалы [1.%, их] и [Ц, ик] для каждого параметра отдельно. Как правило верхними и нижними границами служат соответственно 10 и 90%-е процентили.

5) В соответствии с расположением в (%, К£0р')-плоскости и выбранными границами каждой из последовательных выборок присваивается индекс от I до IX. Так, выборке с % < Ц и К£0р < Ц соответствует индекс I, выборке с 1-х < х < их — индекс II и т.д. Рис. 1 иллюстрирует приблизительное соответствие сглаженных форм выборочных распределений из пуассоновского процесса с их расположением на (%, К£0р')-плоскости.

Эта процедура определения форм распределений малых выборок не вполне однозначна, поэтому фигуры на рис. 1 не являются «эталонными формами», скорее это «типичные представители».

В работах [3, 4] предлагается иная классификация форм распределений по их положению в (%, К£0р')-плоскости с использованием параметрически задаваемых областей для каждого из известных законов распределений и(или) их комбинаций. Но при небольших объемах выборок эти параметры определяются с большими погрешностями, поэтому мы пользуемся для расчета границ непараметрическими оценками в виде про-

AK/AKpt

различных методов расчета параметров т, w и в:

1—3 — расчет по формулам (7), (8) и (9), соответственно

центилей. Тем не менее вопрос об оптимальном разбиении (х, Ке°р')-плоскости требует дальнейшего дополнительного исследования.

Оценка эффективности предлагаемого метода

Для проверки эффективности предлагаемого метода оценки энтропийного коэффициента Kl!°pt был проведен численный эксперимент. Из большой совокупности (>106) односекундных измерений а-радиоактивности, подчиняющейся закону Пуассона (среднее 317), случайным образом выбиралось по 1000 совокупностей объемом N. N изменяли от 30 до 1000. После чего для каждой выборки рассчитывали параметр К различными методами и Ке°р'. Затем для каждого N и для каждого метода было рассчитано расстояние между 75 и 25%-й квантилью как мера разброса А^. На рис. 2 изображено отношение AKe/AKe°pt для различных методов расчета параметров m, w и е. Как видно из рис. 2, разброс значений K°pt во всем диапазоне изменения N меньше, чем разброс значений ^ вычисленных другими методами (ни одна из линий не пересекает уровень, равный единице). Следовательно, метод расчета Ke°pt является наилучшим во всем диапазоне N от 30 до 1000. В то же время оценки по формулам (7) и (8) характеризуются большими смещениями.

Исследование изменения форм выборочных распределений во времени

Иллюстрацией возможностей разработанного метода является представленная на рис. 3 зависимость вероятности сходства (Р) гистограмм от временного интервала между ними для всех базовых форм гистограмм, построенных по ряду измерений а-активности 2 9Ри. Как видно, это распределение отличается от случайного, доверительные границы для которого показаны пунктиром. На рис. 3 хорошо видно, что повышенная вероятность сходства наблюдается у гистограмм с небольшим временным интервалом между ними (эффект «ближней зоны», см.[1 ]) и с приблизительно 24-часовым интервалом (эффект «околосуточной периодичности», см.[1]). Присутствует еще несколько экстремумов, выраженных менее ярко.

Следует отметить, что гистограммы, принадлежащие разным «базовым формам», характеризуются различной зависимостью частоты встречаемости от времени.

Рис. 3. Зависимость вероятности сходства гистограмм от временного интервала между ними

Таким образом, предложенный метод позволяет идентифицировать и сравнивать тонкую структуру распределений - формы соответствующих гистограмм более эффективно, чем ранее существующие. Нам представляется вероятным, что различные эффекты макро-флуктуаций, такие как «ближняя зона», «местное время», «околосуточная периодичность» и др. [1], обуславливаются гистограммами различных классов. Мы полагаем, что усовершенствованные методы классификации форм распределений, связанные с представлением гистограмм в (%, Ке°р')-плоскости, будут полезны в исследованиях различных процессов.

* * *

Представленная работа частично поддержана РФФИ (гранты № 01-04-97032 и № 01-03-32529).

Автор признателен С.Э. Шнолю и М.Н. Кондрашовой за постоянную поддержку, Э.С. Горшкову, С.В. Шаповалову и К.И. Зенченко за помощь в проведении экспериментов, В.Н. Морозову, К.И. Зенченко, Т.А. Зенченко, А.А. Конрадову, В.А. Коломбету и В. В. Стрелкову за полезное обсуждение.

ЛИТЕРАТУРА

1. Шноль С.Э. Рос. хим. ж. (Ж. Рос. хим. об-ва им. Д. И. Менделеева), 2002, № 3, с 3.

2. Новицкий П.В. Измерительная техника, 1966, № 7, с. 11—14.

3. Новицкий П.В., Зограф И.А. Оценка погрешностей результатов измерений. Л.: Энергоатомиздат, 1991.

4. Алексеева И.У. Автореф. дис. ... канд. тех. наук. Л.: Ленингр. политехн. ин-т, 1975, 20 с.

5. Чернецкий В.И. Математическое моделирование стохастических систем. Петрозаводск: Изд-во Петрозаводск. гос. ун-та, 1994.

6. Кендалл М., Стьюарт А. Теория распределений. М.: Наука, 1966.

7. Шеннон К. Работы по теории информации и кибернетике. М.: Издатинлит, 1963.

8. Хальд А. Математическая статистика с техническими приложениями. М.: Издатинлит, 1956.

9. Кендалл М., Стьюарт А. Статистические выводы и связи. М.: Наука, 1973.

10. Renaud О. Technical Report 2000-34, Statistics Department, Stanford University, 2000.

11. Renaud О. Biometrika, 2002, v. 89, № 1, p. 129—143.

i Надоели баннеры? Вы всегда можете отключить рекламу.