Научная статья на тему 'Процедура построения выборочного аналога функции плотности'

Процедура построения выборочного аналога функции плотности Текст научной статьи по специальности «Математика»

CC BY
130
40
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ПРОЦЕДУРА / ГЕНЕРАЛЬНАЯ СОВОКУПНОСТЬ / ВЫБОРКА / ЭМПИРИЧЕСКАЯ ФУНКЦИЯ ПЛОТНОСТИ / ПРОВЕРКА СТАТИСТИЧЕСКИХ ГИПОТЕЗ

Аннотация научной статьи по математике, автор научной работы — Шепель Вячеслав Николаевич

Рассматривается проблема увеличения степени формализации процесса определения закона распределения по выборке из генеральной совокупности. Предлагается процедура определения эмпирической функции плотности.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Процедура построения выборочного аналога функции плотности»

Шепель В.Н.

Оренбургский государственный университет E-mail: fit.cits@mail.ru

ПРОЦЕДУРА ПОСТРОЕНИЯ ВЫБОРОЧНОГО АНАЛОГА ФУНКЦИИ ПЛОТНОСТИ

Рассматривается проблема увеличения степени формализации процесса определения закона распределения по выборке из генеральной совокупности. Предлагается процедура определения эмпирической функции плотности рп> (х)

Ключевые слова: процедура, генеральная совокупность, выборка, эмпирическая функция плотности, проверка статистических гипотез.

В практике статистического анализа и моделирования точный вид закона распределения анализируемой генеральной совокупности, как правило, бывает неизвестен. Мы располагаем лишь выборкой из интересующей генеральной совокупности. Если это одномоментные наблюдения для одного признака, то матрица выборочных данных (в.д.) имеет вид / \

(ВД.)=

(1)

V /

Строить свои выводы и принимать решения мы вынуждены на основании расчета ограниченного ряда выборочных характеристик. К основным выборочным (эмпирическим) характеристикам [1] относятся:

- эмпирическая функция распределения #(п)( х);

- эмпирическая функция плотности

/(п)( х);

- эмпирическая относительная частота р(п) появления г-го возможного значения хі дискретной случайной величины;

- эмпирические начальные и центральные моменты анализируемой случайной величины тк (п) и »¡к (п);

- порядковые статистики х) (п)

(і = 1,2,...,п).

Наиболее информативной для непрерывных случайных величин является выборочный аналог функции плотности (эмпирическая функция плотности) /(п) (х). В статье предлагается алгоритм (процедура) определения /(п) (х) пригодный для использования при работе в ста-

тистических пакетах или подготовке программных продуктов.

Процедура определения эмпирической функции плотности /(и) (х):

1. Отмечаются наименьшее x ■ (n) и наи-

min V '

большее xmax (n) значения в выборке (1).

2. Диапазон [ xmin (n), Xmax (n) ] разбивается на ^ равных интервалов группирования; при этом количество интервалов s должно быть в пределах 7-20. В выборе s можно пользоваться приближенной формулой s « 1 + 3,32 lg(n).

3. Отмечаются крайние точки каждого из интервалов c0,c1,c2,...,cs в порядке возрастания; для чего определяется длина интервала

Аk(x) = ( Xmax (n) - Xmin (n) )/[ S ]’

затем ck(x) = ck(x)-i + Ak(x), а также их середи-

0 0 0 ны xi , x2,..., x5.

4. Подсчитываются числа выборочных данных, попавших в каждый из интервалов: V1,V2,...,Vs (очевидно, v1 +V2 +...+V s = n ); выборочные данные, попавшие на границы интервалов, либо равномерно распределяются по двум соседним интервалам, либо относятся только к какому-либо одному из них.

5. Для каждого интервала рассчитывается эмпирическая функция плотности

/(П)( х) =

нА

к( х)

где к(х) - порядковый номер группирования, который накрывает точку х ; Ук(х) - число наблюдений, попавших в этот интервал,

Ак(х) - длина интервала.

6. Строится гистограмма, для чего на оси абсцисс откладываются крайне точки каждого из интервалов с0, с1, с2,..., е5, по оси ординат эмпирическая функция плотности /(п) (х). Тог-

2

X

да к-му интервалу будет соответствовать прямоугольник, основанием которого является замкнутый слева интервал \ск ск), а высота

7м (х) =

^к( х)

пА

к( х)

7. По виду гистограммы принимается гипотеза о модели закона распределения анализируемой генеральной совокупности (например, нормальный, экспоненциальный, равномерный и т. д.).

Для облегчения выбора и улучшения его точности целесообразно использовать классификацию случайных величин и законов распределения. Наиболее используемыми в моделировании и практических приложениях [2] являются распределения непрерывных случайных величин: равномерное, экспоненциальное, Эрланга т-го порядка, нормальное, логнормальное, Вейбулла, Пирсона V типа, Пирсона VI типа, лог-логистическое, Безье, треугольное, гамма-распределение, бета-распределение, связанное распределение Джонсона, несвязанное распределение Джонсона.

8. Рассчитываются оценки неизвестных параметров гипотетического закона распределения 01,02,...,0к (например, для нормального закона распределения выборочное среднее х(п) и выборочную дисперсию 52 (п) ).

Эмпирическая функция плотности /(и) (х)

- получена. Возникает необходимость в экспериментальной проверке гипотезы о виде закона распределения анализируемой генеральной совокупности, т. е. наша цель - проверить, не противоречит ли высказанная гипотеза Н имеющимся выборочным данным.

Задача может быть решена качественно или количественно. Качественное решение задачи осуществляется на основе сравнения графиков эмпирической /(и)(х) и модельной / (х) плотностей. Количественная оценка достоверности принятой гипотезы осуществляется с помощью того или иного статистического критерия.

Качественная проверка гипотезы о виде закона распределения анализируемой генеральной совокупности:

9. Для построения модельной кривой плотности используется гипотетический (принятый в соответствии с гипотезой) закон распределения, в который подставляются вместо неизвестных параметров значения соответствующих выборочных характеристик.

10. В результате сравнения вида гистограммы (полигона) и кривой плотности гипотетического закона распределения гипотеза отклоняется или не отклоняется.

Количественную (статистическую) проверку гипотезы о виде закона распределения анализируемой генеральной совокупности целесообразно проводить с помощью критерия согласия X Пирсона [3], для этого:

11. Подсчитываем значение критической статистики

7(п) = £ (у- _ прД))2 ;

]=1 ир-Щ

где р (®) = ^ (с-, ©) _ (с-_1, ©) - ре-

зультат модельного расчета вероятности попадания в ]-й интервал группирования.

12. Задаемся уровнем значимости критерия а . По заданному уровню значимости критерия а из таблиц х2 распределения находим точки х1_а/2 (5 _ к _ 1) и ха/2 (5 _ к _ 1) с (5 _ к _ 1) степенями свободы;

13. Если

Хь-а/2 (5 _ к _ 1) < Г(П) < Х1,2 (5 _ к _ 1) ,

то гипотеза о виде закона распределения анализируемой генеральной совокупности не отклоняется, в противном случае гипотеза отклоняется.

Итак, в статье рассмотрена процедура определения эмпирической функции плотности /(л) (х). Процедура пригодна для использования при работе в статистических пакетах или подготовке программных продуктов.

14.12.2011

Список литературы:

1. Сигел, Эндрю Практическая бизнес-статистика.: Пер. с англ. - М.: Издательский дом «Вильямс», 2002. - 1056 с.: ил.

2. Кельтон В., Лоу А. Имитационное моделирование. Классика СБ. 3-е изд. - СПб.: Питер; Киев: Издательская группа ВН^ 2004. - 847 с.: ил.

3. Паклин Н.Б., Орешков В.И. Бизнес- аналитика: от данных к знаниям. - СПб.: Питер, 2009. - 624 с.: ил.

Сведения об авторе:

Шепель Вячеслав Николаевич, заведующий кафедрой управления и информатики в технических системах Оренбургского государственного университета, доктор экономических наук, профессор 460018, г. Оренбург, пр-т Победы, 13, ауд. 14336, тел. (3532) 372558, e-mail: fit.cits@mail.ru

UDC 330.4: 519.2 Shepel V.N.

Orenburg state university E-mail: fit.cits@mail.ru

PROCEDURE FOR CONSTRUCTION OF SAMPLING ANALOG OF DENSITY FUNCTION

In paper we consider increasing the degree of formalization of the process of determining the distribution law for a sample of the population. The procedure of determining the empirical density function f(n) (x) is given. Key words: procedure, general population, sample, empirical density function, testing statistical hypotheses.

Bibliography:

1. Siegel, Andrew Practical Business Statistics.: Trans. from English. - M.: Publishing house «Williams», 2002. - 1056 p.

2. Kelton W., Simulation A. Low. Simulation Modeling And Analysis. Classic CS. 3rd ed. - St. Petersburg.: Peter; Kiev: Publishing Group BHV, 2004. - 847 p.

3. Paklin N.B., Oreshkov V.I. Business Intelligence: From Data to Knowledge. - St. Petersburg.: Peter, 2009. - 624 p.

i Надоели баннеры? Вы всегда можете отключить рекламу.