Научная статья на тему 'Определение минимального объема выборки'

Определение минимального объема выборки Текст научной статьи по специальности «Математика»

CC BY
6062
641
i Надоели баннеры? Вы всегда можете отключить рекламу.
Область наук

Аннотация научной статьи по математике, автор научной работы — Бакаева Ольга Александровна

В данной статье приведены способы нахождения оптимального объема выборки п для нормального закона распределения, распределения Стьюдента, а также биномиального закона в зависимости от известных параметров этих законов распределения.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Бакаева Ольга Александровна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Определение минимального объема выборки»

ОПРЕДЕЛЕНИЕ МИНИМАЛЬНОГО ОБЪЕМА ВЫБОРКИ

О. А. Бакаева

В данной статье приведены способы нахождения оптимального объема выборки п для нормального закона распределения, распределения Стьюдента, а также биномиального закона в зависимости от известных параметров этих законов распределения.

В науке часто, чтобы определить какую-либо величину, приходится проделывать рад испытаний. Но бывает так, что и в этом случае истинное значение показателя абсолютно точно измерить не удается, оно получается с определенной долей погрешности. Исходя из формул доверительного интервала для нормального, биномиального распределения и распределения Стьюдента находится минимальное количество экспериментов, необходимое для получения достоверной информа-

ции.

В современных условиях цена эксперимента бывает достаточно высокой как в переносном, так и в прямом смысле. Это может быть связано и с использованием дорогостоящего оборудования, и с оплатой труда специалиста, и непосредственно с затратами на сам опытный процесс. Поэтому задача определения минимального количества экспериментов для получения всей необходимой информации в целях ее последующей обработки является очень актуальной. На языке статистики эта задача сводится к определению минимального объема выборки.

Основная часть классической статистической теории предполагает нормальность распределения изучаемой случайной величины. Но на практике в большинстве случаев приходится сталкиваться с распределением, закон которого близок к одному из известных распределений, но далек от нормального. К наиболее употребительным распределениям можно отнести: непосредственно нормальное распределение и распределение Стьюдента, которые являются непрерывными, а также дискретное - биномиальное распределение. В зависимости от закона распределения и вычисляют необходимый объем выборки - п.

Нормальное распределение. Обычно в статистике решается задача определения

доверительных интервалов, покрывающих параметр а, с надежностью 7 и точностью <5, где а - математическое ожидание нормального распределения.

Пусть параметры распределения таковы:

М(Х)

а, а(Х)

у/п

. Потребуем, чтобы

выполнялось соотношение Р(\Х — а\ < б) = 7, где 7 - заданная надежность, получим

г»

= 2заменив X на X и

Р(\х

а

б

а на а(Х) = —. Тогда

<7

р{\х

а

<•4

2Фт

2 #(*), (1)

где

г

8 у/п

Найдя из последнего равенства б

имеем право написать

(2)

Ь<7 у/п'

Р(\Х-а\ <

Ьа

у/п

2 Ф(Ь).

Приняв во внимание, что вероятность Р задана и равна 7, окончательно имеем (чтобы получить рабочую формулу, выборочную среднюю обозначим за х)

Р х

Ьо

у/п

< а < х +

Ьа

у/п

2Ф(1) = Г (3)

Смысл полученного отношения таков: с надежностью 7 можно утверждать, что до-

(- Ьа _ га \

верительный интервал (х--—, х Н—— ) по-

V у/п у/п/

крывает неизвестный параметр а; точность оценки б = Ьа/у/п Число Ь определяется

© О. А. Бакаева, 2010

из равенства 2= 7, или Ф(Ь) = 7/2; по таблице функции Лапласа находят аргумент которому соответствует значение функции Лапласа, равное 7/2 [1].

Если известно математическое ожидание с наперед заданной точностью 8 и надежностью 7, то минимальный объем выборки, который обеспечит эту точность, находят по формуле

п

,2 2 ta

как следствие равенства 6

ta

у/К

Учитывая, что характеристиками стандартного нормального распределения являются а = 0 и <т = 1, то формула (1) примет вид:

Р(\Х\ <6) = 2Ф{8у/п) = 2Ф(Ь),

(4)

где

t = ôy/n.

(5)

Из последнего равенства следует, что минимальный объем выборки будет равен:

п

и

S2

Также можно использовать цию t « 4,91 [а0'14 - (1 - а)0'14], чается [2]

аппроксима-Тогда полу-

ri

24,1081[а0'14 — (1 — а)0'14] |

Как показывает полученная формула, минимальное число опытов прямо пропорционально квадрату значения которое находится по табличным значениям функции Лапласа, Ф(£) = 7/2, где 7 - это надежность. То есть с увеличением надежности минимальное число элементов увеличивается в параболической зависимости. С другой стороны, минимальное число опытов обратно пропорционально точности, с которой измеряется среднее значение признака. С увеличением 6, т. е. с уменьшением точности, число элементов уменьшается, а с уменьшением 6, т. е. с увеличением точности, число элементов, наоборот, увеличивается. <

О применимости формул (*) и (**) относительно общего количества экспериментов речь пойдет ниже.

Известно, что при неограниченном возрастании объема выборки п распределение Стьюдента стремится к нормальному. Поэтому практически при п > 30 можно вместо

распределения Стьюдента пользоваться нормальным распределением. Однако важно, что для малых объемов выборок (п < 30), в особенности для малых значений п, замена распределения нормальным приводит к грубым ошибкам, а именно к неоправданному сужению доверительного интервала, т. е. к повышению точности оценки. Например, если п = 5 И7 = 0,99, то пользуясь распределением Стьюдента, имеем Ц = 4,6, а используя функцию Лапласа, найдем t'у — 2,58, т. е. доверительный интервал в последнем случае окажется более узким, чем найденный по распределению Стьюдента. То обстоятельство, что распределение Стьюдента при малой выборке дает широкий доверительный интервал вовсе не свидетельствует о непригодности метода Стьюдента, а объясняется тем, что малая выборка содержит малую информацию об интересующем нас признаке.

Распределение Стьюдента определяется параметром п - объемом выборки (или числом степеней свободы к — п — 1)ине зависит от неизвестных параметров а и а; эта особенность является его большим достоинством.

При достаточно больших значениях п объема выборки выборочная и исправленная дисперсии различаются мало. На практике пользуются исправленной дисперсией, если примерно п < 30 (напомним, что именно при небольших размерах выборок и используется распределение Стьюдента, тогда как при п > 30 практически любая случайная величина аппроксимируется нормальным распределением) .

При неизвестной дисперсии необходимый объем выборки определяется из соотношения

S

tocS

fc*.

д/ггж'

(6)

где - а-квантиль распределения Стьюдента при / = п степенях свободы; 5 и х - выборочные оценки соответственно стандартного отклонения и среднего значения [2].

Необходимые значения рассчитаны

и могут быть найдены по таблицам [2, табл.

49].

Определение объема выборки происходит

I

в следующей последовательности. Сначала

г €

по заданным величинам о = — и а и предпо-

х

лагаемому значению коэффициента вариации

5 (п)

V = — находят по таблице значение —и

х у/П

по нему определяют искомое значение п. Ес-

112

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

ВЕСТНИК Мордовского университета | 2010 I Л* 4

ли для найденного объема выборки п выборочное значение окажется больше предполагавшегося, то эксперимент должен быть продолжен.

Замечание. Если а = 0,975, то, как частный случай, из выражения

¿0,975 (тг)

71

2

(7)

следует, что объем выборки

2з\2

п

(8)

В этом случае по заданной абсолютной ошибке € и предполагаемому стандартному отклонению 5 может быть непосредственно определен объем необходимой выборки п.

Биномиальное распределение. Пусть производятся независимые испытания с неизвестной вероятностью р появления события А в каждом испытании. Ставится задача найти доверительный интервал для оценки вероятности, в случае биномиального распределения это можно будет сделать с помощью от-

носительной частоты р

т

п

. Учитывая, что

Р(\х

а

<б)

о>

(9)

и заменив случайную величину X и ее математическое ожидание а соответственно случайной величиной ТУ и ее математическим ожиданием р, получим приближенное (так как относительная частота распределена приближенно нормально) равенство

Р(\№-р\ <8)

о

7:

(10)

Как известно, для биномиального распределения дисперсия находится по формуле

ро

— —, а среднее квадратическое откло-п

нение как квадратный корень из дисперсии

а

где д = 1 — р - вероят-

ность не появления события А, тогда подстаг вив данные выражения в формулу (10), получают:

Р(\\¥-р\ <6) = 2Ф

8у/п

у/РЯ

2Ф(£) = 7, (11)

где

8у/й

у/РЯ

Следовательно,

РШ-р\ <1

ё)

2Ф(Ь) = 7

(13)

Можно выразить точность 8 = Ьу/*^, откуда минимальный объем выборки, если вероятность р появления события известна, находится по формуле:

п

у/Щщ

82

(* * *)

где £ - значение функции Лапласа. Если вероятность появления события явно не зада-

ТТЬ

на, то находим ее из соотношения р——-, где т - число появления события, а п - число испытаний. Тогда минимальный объем выборки будет

п

I

тп ¿8*

тп

п282

(* * **)

Если п достаточно велико и вероятность р не очень близка к нулю и к единице, то можно считать, что относительная частота распределена приближенно нормально.

Также можно аппроксимировать практически любое распределение нормальным при достаточном объеме выборки. Об этом свидетельствует и Центральная предельная теорема А. М. Ляпунова. Отсюда следует, что практически все статистические распределения должны приближаться к нормальному распределению как к идеальной предельной форме, если только можно располагать достаточно большим числом наблюдений. То есть, если объем выборки > 30 и случайная величина близки к нормальному распределению, то минимальный размер выборки опре-

деляется соотношением п

¿V 82

. А если объ-

ем выборки < 30 и дисперсия неизвестна, то исходя из распределения Стыодеита и таб-

личных значений

Мп)

ура

, так как при новых

условиях формула (*) не гарантирует того, что полученное число экспериментов будет достаточным.

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. Гмурман В. Е. Теория вероятностей и математическая статистика : учеб. пособие для студентов вузов / В. Е. Гмурман. - 8-е изд., стер,т- М. : Высш. шк., 2002. - 479 с.

2. Кобзарь А. И. Прикладная, математическая статистика / А. И. Кобзарь. - М. Физматлит, 2006. - 816 с.

Поступила 03Л 1.10.

О СТРУКТУРЕ ПАКЕТА ПРОБЛЕМНО-ОРИЕНТИРОВАННЫХ ПРОГРАММ, ИСПОЛЬЗУЕМЫХ ПРИ МАТЕМАТИЧЕСКОМ МОДЕЛИРОВАНИИ ДИНАМИЧЕСКИХ СИСТЕМ ТРАНСПОРТА*

Н. А. Базеева, Ю. И. Голечков, Е. В. Щенникова

Рассмотрены вопросы математического моделирования транспортных динамических систем. Описаны структура и функциональные возможности соответствующего пакета проблемно-ориентированных программ.

Применение программного обеспечения ПЭВМ для исследования динамических характеристик железнодорожных транспортных средств рассматривалось в работах [1-2; 5] и др. В данной работе представлена структура пакета проблемно-ориентированных программ, предназначенного для математического моделирования транспортных динамических систем более широких классов.

Пусть транспортная динамическая система описывается многомерным матричным дифференциальным уравнением второго порядка

Ах + Вх + Сх = (х€Яп, (1)

где Л, В, С - квадратные матрицы (соответственно матрицы масс, демпфирования и жесткости); (¿(Ь,х,х) - заданная нелинейная вектор-функция времени, перемещения и скорости (обобщенная возмущающая сила);

х - вектор обобщенных координат; Rn - евклидово пространство. Такая динамическая система возникает при описании и изучении колебательных процессов летательных аппаратов в воздушном потоке, колебаний корпусов кораблей и подводных лодок при волнении в открытом море, колебаний элементов и узлов подвижного состава железнодорожного и автомобильного транспорта при движении по неровному пути.

Предложенный пакет содержит набор проблемно-ориентированных программ по математическому моделированию движения и оптимизации динамических параметров железнодорожных и автомобильных транспортных средств, а также программу графической иллюстрации полученных результатов, написанные в математической интегрированной среде Maple [3-4]. Здесь же приведены описания, тексты программ и даны указания по их активизации.

© Н. А. Базеева, Ю. И. Голечков, Е. В. Щенникова, 2010

* Работа частично поддержана РФФИ (проект № 10-08-00826-а). 114 ВЕСТНИК Мордовского университета | 2010 | .Уг 4

i Надоели баннеры? Вы всегда можете отключить рекламу.