ОПРЕДЕЛЕНИЕ МИНИМАЛЬНОГО ОБЪЕМА ВЫБОРКИ
О. А. Бакаева
В данной статье приведены способы нахождения оптимального объема выборки п для нормального закона распределения, распределения Стьюдента, а также биномиального закона в зависимости от известных параметров этих законов распределения.
В науке часто, чтобы определить какую-либо величину, приходится проделывать рад испытаний. Но бывает так, что и в этом случае истинное значение показателя абсолютно точно измерить не удается, оно получается с определенной долей погрешности. Исходя из формул доверительного интервала для нормального, биномиального распределения и распределения Стьюдента находится минимальное количество экспериментов, необходимое для получения достоверной информа-
ции.
В современных условиях цена эксперимента бывает достаточно высокой как в переносном, так и в прямом смысле. Это может быть связано и с использованием дорогостоящего оборудования, и с оплатой труда специалиста, и непосредственно с затратами на сам опытный процесс. Поэтому задача определения минимального количества экспериментов для получения всей необходимой информации в целях ее последующей обработки является очень актуальной. На языке статистики эта задача сводится к определению минимального объема выборки.
Основная часть классической статистической теории предполагает нормальность распределения изучаемой случайной величины. Но на практике в большинстве случаев приходится сталкиваться с распределением, закон которого близок к одному из известных распределений, но далек от нормального. К наиболее употребительным распределениям можно отнести: непосредственно нормальное распределение и распределение Стьюдента, которые являются непрерывными, а также дискретное - биномиальное распределение. В зависимости от закона распределения и вычисляют необходимый объем выборки - п.
Нормальное распределение. Обычно в статистике решается задача определения
доверительных интервалов, покрывающих параметр а, с надежностью 7 и точностью <5, где а - математическое ожидание нормального распределения.
Пусть параметры распределения таковы:
М(Х)
а, а(Х)
у/п
. Потребуем, чтобы
выполнялось соотношение Р(\Х — а\ < б) = 7, где 7 - заданная надежность, получим
г»
= 2заменив X на X и
Р(\х
а
б
а на а(Х) = —. Тогда
<7
р{\х
а
<•4
2Фт
2 #(*), (1)
где
г
8 у/п
Найдя из последнего равенства б
имеем право написать
(2)
Ь<7 у/п'
Р(\Х-а\ <
Ьа
у/п
2 Ф(Ь).
Приняв во внимание, что вероятность Р задана и равна 7, окончательно имеем (чтобы получить рабочую формулу, выборочную среднюю обозначим за х)
Р х
Ьо
у/п
< а < х +
Ьа
у/п
2Ф(1) = Г (3)
Смысл полученного отношения таков: с надежностью 7 можно утверждать, что до-
(- Ьа _ га \
верительный интервал (х--—, х Н—— ) по-
V у/п у/п/
крывает неизвестный параметр а; точность оценки б = Ьа/у/п Число Ь определяется
© О. А. Бакаева, 2010
из равенства 2= 7, или Ф(Ь) = 7/2; по таблице функции Лапласа находят аргумент которому соответствует значение функции Лапласа, равное 7/2 [1].
Если известно математическое ожидание с наперед заданной точностью 8 и надежностью 7, то минимальный объем выборки, который обеспечит эту точность, находят по формуле
п
,2 2 ta
как следствие равенства 6
ta
у/К
Учитывая, что характеристиками стандартного нормального распределения являются а = 0 и <т = 1, то формула (1) примет вид:
Р(\Х\ <6) = 2Ф{8у/п) = 2Ф(Ь),
(4)
где
t = ôy/n.
(5)
Из последнего равенства следует, что минимальный объем выборки будет равен:
п
и
S2
Также можно использовать цию t « 4,91 [а0'14 - (1 - а)0'14], чается [2]
аппроксима-Тогда полу-
ri
24,1081[а0'14 — (1 — а)0'14] |
Как показывает полученная формула, минимальное число опытов прямо пропорционально квадрату значения которое находится по табличным значениям функции Лапласа, Ф(£) = 7/2, где 7 - это надежность. То есть с увеличением надежности минимальное число элементов увеличивается в параболической зависимости. С другой стороны, минимальное число опытов обратно пропорционально точности, с которой измеряется среднее значение признака. С увеличением 6, т. е. с уменьшением точности, число элементов уменьшается, а с уменьшением 6, т. е. с увеличением точности, число элементов, наоборот, увеличивается. <
О применимости формул (*) и (**) относительно общего количества экспериментов речь пойдет ниже.
Известно, что при неограниченном возрастании объема выборки п распределение Стьюдента стремится к нормальному. Поэтому практически при п > 30 можно вместо
распределения Стьюдента пользоваться нормальным распределением. Однако важно, что для малых объемов выборок (п < 30), в особенности для малых значений п, замена распределения нормальным приводит к грубым ошибкам, а именно к неоправданному сужению доверительного интервала, т. е. к повышению точности оценки. Например, если п = 5 И7 = 0,99, то пользуясь распределением Стьюдента, имеем Ц = 4,6, а используя функцию Лапласа, найдем t'у — 2,58, т. е. доверительный интервал в последнем случае окажется более узким, чем найденный по распределению Стьюдента. То обстоятельство, что распределение Стьюдента при малой выборке дает широкий доверительный интервал вовсе не свидетельствует о непригодности метода Стьюдента, а объясняется тем, что малая выборка содержит малую информацию об интересующем нас признаке.
Распределение Стьюдента определяется параметром п - объемом выборки (или числом степеней свободы к — п — 1)ине зависит от неизвестных параметров а и а; эта особенность является его большим достоинством.
При достаточно больших значениях п объема выборки выборочная и исправленная дисперсии различаются мало. На практике пользуются исправленной дисперсией, если примерно п < 30 (напомним, что именно при небольших размерах выборок и используется распределение Стьюдента, тогда как при п > 30 практически любая случайная величина аппроксимируется нормальным распределением) .
При неизвестной дисперсии необходимый объем выборки определяется из соотношения
S
tocS
fc*.
д/ггж'
(6)
где - а-квантиль распределения Стьюдента при / = п степенях свободы; 5 и х - выборочные оценки соответственно стандартного отклонения и среднего значения [2].
Необходимые значения рассчитаны
и могут быть найдены по таблицам [2, табл.
49].
Определение объема выборки происходит
I
в следующей последовательности. Сначала
г €
по заданным величинам о = — и а и предпо-
х
лагаемому значению коэффициента вариации
5 (п)
V = — находят по таблице значение —и
х у/П
по нему определяют искомое значение п. Ес-
112
ВЕСТНИК Мордовского университета | 2010 I Л* 4
ли для найденного объема выборки п выборочное значение окажется больше предполагавшегося, то эксперимент должен быть продолжен.
Замечание. Если а = 0,975, то, как частный случай, из выражения
¿0,975 (тг)
71
2
(7)
следует, что объем выборки
2з\2
п
(8)
В этом случае по заданной абсолютной ошибке € и предполагаемому стандартному отклонению 5 может быть непосредственно определен объем необходимой выборки п.
Биномиальное распределение. Пусть производятся независимые испытания с неизвестной вероятностью р появления события А в каждом испытании. Ставится задача найти доверительный интервал для оценки вероятности, в случае биномиального распределения это можно будет сделать с помощью от-
носительной частоты р
т
п
. Учитывая, что
Р(\х
а
<б)
о>
(9)
и заменив случайную величину X и ее математическое ожидание а соответственно случайной величиной ТУ и ее математическим ожиданием р, получим приближенное (так как относительная частота распределена приближенно нормально) равенство
Р(\№-р\ <8)
о
7:
(10)
Как известно, для биномиального распределения дисперсия находится по формуле
ро
— —, а среднее квадратическое откло-п
нение как квадратный корень из дисперсии
а
где д = 1 — р - вероят-
ность не появления события А, тогда подстаг вив данные выражения в формулу (10), получают:
Р(\\¥-р\ <6) = 2Ф
8у/п
у/РЯ
2Ф(£) = 7, (11)
где
8у/й
у/РЯ
Следовательно,
РШ-р\ <1
ё)
2Ф(Ь) = 7
(13)
Можно выразить точность 8 = Ьу/*^, откуда минимальный объем выборки, если вероятность р появления события известна, находится по формуле:
п
у/Щщ
82
(* * *)
где £ - значение функции Лапласа. Если вероятность появления события явно не зада-
ТТЬ
на, то находим ее из соотношения р——-, где т - число появления события, а п - число испытаний. Тогда минимальный объем выборки будет
п
I
тп ¿8*
тп
п282
(* * **)
Если п достаточно велико и вероятность р не очень близка к нулю и к единице, то можно считать, что относительная частота распределена приближенно нормально.
Также можно аппроксимировать практически любое распределение нормальным при достаточном объеме выборки. Об этом свидетельствует и Центральная предельная теорема А. М. Ляпунова. Отсюда следует, что практически все статистические распределения должны приближаться к нормальному распределению как к идеальной предельной форме, если только можно располагать достаточно большим числом наблюдений. То есть, если объем выборки > 30 и случайная величина близки к нормальному распределению, то минимальный размер выборки опре-
деляется соотношением п
¿V 82
. А если объ-
ем выборки < 30 и дисперсия неизвестна, то исходя из распределения Стыодеита и таб-
личных значений
Мп)
ура
, так как при новых
условиях формула (*) не гарантирует того, что полученное число экспериментов будет достаточным.
БИБЛИОГРАФИЧЕСКИЙ СПИСОК
1. Гмурман В. Е. Теория вероятностей и математическая статистика : учеб. пособие для студентов вузов / В. Е. Гмурман. - 8-е изд., стер,т- М. : Высш. шк., 2002. - 479 с.
2. Кобзарь А. И. Прикладная, математическая статистика / А. И. Кобзарь. - М. Физматлит, 2006. - 816 с.
Поступила 03Л 1.10.
О СТРУКТУРЕ ПАКЕТА ПРОБЛЕМНО-ОРИЕНТИРОВАННЫХ ПРОГРАММ, ИСПОЛЬЗУЕМЫХ ПРИ МАТЕМАТИЧЕСКОМ МОДЕЛИРОВАНИИ ДИНАМИЧЕСКИХ СИСТЕМ ТРАНСПОРТА*
Н. А. Базеева, Ю. И. Голечков, Е. В. Щенникова
Рассмотрены вопросы математического моделирования транспортных динамических систем. Описаны структура и функциональные возможности соответствующего пакета проблемно-ориентированных программ.
Применение программного обеспечения ПЭВМ для исследования динамических характеристик железнодорожных транспортных средств рассматривалось в работах [1-2; 5] и др. В данной работе представлена структура пакета проблемно-ориентированных программ, предназначенного для математического моделирования транспортных динамических систем более широких классов.
Пусть транспортная динамическая система описывается многомерным матричным дифференциальным уравнением второго порядка
Ах + Вх + Сх = (х€Яп, (1)
где Л, В, С - квадратные матрицы (соответственно матрицы масс, демпфирования и жесткости); (¿(Ь,х,х) - заданная нелинейная вектор-функция времени, перемещения и скорости (обобщенная возмущающая сила);
х - вектор обобщенных координат; Rn - евклидово пространство. Такая динамическая система возникает при описании и изучении колебательных процессов летательных аппаратов в воздушном потоке, колебаний корпусов кораблей и подводных лодок при волнении в открытом море, колебаний элементов и узлов подвижного состава железнодорожного и автомобильного транспорта при движении по неровному пути.
Предложенный пакет содержит набор проблемно-ориентированных программ по математическому моделированию движения и оптимизации динамических параметров железнодорожных и автомобильных транспортных средств, а также программу графической иллюстрации полученных результатов, написанные в математической интегрированной среде Maple [3-4]. Здесь же приведены описания, тексты программ и даны указания по их активизации.
© Н. А. Базеева, Ю. И. Голечков, Е. В. Щенникова, 2010
* Работа частично поддержана РФФИ (проект № 10-08-00826-а). 114 ВЕСТНИК Мордовского университета | 2010 | .Уг 4