Научная статья на тему 'Планирование и проведение эксперимента по сравнению двух долей'

Планирование и проведение эксперимента по сравнению двух долей Текст научной статьи по специальности «Математика»

CC BY
50
8
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
БИНОМИАЛЬНОЕ РАСПРЕДЕЛЕНИЕ / BINOMIAL DISTRIBUTION / ОПТИМАЛЬНЫЙ ПЛАН / D-OPTIMAL PLAN / СТАТИСТИЧЕСКОЕ МОДЕЛИРОВАНИЕ / STATISTICAL MODELING / ПРОВЕРКА СТАТИСТИЧЕСКИХ ГИПОТЕЗ / STATISTICAL HYPOTHESIS TESTING

Аннотация научной статьи по математике, автор научной работы — Попов Александр Михайлович

В статье рассмотрены этапы планирования и проведения разведочного анализа данных при сравнении параметров двух распределений Бернулли.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Попов Александр Михайлович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Планирование и проведение эксперимента по сравнению двух долей»

Экономическая эффективность данного способа заключается в том, что активация катализатора электронным пучком в оптимальном диапазоне уменьшает энергозатраты по процессу Фишера-Тропша и приводит к увеличению значительного выхода жидких продуктов.

Литература

1. Yua H. Highly selective Pd/Al2O3 catalyst for hydrogenation of methylacetylene and propadiene in propylene stream prepared by y-radiation // Applied Catalysis A: General, 2012. № 445-446. P. 246-251.

2. Kugai J. Effect of support for Pt Cu bimetallic catalysts synthesized by electron beam irradiation method on preferential CO oxidation // Applied Catalysis B: Environmental, 2012. Vol. 126. P. 306-314.

3. Yamamoto T. A. Bimetallic nanoparticles of PtM (M= Au, Cu, Ni) supported on iron oxide: Radiolytic synthesis and CO oxidation catalysis // Applied Catalysis A: General, 2010. Vol. 387. P. 195-202.

4. Lee K.-P. Preparation of Co/Pd alloy particles dispersed multiwalled carbon nanotube supported nanocatalysts via gamma irradiation // Radiation Physics and Chemistry, 2012. Vol. 81. P. 1422-1425.

5. Markov A. S., Pribytkov N. N., Tolkachev A. Yu., Stakheev L. M., Kustov V. N., Golubeva A. V. Effect of Electron Beam Irradiation on the Formation of Active Sites in the Pt/H Pentasil Catalyst // Kinetics and Katalysis, 2008. Vol. 49. № 5. P. 804-808.

Planning and conducting an experiment on comparing two proportions

Popov A.

Планирование и проведение эксперимента по сравнению

двух долей Попов А. М.

Попов Александр Михайлович /Popov Aleksandr - кандидат технических наук, доцент,

кафедра высшей математики, Балтийский государственный технический университет «ВОЕНМЕХ» им. Д. Ф. Устинова,

г. Санкт-Петербург

Аннотация: в статье рассмотрены этапы планирования и проведения разведочного анализа данных при сравнении параметров двух распределений Бернулли. Abstract: the article describes the stages of planning and conducting exploratory data analysis when comparing the parameters of two Bernoulli distributions.

Ключевые слова: биномиальное распределение, D-оптимальный план, статистическое моделирование, проверка статистических гипотез. Keywords: binomial distribution, D-optimalplan, statistical modeling, statistical hypothesis testing.

УДК 519.254

В медицинских исследованиях часто возникает необходимость сравнить два метода лечения. Перед тем, как проводить широкомасштабные клинические испытания, разумно при небольшом числе испытуемых подтвердить, что новая методика не хуже существующей. Для этого на этапе разведочного анализа надо выбрать оптимальный план проведения эксперимента, а также методики анализа и интерпретации результатов.

Для проверки новой методики, с формальной точки зрения, проводят статистический анализ данных, полученных в результате повторных независимых испытаний (схемой Бернулли) и решают вопрос сравнения вероятностей «успеха» в двух сериях испытаний.

Пусть событие А в первой серии из пг + испытаний появилось пгг раз, а во второй серии из п2 + испытаний - п2 ± раз. Представим результаты двух серий испытаний по схеме Бернулли в виде таблицы 1 [1, стр. 270].

Таблица 1. Результаты двух серий испытаний по схеме Бернулли

Серия Событие Сумма

А А

1 ПЦ П12 п1+

2 П21 п22 п2 +

Сумма П+1 п+2 п++ = п

Условимся считать, что первая серия испытаний проводится по новой методике, а вторая серия - по существующей методике.

При условии истинности нулевой гипотезы Н0\р1=р2 о равенстве вероятности «успеха» в первой и второй серии составим критерий Z

2 _ Pl~p2

^щч^г (1)

»11 ~ п 21 Л "Ц + П21 Г

где р1 = —, р2 = —, р =--соответствующие выборочные частоты успеха.

nl+ n2+ п1 + + п2 +

П+1 п<+

При больших значениях п и условии, что наименьшая из величин —, i,j = 1,2

будет больше 5 , статистика (1) при нулевой гипотезе имеет в силу центральной предельной теоремы распределение близкое к распределению Гаусса Z ~ N ( 0 , 1 ) .

В этом случае, критическая область критерия при уровне значимости а (доверительной вероятности ) для альтернативной гипотезы

(новый метод лучше) определяется неравенством zB > и±_а, где zB - выборочное значение статистики .

На этапе планирования разведочного эксперимента выбирают наилучшее соотношение между объемами выборок щ + и п2 + в первой и второй сериях испытаний, обеспечивающее оптимальную критическую область. С этой целью используют D-оптимальный план, который минимизирует дисперсионную функцию f(щ,п2) =

Рi4i , Р2Ч2 ,

--1--при ограничениях пг + + п2 + = п и при всех допустимых значениях рг, р2,

711 TI2

qi = 1—p х, q2 = 1 — р2. Полагая п 1,п 2 Е R , составим функцию Лагранжа

Ь(пъп2, ?С) = fin-L.n^ + 2.(11-1 +п2 — п) = + + ^(щ +п2 — п)

Щ п2

откуда необходимые условия экстремума выражаются системой уравнений

£L=—EllL + A = 0,

дп^ nf

!L=—El3l + A = o,

дп2 П2

щ + п2 = п.

Решениями данной системы уравнений являются значения:

п' = n]p1q1 п, = n] р 2q 2 1 VP141+VP242' 2 VP141 + VP242'

Так как при положительных значениях пь п2 , р р2, <1, <7 2 второй дифференциал

й 2 / = 2 2 ,

' П^ Х П2

положителен, то функция / (п ^п 2 ) в найденной точке (п 2) имеет условный минимум.

При истинности нулевой гипотезы Н0:р 1 = р 2 получим п ^ = п 2. Таким образом, на этапе планирования следует выбирать число испытаний в каждой из серий

приблизительно равными, так что п 1 « п2 « ^ .

Применение асимптотических формул справедливо при и не оправдано при

малых значениях п. В этом случае точную доверительную оценку необходимо строить с помощью методов статистического моделирования. Соответствующие расчеты, выполненные в программной среде Я [2], показали, что в широком диапазоне изменения параметров и имеются заметные расхождения в длинах доверительных интервалов. Поэтому на этапе разведочного анализа (при небольших объемах выборок) целесообразно проводить статистический анализ, используя одновременно как аппроксимирующие формулы, полученные при , так и

точные результаты, полученные методами статистического моделирования.

Рассмотрим результаты разведочного анализа, проведенного в соответствии с оптимальным планом в двух группах по 3 0 испытуемых в каждой. Доля успешного применения стандартной методики составляет р2 = 0. 7 (21 из 30), доля успешного применения новой методики рх = 0.87 (26 из 30).

Вероятность попасть правее рассчитанного по формуле (1) критического значения гв для правосторонней альтернативы р1 > р2 равна р — уаШе^^ = 0. 05858 > 0 . 0 5, т. е. нулевая гипотеза о равенстве долей принимается (не отвергается), следовательно, нельзя сделать вывод о том, что новая методика превосходит существующую. Принять альтернативную гипотезу в нашем случае было бы возможным

при успехах из . В этом случае и . Тот факт,

что различие не обнаружено, может быть вызван как реальным равенством долей , так и недостаточным объемом выборки.

Поэтому необходимо оценить насколько точечная оценка доли близка к ее истинному значению при заданном объеме выборки. С этой целью найдем нижнюю границу доверительного интервала для вероятности успеха р в схеме Бернулли, которая приближенно имеет вид

р — 1*1 _ ^ ¿ = 1 ,2 . (3)

В нашем случае , . Полученные точечные оценки нельзя

признать удовлетворительными. Так, при выборочной доле и объеме

выборки с вероятностью можно гарантировать только, что истинная

доля равна . Разность может быть уменьшена за счет

увеличения объема выборки. При этом нулевая гипотеза может быть опровергнута, т. е. получен положительный результат.

Покажем, как можно повысить точность полученных оценок до заданного уровня е. Представим доверительный интервал (3) в виде неравенства (4), которое выполняется с доверительной вероятностью (надежностью)

I Р —Р |<"1 (4)

Определим минимальный объем выборки, который следует взять для того, чтобы с вероятностью можно было утверждать, что истинная доля успешного

применения новой методики отличается от ее выборочной доли не более чем на

. Для этого решим уравнение (4) относительно при , и

. В результате получим минимальный объем выборки при

условии, что в выборке будет не менее 1 5 2 успехов. Такой объем выборки обеспечивает необходимую точность оценки доли р2 с надежностью 0 . 9 5 и может быть рекомендован для проведения полных клинических исследований.

На этапе разведочного анализа такой объем выборки не всегда оправдан. На практике, с целью увеличения точности оценки для , объем выборки был увеличен до 9 0 испытаний. В результате получено 79 успехов из 90, т. е. рх = 0.878. При доверительной вероятности нижняя граница доверительного интервала для

истинной доли успеха стала более точной, равной 0 . 8 2 1 .

По результатам проведенных исследований можно сделать следующие выводы:

1. На первом этапе разведочного анализа эксперимента рекомендуется выбирать D — оптимальный план, согласно которому число испытаний в каждой из серий должны быть приблизительно равными, так чтобы .

2. При небольших объемах выборок, соответствующих первой и второй сериям испытаний, целесообразно проводить статистический анализ, используя одновременно как аппроксимирующие формулы (полученные при п —с»), так и точные результаты, полученные методами статистического моделирования.

3. Если на первом этапе разведочного анализа принимается нулевая гипотеза, означающая на практике отсутствие экспериментального эффекта, то необходимо строить доверительные интервалы для истинных значений долей и с целью их уточнения.

4. Для уменьшения длины доверительного интервала для истинной доли успеха лечения по новой методике требуется увеличить число испытуемых. По вновь полученным данным прогнозируется объем испытаний для широкомасштабных клинических исследований, обеспечивающих регламентируемую точность и надежность оценивания.

Литература

1. Ефимов А. В., Поспелов А. С. Сборник задач по математике для втузов. В 4 частях. Ч. 4. М.: Издательство Физико-математической литературы, 2003.

2. R Core Team. R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, 2015.

3. Попов А. М. Исследование робастности двухвыборочного критерия Стьюдента // Наука, техника и образование, 2016. № 2 (20). С. 12-14.

4. Попов А. М. Сравнение относительной частоты с заданным значением // Наука, техника и образование, 2016. № 3 (21). С. 93-97.

5. Попов А. М. Применение теста Уэлча в однофакторном дисперсионном анализе // Проблемы современной науки и образования, 2016. № 7 (49). С. 60-63.

6. Попов А. М.Применение аппроксимации Леви для статистики Уэлча в однофакторном дисперсионном анализе // Проблемы современной науки и образования, 2016. № 23 (65). С. 10-13.

i Надоели баннеры? Вы всегда можете отключить рекламу.