Научная статья на тему 'Исследование робастности двухвыборочного критерия Стьюдента'

Исследование робастности двухвыборочного критерия Стьюдента Текст научной статьи по специальности «Науки о Земле и смежные экологические науки»

CC BY
632
102
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
T-ТЕСТ СТЬЮДЕНТА / РОБАСТНОСТЬ / РАЗМЕР ВЫБОРКИ

Аннотация научной статьи по наукам о Земле и смежным экологическим наукам, автор научной работы — Попов Александр Михайлович

В статье методами математического моделирования исследуется робастность двухвыборочного t-критерия Стьюдента для случая независимых выборок при одинаковой дисперсии.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Исследование робастности двухвыборочного критерия Стьюдента»

ТЕХНИЧЕСКИЕ НАУКИ

Исследование робастности двухвыборочного критерия Стьюдента

Попов А. М.

Попов Александр Михайлович /Popov Aleksandr Mihajlovich - кандидат технических наук,

доцент,

кафедра высшей математики,

Балтийский государственный технический университет «ВОЕНМЕХ» им. Д. Ф. Устинова,

г. Санкт-Петербург

Аннотация: в статье методами математического моделирования исследуется робастность двухвыборочного t-критерия Стьюдента для случая независимых выборок при одинаковой дисперсии.

Ключевые слова: t-тест Стьюдента, робастность, размер выборки.

В опубликованной в 2005 году статье [1, с. 1977-1979] в New England Journal of Medicine (NEJM) сделан обзор статистических методов, которые применяют в работе авторы журнала. t-Критерий Стьюдента занял первое место по частоте использования: к нему обратились 44% исследователей в 1978-1979 годах, 39% в 1989 году, 26% в 2004-2005 годах.

Для применения данного критерия [2, c. 1-25] необходимо, чтобы исходные данные имели нормальное распределение. Однако на практике, при сравнительно небольших объемах выборок, невозможно проверить гипотезу о нормальности. В настоящей работе методами статистического моделирования, выполненного на языке и в программной среде R [3], проверяется эффективность двухвыборочного t-критерия Стьюдента (2-sample t-test), а также рассчитывается минимально необходимый объем выборки при нарушении предположения о нормальности.

Пусть х i и у I, i = 1 ,2 ,. . .,п - две независимые выборки объема п, полученные из нормального распределения с различными средними и и общей дисперсией . Предполагается проверить нулевую гипотезу о равенстве двух математических ожиданий против простой альтернативы ,

используя t-критерий для двух выборок.

Теоретическая статистика критерия при гипотезе Н 0

t

х — у s

■Jn/2

(1)

имеет распределение Стьюдента с степенями свободы. При

альтернативной гипотезе Н, статистика t распределена по нецентрированному

распределению Стьюдента с v степенями свободы и параметром смещения в = (-) ■

/П72.

Таким образом, мощность , позволяющая выявить разницу в двухстороннем варианте теста при уровне значимости , вычисляется по формуле:

1~P = Tvfi{ t, _a,v)-7V,e( - t, _av) , (2)

где t a - квантиль уровня 1 — — распределения Стьюдента с v степенями

2’V 2

свободы, Tv,e ( t1_£v) - функция распределения нецентрированного распределения

Стьюдента с параметрами . Отметим, что уравнение (2) связывает пять переменных - , и позволяет по заданным значениям четырех переменных

найти пятое.

12

Моделирование проводилось: для двух уровней значимости аг = 0 . О 5 и а2 = 0.3 3 общепринятых в технических и гуманитарных исследованиях; для равных выборок объема п = 1 0,2 0,40,80,1 60, охватывающих диапазон малых и средних величин. В качестве сильно отличающихся от нормального распределения по коэффициентам асимметрии и эксцесса, использовались распределения хи-квадрат, экспоненциальное и дискретное биномиальное.

В работе исследовалось три варианта: а) распределение х2 с двумя степенями свободы сравнивалось с нормальным распределением ; б) сравнивались

два экспоненциальных распределения c параметром Я = 0.5; в) сравнивались два распределения Бернулли с параметрами п = 1 0, р = 0.2 . Таким образом, во всех трех вариантах, математическое ожидание генеральной совокупности, из которой были получены выборки, равняется 2 .

Расчетные значения уровня значимости апракт и мощности /?практ теста получены по следующей схеме: в цикле из повторений к двум выборкам, сгенерированным

согласно условиям гипотезы и двум выборкам сгенерированным согласно условиям гипотезы Ях, применялся 2-sample t-test. Частота отклонения нулевой гипотезы в первом случае принималась за «практ, во втором случае за /?практ. В таблице 1 представлены значения «практ для каждой комбинации влияющих факторов.

Таблица 1. Расчетные значения уровня значимости

Вариант а п = 10 п = 20 п = 40 п = 80 п = 160

а) 0.05 0.056 0.053 0.053 0.051 0.051

0.33 0.339 0.336 0.330 0.328 0.328

б) 0.05 0.043 0.047 0.050 0.048 0.050

0.33 0.035 0.336 0.336 0.339 0.331

в) 0.05 0.051 0.050 0.051 0.050 0.051

0.33 0.329 0.330 0.334 0.329 0.331

При условии нормального распределения исходных данных, минимальный объем выборки рассчитывается по формуле (2) и при S = а, а = 0.0 5 , /? = 0.8 , а также любых значениях а равен птеор = 1 7.

На втором этапе моделирования подбирался минимальный объем выборки ппракт, при котором для пары, состоящей из нормального распределения и распределения , выполнялось условие апракт < 0.0 5 . Результаты расчетов для различных значений

приведены в таблице 2.

Таблица 2. Нижняя граница для объема выборки при нарушении нормальности

а = 0.5 а = 1.0 а = 2.0 а = 3.0 а = 4.0

ппракт > 750 > 650 > 600 >400 > 200

Итоги моделирования позволяют сделать следующие выводы об использовании двухвыборочного t-критерия Стьюдента:

1. применение теста оправдано в случаях, когда распределение переменных сильно отличается от нормального, и, в том числе, дискретно.

2. при объемах выборок п > 8 0 тест робастен даже для сильно скошенных распределений.

13

3. расчет минимального объема выборки для использования теста в условиях отсутствия нормальности следует проводить путем моделирования, так как теоретический расчет через функцию мощности по формуле (2) дает заниженные (в десятки раз) результаты.

Литература

1. Horton N. J., Switzer S. S. Statistical methods in the journal // New Engl J Med. 2005. -Vol. 353(18)

2. Student. The probable error of a mean. // Biometrika. 1908. - Vol. 6(1).

3. Core R. Team. R. : A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, 2015.

Определение влагосодержания газа Комилов М. З.

Комилов Муродилло Зойирович / Komilov Murodillo Zoyirovich - кандидат технических наук,

доцент,

кафедра технологии нефтехимической промышленности, факультет химической технологии, Бухарский инженерно-технологический институт, г. Бухара, Республика Узбекистан

Аннотация: в данной статье изучено влагосодержание газа в разных стадиях движения газа в газопроводе и дан метод их определения.

Ключевые слова: влагосодержание, абсолютная влажность, относительная

влажность, влагоемкость, температура, абсорбция, осушка газа.

Влагосодержание - это количество паров воды, растворенных в единице объёма попутного нефтяного газа при заданных условиях.

Содержание водяных паров в газе характеризуется абсолютной и относительной влажностью.

Под абсолютной влажностью газа W при заданных давлении и температуре, понимается отношение массы водяных паров, содержащихся в газе, к объёму, приведенному к стандартным условиям этого газа, из которого удалены пары воды.

Абсолютная влажность измеряется в кг/1000 м3.

Под относительной влажностью понимается отношение фактического содержания в газе водяного пара к максимально возможному содержанию его при данных давлении и температуре.

Относительная влажность измеряется в долях единицы или в процентах.

Влагосодержание зависит от состава газа, давления, температуры и физикохимических свойств конденсированной воды, с которой газ находится в термодинамическом равновесии.

Температура, при которой газ становится полностью насыщенным водяными парами при данном содержании воды в газе, называется температурой точки росы газа по воде при данном давлении.

Влагосодержание газа при заданных давлении и температуре рассчитывается по следующей формуле:

где А и В - коэффициенты, которые зависят от температуры и не приводятся ввиду громоздкости таблицы (таблица содержит значения А и В для температуры в интервале от -40°С до +110°С, рассчитанные для плотности газа 0,6 г/см3.

14

i Надоели баннеры? Вы всегда можете отключить рекламу.