Научная статья на тему 'ИССЛЕДОВАНИЕ СТАТИСТИЧЕСКИХ КРИТЕРИЕВ ПРОВЕРКИ ГИПОТЕЗ ДЛЯ ЦЕЛЕЙ ОПРЕДЕЛЕНИЯ МЕСТОПОЛОЖЕНИЯ'

ИССЛЕДОВАНИЕ СТАТИСТИЧЕСКИХ КРИТЕРИЕВ ПРОВЕРКИ ГИПОТЕЗ ДЛЯ ЦЕЛЕЙ ОПРЕДЕЛЕНИЯ МЕСТОПОЛОЖЕНИЯ Текст научной статьи по специальности «Математика»

CC BY
477
30
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СТАТИСТИКА / КРИТЕРИЙ ПИРСОНА / КРИТЕРИЙ ПУАССОНА / КРИТЕРИЙ КОЛМОГОРОВА-СМИРНОВА

Аннотация научной статьи по математике, автор научной работы — Воробьев Р.И., Брагин А.С.

Статистический анализ данных является одним из необходимых инструментов в работе над программным обеспечением, применяемым в системах локального позиционирования. Принятие решений при определении местоположения требует наличия информации о полученных в результате предварительных измерений выборочных данных. В статье рассматриваются несколько критериев проверки гипотез и приводится статистический анализ экспериментальных данных по двум критериям. В качестве инструментария статистического анализа рассматривалась модель анализа данных в ПО Microsoft Excel.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

INVESTIGATION OF STATISTICAL CRITERIA FOR HYPOTHESIS TESTING FOR LOCATION DETERMINATION PURPOSES

Statistical data analysis is one of the necessary tools in working on software used in local positioning systems. Decision-making in determining the location requires the availability of information about the sample data obtained as a result of preliminary measurements. The article discusses several criteria for testing hypotheses and provides a statistical analysis of experimental data on two criteria.

Текст научной работы на тему «ИССЛЕДОВАНИЕ СТАТИСТИЧЕСКИХ КРИТЕРИЕВ ПРОВЕРКИ ГИПОТЕЗ ДЛЯ ЦЕЛЕЙ ОПРЕДЕЛЕНИЯ МЕСТОПОЛОЖЕНИЯ»

ИССЛЕДОВАНИЕ СТАТИСТИЧЕСКИХ КРИТЕРИЕВ ПРОВЕРКИ ГИПОТЕЗ ДЛЯ ЦЕЛЕЙ ОПРЕДЕЛЕНИЯ МЕСТОПОЛОЖЕНИЯ

Р.И. Воробьев, Сибирский государственный университет телекоммуникаций и информатики, roman@sibguti. ru;

А.С. Брагин, Сибирский государственный университет телекоммуникаций и информатики, bragin_ant@mail. ru.

УДК 621.391_

Аннотация. Статистический анализ данных является одним из необходимых инструментов в работе над программным обеспечением, применяемым в системах локального позиционирования. Принятие решений при определении местоположения требует наличия информации о полученных в результате предварительных измерений выборочных данных. В статье рассматриваются несколько критериев проверки гипотез и приводится статистический анализ экспериментальных данных по двум критериям. В качестве инструментария статистического анализа рассматривалась модель анализа данных в ПО Microsoft Excel.

Ключевые слова, статистика; критерий Пирсона; критерий Пуассона; критерий Колмогорова-Смирнова.

INVESTIGATION OF STATISTICAL CRITERIA FOR HYPOTHESIS TESTING FOR LOCATION DETERMINATION PURPOSES

Roman Vorobyev, Siberian State University of Telecommunications and Informatics, roman@sibguti.ru;

Anton Bragin, Siberian State University of Telecommunications and Informatics, bragin_ant@mail.ru.

Annotation. Statistical data analysis is one of the necessary tools in working on software used in local positioning systems. Decision-making in determining the location requires the availability of information about the sample data obtained as a result of preliminary measurements. The article discusses several criteria for testing hypotheses and provides a statistical analysis of experimental data on two criteria.

Keywords: statistics; Pearson criterion; Poisson criterion; Kolmogorov-Smirnov criterion.

Введение

Статистика есть совокупность методов и принципов, согласно которым проводится сбор, анализ, сравнение, представление и интерпретация числовых данных. В 1954 г. академик АН УССР Б.В. Гнеденко дал следующее определение: Статистика состоит из трех разделов:

1. Сбор статистических сведений, то есть сведений, характеризующих отдельные единицы каких-либо массовых совокупностей.

2. Статистическое исследование полученных данных, заключающееся в выяснении тех закономерностей, которые могут быть установлены на основе данных массового наблюдения.

3. Разработка приемов статистического наблюдения и анализа статистических данных». Последний раздел, собственно, и составляет содержание математической статистики.

Также изучались методы, основанные на анализе данных из параметрических семейств распределений, описываемых кривыми семейства Пирсона. Наиболее популярным было нормальное распределение. Для проверки гипотез использовались критерии Пирсона, Стьюдента, Фишера. Были предложены метод максимального правдоподобия, дисперсионный анализ, сформулированы основные идеи планирования эксперимента [1-2].

В настоящее время для обработки больших данных применяются программные обеспечения в области статистики, примерами которых могут служить Microsoft Excel, Minitab, StatSoft и т.д. Благодаря их встроенным функциям можно быстро провести анализ в различных областях применения, в особенности в области инфокоммуникаций.

Критерий Пирсона

Критерий Пирсона, или критерий X (Хи-квадрат) - применяют для проверки гипотезы о соответствии эмпирического распределения предполагаемому теоретическому распределению F(x) при большом объеме выборки (n >100). Критерий применим для любых видов функции F(x), даже при неизвестных значениях их параметров, что обычно имеет место при анализе результатов механических испытаний. В этом заключается его универсальность.

Использование критерия X предусматривает разбиение размаха варьирования выборки на интервалы и определения числа наблюдений (частоты) для каждого из интервалов. Для удобства оценок параметров распределения интервалы выбирают одинаковой длины. Число интервалов зависит от объема выборки [1-3].

Недостатком критерия согласия Пирсона является потеря части первоначальной информации, связанная с необходимостью группировки результатов наблюдений в интервалы и объединения отдельных интервалов с малым числом наблюдений. В связи с этим рекомендуется дополнять проверку соответствия распределений по критерию X другими критериями. Особенно это необходимо при сравнительно малом объеме выборки (n ~ 100).

Для проверки критерия вводится статистика:

:

г-NZU р

где:

Г*'

j{tfcMr=l ftx)dx

J н

Л":-1 - предполагаемая вероятность попадания в 7-й интервал;

• ^ Лг - соответствующее эмпирическое значение;

• т - число элементов выборки из 1-го интервала.

Эта величина в свою очередь является случайной (в силу случайности X) и должна подчиняться распределению /2. Если полученная статистика превосходит квантиль закона распределения /2 заданного уровня значимости а с (£-1) или с (к-р-1) степенями свободы, где к - число наблюдений или число интервалов (для случая интервального вариационного ряда), а р - число оцениваемых параметров закона распределения, то гипотеза Но отвергается. В противном случае гипотеза принимается на заданном уровне значимости а [1-3].

Критерий Пуассона

Дискретная случайная величина имеет распределение Пуассона с параметром X, если:

Распределение Пуассона - это дискретное распределение, являющееся одним из важных предельных случаев биномиального распределения. Это одно из важнейших дискретных вероятностных распределений впервые было исследовано в 1837 г. С. Пуассоном (французский математик, механик и физик, 1781-1840 гг.), именем которого оно и называется [1-4].

Пуассоновская модель обычно описывает схему редких событий: при некоторых предположениях о характере процесса появления случайных событий число событий, происшедших за фиксированный промежуток времени или в фиксированной области пространства, часто подчиняется пуассоновскому распределению.

Примерами могут служить число частиц радиоактивного распада, зарегистрированных счетчиком в течении некоторого времени t, число вызовов, поступивших на телефонную станцию за время t, число дефектов в куске ткани или в ленте фиксированной длины, число изюминок в кексе и т.д.

Наконец, распределение Пуассона дает хорошую аппроксимацию биномиального распределения для больших значений п и малых значений р: Вг(п,р) П(пр), если ^ не велико. Это свойство позволяет значительно упростить вычисления в биномиальной модели при указанных условиях.

Распределение Пуассона моделирует случайную величину, представляющую собой число событий, произошедших за фиксированное время, при условии, что данные события происходят с некоторой фиксированной средней интенсивностью и независимо друг от друга [1-4].

Это распределение интенсивно используется в картах контроля качества, теории массового обслуживания, телекоммуникациях, медицинской статистике и т.д. При росте п, маломр и фиксированном значении произведения np=X>0 биномиальное распределение сходится к распределению Пуассона.

Критерий Колмогорова-Смирнова

Критерий Колмогорова-Смирнова - непараметрический критерий согласия, в классическом понимании предназначен для проверки простых гипотез о принадлежности анализируемой выборки некоторому известному закону распределения. Наиболее известно применение данного критерия для проверки исследуемых совокупностей на нормальность распределения.

Данный критерий позволяет оценить существенность различий между распределениями двух выборок, в том числе возможно его применение для оценки соответствия распределения исследуемой выборки закону нормального распределения [1-5].

Для большей достоверности полученных данных объемы рассматриваемых выборок должны быть достаточно большими: п > 50. При размерах оцениваемой совокупности от 25 до 50 элементов, целесообразно применение поправки Большева. Критерий Колмогорова-Смирнова рассчитывается при помощи специальных статистических программ. В основе лежит статистика вида:

где: sup S - точная верхняя грань множества S, Fn - функция распределения исследуемой совокупности, F(x) - функция нормального распределения.

Выводимые значения вероятности основаны на предположении, что среднее и стандартное отклонение нормального распределения известны априори и не оцениваются из данных [1-5].

Однако на практике обычно параметры вычисляются непосредственно из данных. В этом случае критерий нормальности включает сложную гипотезу («насколько вероятно получить D статистику данной или большей значимости, зависящей от среднего и стандартного отклонения, вычисленных из данных»), и приводятся вероятности Лиллиефорса (Lilliefors, 1967). Если D статистика Колмогорова-Смирнова значима (p<0,05), то гипотеза о том, что соответствующее распределение нормально, должна быть отвергнута [1-5].

Анализ данных методом Пирсона

В ходе исследования учебного центра методами трилатерации были получены данные о точности определения аудиторий и коридорных помещений. В каждом секторе проводились по 30 измерений. Ниже представлена сводная таблица (табл. 1) по полученным данным, где представлена информация о том сколько секторов определялись в заданном интервале и их количество определения.

Таблица 1. Исходные данные_

Определяется в интервале 1-3 4-6 7-9 10-12 13-15 16-18 19-21 22-24 25-27 28-30

Кол-во секторов 7 8 9 11 13 15 14 8 7 6

На уровне значимости 0,05 проверим гипотезу о том, что генеральная совокупность распределена нормально. Построим эмпирическую гистограмму и теоретическую кривую.

На уровне значимости а проверим гипотезу Но о нормальном распределении генеральной совокупности против конкурирующей гипотезы Н1 о том, что она так

не распределена. Используем критерий согласия Пирсона /2 = £ (щ ^ .

Щ

Эмпирические частоты известны из предложенного интервального ряда, и осталось найти теоретические. Для этого нужно вычислить выборочную среднюю и выборочное стандартное отклонение. Выберем в качестве варианта середины частичных интервалов (длина каждого интервала И=2) и заполним расчетную таблицу (табл. 2).

Таблица 2. Расчетные данные

Интервалы Xi П 2

1-3 2 7 14 28

4-6 5 8 40 200

7-9 8 9 72 576

10-12 11 11 121 1331

13-15 14 13 182 2548

16-18 17 15 255 4335

19-21 20 14 280 5600

22-24 23 8 184 4232

25-27 26 7 182 4732

28-30 29 6 174 5046

Суммы 98 1054 28628

Вычислим выборочную среднюю:

Кзд) 1054

п

98 28628

15,35

- 15,352 « 56,59

Выборочную дисперсию:

_ Дх2^ __

^в = п Хв " 98 Выборочное стандартное отклонение:

^ = Т^в = 756,59 = 7,52

Теоретические частоты рассчитываются по формуле:

п' = — *

°в

1 ! X—X

где: /(г) = е- '2 - функция Гаусса, а г = в.

Входные данные известны: п=98, А=3, хв = 15,35, ав = 7,52 и далее заполним еще одну расчетную таблицу (табл. 3).

Таблица 3.

X; п; /(*;) п'

2 7 -1,77418 0,0827 3,231974

5 8 -1,37539 0,154968 6,056247

8 9 -0,97661 0,247692 9,679978

11 11 -0,57783 0,33769 13,19716

14 13 -0,17905 0,392698 15,34693

17 15 0,219737 0,389525 15,22291

20 14 0,61852 0,329569 12,8798

23 8 1,017303 0,237845 9,295137

26 7 1,416086 0,146411 5,721864

29 6 1,814868 0,076876 3,004377

Построим эмпирическую гистограмму и теоретическую кривую (рис. 1), которая проходит через точки (х;, п'):

16 14 12 10 8 6 4 2 0

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

2 5 8 11 14 17 20 23 26 29

П1 П'1

18 16 14 12 10 8 6 4 2 0

Рисунок 1

Нормальная кривая построена на основе выборочных данных (выборочной средней и стандартного отклонения), она проходит через точки (х;, п') и

наилучшим образом приближает гистограмму. При этом сумма теоретических частот £ п' « 93,63 оказалась чуть меньше объема выборки £ щ « 98. Это объяснимо тем, что эмпирическая гистограмма конечна, а нормальная кривая -бесконечна.

Дальнейшая задача состоит в том, чтобы оценить, насколько значимо отличаются эмпирические частоты (ступеньки гистограммы) от соответствующих теоретических частот (уровень серых точек).

Найдем критическое значение Х2пр=Х2пр(а, Ю критерия согласия

Пирсона. Количество степеней свободы определяется по формуле к = т — г — 1, где: т - количество интервалов, а г - количество оцениваемых параметров рассматриваемого закона распределения. У нормального закона мы оцениваем два параметра.

Таким образом, & = 10 — 2 — 1 = 7.

22 /2 - "2

пр

/2пр(0,05,7) = 14,1

22 > х пр нулевая гипотеза отвергается, а при /2

< у2 таких

жел л пр

v, (п—п')2 ( = £ —^— (суть - сумму

При у2

жел

оснований нет.

Вычислим наблюдаемое значение критерия X'

расхождений между частотами) и для этого заполним еще одну расчетную таблицу.

В нижней строке таблицы у нас получилось готовое значение /2жел « 9,35 < /2пр , то есть на уровне значимости нет оснований отвергать

гипотезу о том, что генеральная совокупность распределена по закону Пирсона. А именно, различие между эмпирическими и теоретическими частотами незначимо и обусловлено случайными факторами (случайностью самой выборки, способом группировки данных и т.д.).

Также следует обратить внимание на то, что принятие статистической гипотезы еще не означает ее истинность, поскольку существует ^-вероятность того, что мы приняли неправильную гипотезу (совершили ошибку второго рода).

Таблица 4. Расчет наблюдаемого значения критерия

Щ К, у2

7 3,231974 4,392986

8 6,056247 0,623848

9 9,679978 0,047766

11 13,19716 0,365798

13 15,34693 0,358904

15 15,22291 0,003264

14 12,8798 0,097427

8 9,295137 0,180458

7 5,721864 0,285507

6 3,004377 2,986894

Е= 9,35

Анализ данных методом Пуассона

Возьмем условия предыдущей задачи и изменим входные данные. Присвоим рейтинги от 1 до 6 (табл. 5), а именно:

жел

Таблица 5. Рейтинговая система.

№ рейтинга 1 2 3 4 5 6

Интервал 1-5 6-10 11-15 16-20 21-25 26-30

определения

Проверим гипотезу о том, что генеральная совокупность распределена по закону Пуассона. Используем критерий согласия Пирсона. Вычислим

357

произведения х^п, выборочную среднюю хв =-

частоты по формуле п' = р: * п, где р(/) = (табл. 6).

— « 3,64 и теоретические

98 ^

. Вычисления сведем в таблицу

Таблица 6. Вычисление теоретических частот.

X: п: х,:п,: Р(1) п'

1 8 8 0,095361 9,345348

2 17 34 0,173693 17,02188

3 23 69 0,210913 20,66943

4 16 64 0,192081 18,82394

5 22 110 0,139945 13,71459

6 12 72 0,084966 8,326714

Е= 98 357

Для самоконтроля вычислим сумму £ п' = 87,9 - она оказалась чуть меньше £ п = 98. Это объяснимо тем, что эмпирическое распределение конечно, а распределение Пуассона - бесконечно, и небольшой «недобор» по теоретическим частотам приходится на теоретические значения X:, большие 6.

Находим критическое значение для уровня значимости а = 0,05 и количества степеней свободы & = т — г — 1 = 6 — 1 — 1 = 4.

/2пр = /2пр(0,05,4) = 9,5

Вычислим наблюдаемое значение критерия

= Е^г^ (табл.7).

Таблица 7. Расчет наблюдаемое значение критерия /

2

п: п' г2

8 9,345348 0,193675

17 17,02188 2,81£-05

23 20,66943 0,262782

16 18,82394 0,423645

22 13,71459 5,005476

12 8,326714 1,62045

Сумма 7,51

Таким образом, /2

7,51 < /2пр, поэтому на уровне значимости нет

оснований отвергать гипотезу о том, что генеральная совокупность распределена по закону Пуассона.

Особенно следует обратить внимание, как и в предыдущем примере, на то, что есть различие между эмпирическими и теоретическими частотами и это обусловлено случайными факторами (случайностью самой выборки, способом

х

жел

жел

жел

группировки данных и т.д.). А также, что принятие статистической гипотезы еще не означает ее истинность, поскольку существует ß-вероятность того, что мы приняли неправильную гипотезу (совершили ошибку второго рода).

Заключение

Таким образом, применение методов статистического анализа является важным этапом предварительной оценки координат мобильного объекта особенно внутри помещений при недостатке информации его местоположения. Ведь статистический вывод, также называемый индуктивной статистикой - это обобщенная информация из выборки для получения представления о свойствах генеральной совокупности. И исходя из вывода на основе случайной выборки делаются предположения относительно генеральной совокупности, используя данные о ней.

А результатом статистического вывода является статистическое суждение, например: точечная оценка, доверительный интервал, отвержение гипотезы, кластерный анализ. И благодаря этому можно вести рассуждения о дальнейшем: подойдут ли результаты статистки для продолжения исследования или требуется более углубленное изучение поставленного изначального вопроса.

Литература

1. Кубзин А.И., Горяинова Е.Р., Наумов А.В., Сиротин А.Н. Теория вероятности и математическая статистика. - М.: Изд-во ФИЗМАТЛИТ, 2002. - 224 с.

2. URL https://ru.wikipedia.org/wiki/Статистика (дата обращения - Сентябрь 2022 г.).

3. URL

https://help.fsight.ru/ru/mergedProjects/lib/05_statistics/uimodelling_chitest.htm (дата обращения - Сентябрь 2022 г.).

4. URL http://statistica.ru/theory/raspredelenie-puassona/?sphrase_id=120369 (дата обращения - Сентябрь 2022 г.).

5. URL https://medstatistic.ru/methods/methods10.html (дата обращения - Сентябрь 2022 г.).

ПРОЕКТИРОВАНИЕ И РАЗРАБОТКА АНАЛИЗАТОРА ВЕБ-ТРАФИКА

В.А. Спиридонов, Московский технический университет связи и информатики, spiridonov-valeriy@bk.ru.

УДК 004.738.5:004.415.53_

Аннотация. Данная статья посвящена разработке анализатора веб-трафика. Исследуется сложность современных веб-страниц при отслеживании сетевых пакетов для типов объектов, запрашиваемых при загрузке веб-страницы. Вебстраницы не являются аналогами друг друга, их дизайн и реализация зависят от назначения веб-сайта. Аналогичным образом, веб-страницы, предназначенные для определенной области, например, электронной коммерции, будут иметь тот же процесс разработки, который затем отражается на коде и объектах, используемых для разработки таких веб-сайтов. Пользователи, которые имеют схожие поисковые запросы, будут иметь одинаковый веб-трафик с точки зрения количества различных объектов и общего размера данных, передаваемых по сети. И наоборот,

i Надоели баннеры? Вы всегда можете отключить рекламу.