Научная статья на тему 'Об оценке степени однородности выборки в равномерно-регрессионной модели'

Об оценке степени однородности выборки в равномерно-регрессионной модели Текст научной статьи по специальности «Математика»

CC BY
65
9
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
UNIFORMLY REGRESSION MODEL / CORRELATION COEFFICIENT / CONVEX HULL / COMPUTATIONAL COMPLEXITY / РАВНОМЕРНО-РЕГРЕССИОННАЯ МОДЕЛЬ / КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ / ВЫПУКЛАЯ ОБОЛОЧКА / ВЫЧИСЛИТЕЛЬНАЯ СЛОЖНОСТЬ

Аннотация научной статьи по математике, автор научной работы — Махаева Татьяна Павловна, Пономарев Игорь Викторович

При проведении разведочного анализа данных и последующего построения функциональных зависимостей между наблюдаемыми явлениями часто необходимо оценить степень зависимости между изучаемыми данными. В основу получения таких критериев при вероятностном подходе обычно закладывается корреляционная составляющая выборки. Выбор применяемого показателя напрямую зависит от методов изучения выборки, а также инструментов построения модели. В большинстве случаев на начальном этапе моделирования исследуются именно оценки однородности выборки, хороший подбор которых может сократить трудоемкость построения зависимости между данными.В представленной работе изучается способ оценки однородности выборочных данных при построении равномерно-регрессионной модели. В первой части работы описывается коэффициент корреляции для L∞-регрессии, изучается интервал его изменения, описываются геометрическая интерпретация и алгоритм построения данного показателя. Во второй части работы исследуется метод построения показателя «сконцентрированности» выборки. Для этого выводятся формулы, связывающие коэффициент корреляции с размахом исходной выборки. В заключении приводится описание алгоритмов построения рассматриваемых показателей, делаются выводы о сложности данных алгоритмов.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Махаева Татьяна Павловна, Пономарев Игорь Викторович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

On the Assessment of Homogeneity in a Uniform Regression Model

When conducting an exploratory analysis of the data and the subsequent construction of functional dependencies between the observed phenomena, it is often necessary to assess the degree of dependence between the studied data. The basis for obtaining such criteria with a probabilistic approach usually includes the correlation component of the sample. The choice of the used indicator directly depends on the methods of studying the sample, as well as the tools for constructing the model. In most cases, at the initial stage of modeling, it is precisely the homogeneity estimates of the sample that are studied, a good selection of which can reduce the complexity of constructing the relationship between the data.In this paper, we study a method for assessing ; the uniformity of sample data when constructing a uniform regression model. The first part of the paper describes the correlation coefficient for the L∞ regression, studies the interval of its change, describes the geometric interpretation and the algorithm for constructing this indicator. In the second part of the paper, we study the method of constructing an indicator of "concentration" of the sample. For this, formulas are derived that relate the correlation coefficient to the magnitude of the original sample. In conclusion, a description is given of the algorithms for constructing the considered indicators, and conclusions are drawn about the complexity of these algorithms.

Текст научной работы на тему «Об оценке степени однородности выборки в равномерно-регрессионной модели»

Об оценоестепениоднородности выборгак...

УДК 519.65

О б оценкестепениоднородностивыборки врав номерно-регрессионной модели

Т.П. Махаева1, И.В. Пономарев2

'Алтайскийгосударственный педагогическиЧ университет (Барнаул, Россия) 2Алтайский государственный университет (Барнаул, Россия)

O n theAssessmentof Homogeneity in a Uniform Regres sionModel

T.P. Makhaeva^I.V.Ponomarev2

'Altai State Pedagogical University (Barnaul, Russia) 2Altai State University (Barnaul, Russia)

При проведении разведочногоанализа данных ино-следующего нвеореооде фуинрионалывых завононо-снир дежду нобчищаемыми чантонеоохо-

димо оцеаиоь

доиными.В основ}/0 пол^еныя оикихыуооериеы нфн ае-роы^1^оаг^нхмо^с^ииоде

цхынная ыостнв6яющоя вс^1бдиие^.е^е1убчпт:1^]ые^неми-нaпpяыl)дoIaвхсысoт методовеоучении во^е^с^]:^кР[Не^^ижоч^и^евхут^ентаи1^|^1^г^е:^о ек^е^е1модеои. В бoлыянрытвeноyаaeннa ночалттгомуттпе моделирования исследуются именно оценки однородности выборки, хороший подбор которых может сократить трудоемкость построения зависимости между данными.

В представленной работе изучается способ оценки однородности выборочных данных при построении ривномырно-уннрессионноймодецр.н п ервойхы-сцрроОыты опиcывннооя коэфиициенекорлеляцои ддмИв-уыгреccи»,изyчae тси интерваитго иеыеиыыым, оияcоывaюаcяеыoметpичecкaя интарпретацияи алго-рхым иосхиоыния ианногыпоказаоелх. Оч второйес. сыФраЫсиыыс cлeиязаaммe тон построеиоы показонеоя «енонцентрированноетх» хыоорки. Ох^^^з этого выза-деаня фврмyльI,еуузьшающыекoэффиыязнакoнpe-л-фанс размаытм иcбяихнйвыOoыыи. ф зекнксыони пиРвoдитcы oпиcхниeaыгopитмыяпocаиыенямн»ccмс-тиябаемыипомоентеный,»еоомтсяоывoдыo саожно-сахданныхед горитмов.

Ключевые слова: равномерно-регрессионная модель, коэффициент корреляции, выпуклая оболочка, вычис-лительнаясложность.

DOI 10.14258/izvasu(2020)1-19

When conductingan ex^ora^ryenalysis oftl^e dc^la^iodi^henuboodoientcooe^i^i^i^tinn o^uncticrnal nependrn ciee between t hetbs erved phenomencnUsgften oeaesaar^to asftes thedej^nee gf de.endence between the studie(nttetd. nne °asis for gbMnmg sitdicriteuia awthap rof aMstieap0* r^e^ln usually mcludes t°eœrrelation œrnpoeiee0 oo tne tdmplf.Thechoiaeoftheused mchcttor meAodsoestudnindlhe samjek, as weUes tlretools ogdTenslr u atingjthemo del. In maet^^ei^e, et: th e mitol stegeof modalidpclt icpreaes efyftoho moge netm estimates of the sample that are studied, a good selection of which can reduce the complexity of constructing the relationship between the data.

In this paper, we study a method for assessing the uniformity of sample data when constructing gunilorm reoeoaainnmodel.Tae dirsl part oftiie pafter deecr ibes theœenolotron ooeOficl ent fo r tneetp be grersion, atu-biTS thelnternal of Us Tewmge, describtothegrometric interpTelatiom nnt aCr gigorithmeon aonatruaSing iois indeaioo ig îiie eeeoob eart of thepapere we study llfe mettiodrf aonstrn ctingabindicftor of ,,aanaentratic>n,, puîhotample. forthisf 0armdlas ne dlrined ^e^^t ieldte the aarreletion aoeffiaeent ta tOe magnitude of the oclc^il^^i sldale. Inaanelueian.a beecriaIienrs glvenaf tho alpoeithmcaeraensfructtngtheagnsidered indroaeale,angeonatclle marad!own aboet ihe aombiecity gUihdca algorithmf.

Key words: uniformly regression model, correlation coefficient, convex hull, computational complexity.

1. Введение. Пусть R2 - двумерное арифметическое евклидово пространство. Пусть Q конечное подмножество точек:

П = {(xi,yi): i = 1,...,N} ,

которое можно рассматривать как результат N экспериментов. В работе [1] определен алгоритм построения линейной зависимости (Lœ регрессии) между координатами точек Q на основе Чебышев-

скои нормы равномерного отклонения

отсюда получим

аж (у) = 2 • тт < тах у - к.х^ - -\

k;Ь | ¿=1,...,N

С геометрической точки зрения величина аж (у) равна минимуму ширины «полосы», ограниченной двумя параллельными прямыми, содержащими множества П, ширина берется вдоль оси у. Эта величина также тесно связана с такими понятиями из выпуклой геометрии, как ширина выпуклого множества в данном направлении и широта выпуклого множества [2].

Уравнение гиперплоскости, на котором достигается аж (у), называется уравнением Lж регрессии. Очевидно, что для множества П возможно

построение двух регрессий:

у = х + ,

х = к<ху +

с функционалами качества аж = аж (П, у) и аж = аж (П, х) соответственно.

2. Корреляция для Lж регрессии. Основным показателем линейной зависимости между одномерными выборками является коэффициент корреляции [3]. Рассмотрим задачу нахождения аж (соответственно аж) с геометрической точки зрения.

Решение сводится к нахождению полосы, заключенной между двумя параллельными прямыми и содержащей множество точек П такой, что существует треугольник ЛA¿Aj А/; с вершинами на прямых, у которого одна из вершин проектируется вдоль оси ОУ (соответственно ОХ) на основание треугольника, как показано на рисунке 2.

Определение 1. Определим коэффициент корреляции коггто(Х, У) для Lж регрессии формулой:

коггто (X, У)

(1)

где угловые коэффициенты прямых Lж

регрессий у на х и х на у соответственно. Теорема 1. Справедливо неравенство:

-1 < коггто(Х,У) < 1.

Доказательство. На рисунке 1 изображены полосы вертикальной и горизонтальной минимальной ширины для множества П. Обозначим длины отрезков на осях ОХ и ОУ, высекаемые этими полосами через а, Ь и а1, Ь1 соответственно. еогда

Ц = аж < Ь1, а1 = < а.

Перенося параллельно параллелограмм П в начало координат, как указано на рисунке, заметим,

что 5

|коо \ = ~, \коо \ = 1 ,

а Ь1

\коггто(Х,У)\ = - • а < 1.

а -1

Знак равенства достигается при - = Ь1 и а = а1

Рис. 1. Полосы вертикальной и горизонтальной минимальной ширины

когда либо полосы вертикальной и горизонтальной минимальной ширины совпадают, либо получены симметрией друг из друга относительно оси ОХ или ОУ и параллельным сдвигом. При условии регулярности экстремального симплекса второй случай невозможен [4].

Замечание. Совпадение полос минимальной вертикальной и горизонтальной ширины соответствует существованию двух экстремальных треугольников ЛA¿AjА; и ЛАГAsAh с вершинами на прямых, у которых одна из вершин проектируется вдоль оси координат на основание треугольника, как показано на рисунке 2

Рис. 2. Экстремальные ЛА^АуAt, ЛАГAeAh

Об оценке степениоднородности выборки.

Введенный таким образом коэффициент корреляции может быть использован в прикладных исследованиях как показатель причинности между признаками х и у:

1. коггто(Х, Y) > 0 - влияния х на у и у на х имеют одинаковое направление;

2. коггто(Х, ) < 0 - х и у оказывают друг на друга противоположное воздействие.

3. Степень оценки «сконцентрированности» множества. При использовании вероятностных методов построения регрессионной модели основной характеристикой разброса наблюдений в одномерном случае является среднеквадратичное отклонение, а в двумерном — матрица ковариации [5]. Эти характеристики показывают величину разброса наблюдений относительно среднего значения. Введем показатель «сконцентрированности» выборки в модели Lж на основании следующей теоремы.

Теорема 2. Справедливо равенство:

S =

1 - korrTO (X, Y)'

(2)

где S — площадь параллелограмма, аж, аж — вертикальная и горизонтальная минимальная ширина.

Доказательство основывается на построении уравнений границ полос «в отрезках» и параллельном переносе полученного параллелограмма, содержащего П, в начало координат.

Следствие. Геометрически (2) означает следующее равенство:

S=

2S*

1 - korrTO (X, Y )'

где S, S* — площади фигур, изображенных на рисунке 3

Рис. 3. Геометрическая интерпретация коэффициента корреляции korrTO(X,y)

Интерпретировать площадь множества S * можно как наименьшее допустимое подмножество П, при котором не изменяются коэффициенты и другие характеристики L^-регрессий.

4. Вычислительная процедура. Для вычисления коэффициента корреляции необходимо вычислить параметры равномерно-регрессионной модели. Это можно сделать с помощью алгоритмов построения выпуклой оболочки множества П. Наиболее эффективными алгоритмами построения выпуклой оболочки являются:

• обход Грэхема, суть которого состоит в переводе точек множества П в полярную систему координат с последующим сравнением троек этих точек. Сложность алгоритма O(N log N) [6];

• алгоритм Quickhull. Главным преимуществом Quickhull является малая чувствительность к большому объему данных и погрешностям вычислений. Сложность данного алгоритма O(N log N) [7];

• алгоритм Чана, который является объединением алгоритмов Грэхема и Джарвиса и имеет более приемлемую сложность O(Nlogh) [8],

где N — количество точек в П; h — количество точек в выпуклой оболочке.

После построения выпуклой оболочки требуется определить ширину наименьшей вертикальной и горизонтальной полос, содержащих множество П. Эта процедура имеет сложность O(h) и осуществляется по следующему алгоритму:

1. Выбирается одна из сторон полученной выпуклой оболочки AiAi+1 и определяется прямая, содержащая эту сторону li : y = kx + b.

2. Для оставшихся вершин оболочки Aj находятся прямые lj : y = k(x — xj) + yj и проверяется условие, что полоса, ограниченная прямыми li и lj, содержит все точки выпуклой оболочки.

3. Операции 2)-3) повторяются до тех пор, пока не будут рассмотрены все стороны выпуклой оболочки.

4. Из найденных полос выбирается одна, имеющая наименьшую вертикальную и горизонтальную ширину.

Далее по формулам (1) и (2) находим коэффициент корреляции и показатель разброса выборки.

5. Заключение и выводы. Разработанные в статье методы оценки однородности выборки являются универсальными и могут применяться при проведении разведочного анализа статистических данных как показатели внутреннего строения исследуемого множества [9]. Стоит отметить, что оценка «сконцентрированности» выборки может применяться в процедурах нахождения выбросов аналогичных алгоритму, рассмотренному в [10].

Библиографический список

1. Ponomarev I.V., Slavsky V.V. Uniformly fuzzy model of linear regression // Journal of Mathematical Sciences. 2012. Vol. 186, Issue 3.

2. Сантало Луи А. Интегральная геометрия и геометрические вероятности : пер. с англ. / под ред. Р.В. Амбарцумяна. М., 1983.

3. Дрейпер Н, Смит Г. Прикладной регрессионный анализ. Множественная регрессия = Applied Regression Analysis : 3-е изд. М., 2007.

4. Берже М. Геометрия. М., 1984. Т. 1.

5. Кендалл М., Стюарт А. Статистические выводы и связи. М., 1973. Т. 2.

6. Берг М., Чеонг О., Кревельд М., Овер-марс М. Вычислительная геометрия. Алгоритмы и приложения = Computational Geometry: Algorithms and Applications. М., 2016.

7. Barber C.B., Dobkin D.P., Huhdanpa H.T. The Quickhull Algorithm for Convex Hulls // ACM Transactions on Mathematical Software. 1996. Vol. 22, № 4.

8. David M. Mount. Computational Geometry. University of Maryland, 2002.

9. Брюс П., Брюс Э. Практическая статистика для специалистов Data Science : пер. с англ. СПб., 2018.

10. Пономарев Т.В., Саженкова Т.В., Слав-ский В.В. Метод поиска экстремальных наблюдений в задаче нечеткой регрессии // Известия Ялт. гос. ун-та. 2018. №4 (102). D0I:10.14258/izvasu(2018)4-18.

i Надоели баннеры? Вы всегда можете отключить рекламу.