Об оценоестепениоднородности выборгак...
УДК 519.65
О б оценкестепениоднородностивыборки врав номерно-регрессионной модели
Т.П. Махаева1, И.В. Пономарев2
'Алтайскийгосударственный педагогическиЧ университет (Барнаул, Россия) 2Алтайский государственный университет (Барнаул, Россия)
O n theAssessmentof Homogeneity in a Uniform Regres sionModel
T.P. Makhaeva^I.V.Ponomarev2
'Altai State Pedagogical University (Barnaul, Russia) 2Altai State University (Barnaul, Russia)
При проведении разведочногоанализа данных ино-следующего нвеореооде фуинрионалывых завононо-снир дежду нобчищаемыми чантонеоохо-
димо оцеаиоь
доиными.В основ}/0 пол^еныя оикихыуооериеы нфн ае-роы^1^оаг^нхмо^с^ииоде
цхынная ыостнв6яющоя вс^1бдиие^.е^е1убчпт:1^]ые^неми-нaпpяыl)дoIaвхсысoт методовеоучении во^е^с^]:^кР[Не^^ижоч^и^евхут^ентаи1^|^1^г^е:^о ек^е^е1модеои. В бoлыянрытвeноyаaeннa ночалттгомуттпе моделирования исследуются именно оценки однородности выборки, хороший подбор которых может сократить трудоемкость построения зависимости между данными.
В представленной работе изучается способ оценки однородности выборочных данных при построении ривномырно-уннрессионноймодецр.н п ервойхы-сцрроОыты опиcывннооя коэфиициенекорлеляцои ддмИв-уыгреccи»,изyчae тси интерваитго иеыеиыыым, оияcоывaюаcяеыoметpичecкaя интарпретацияи алго-рхым иосхиоыния ианногыпоказаоелх. Оч второйес. сыФраЫсиыыс cлeиязаaммe тон построеиоы показонеоя «енонцентрированноетх» хыоорки. Ох^^^з этого выза-деаня фврмyльI,еуузьшающыекoэффиыязнакoнpe-л-фанс размаытм иcбяихнйвыOoыыи. ф зекнксыони пиРвoдитcы oпиcхниeaыгopитмыяпocаиыенямн»ccмс-тиябаемыипомоентеный,»еоомтсяоывoдыo саожно-сахданныхед горитмов.
Ключевые слова: равномерно-регрессионная модель, коэффициент корреляции, выпуклая оболочка, вычис-лительнаясложность.
DOI 10.14258/izvasu(2020)1-19
When conductingan ex^ora^ryenalysis oftl^e dc^la^iodi^henuboodoientcooe^i^i^i^tinn o^uncticrnal nependrn ciee between t hetbs erved phenomencnUsgften oeaesaar^to asftes thedej^nee gf de.endence between the studie(nttetd. nne °asis for gbMnmg sitdicriteuia awthap rof aMstieap0* r^e^ln usually mcludes t°eœrrelation œrnpoeiee0 oo tne tdmplf.Thechoiaeoftheused mchcttor meAodsoestudnindlhe samjek, as weUes tlretools ogdTenslr u atingjthemo del. In maet^^ei^e, et: th e mitol stegeof modalidpclt icpreaes efyftoho moge netm estimates of the sample that are studied, a good selection of which can reduce the complexity of constructing the relationship between the data.
In this paper, we study a method for assessing the uniformity of sample data when constructing gunilorm reoeoaainnmodel.Tae dirsl part oftiie pafter deecr ibes theœenolotron ooeOficl ent fo r tneetp be grersion, atu-biTS thelnternal of Us Tewmge, describtothegrometric interpTelatiom nnt aCr gigorithmeon aonatruaSing iois indeaioo ig îiie eeeoob eart of thepapere we study llfe mettiodrf aonstrn ctingabindicftor of ,,aanaentratic>n,, puîhotample. forthisf 0armdlas ne dlrined ^e^^t ieldte the aarreletion aoeffiaeent ta tOe magnitude of the oclc^il^^i sldale. Inaanelueian.a beecriaIienrs glvenaf tho alpoeithmcaeraensfructtngtheagnsidered indroaeale,angeonatclle marad!own aboet ihe aombiecity gUihdca algorithmf.
Key words: uniformly regression model, correlation coefficient, convex hull, computational complexity.
1. Введение. Пусть R2 - двумерное арифметическое евклидово пространство. Пусть Q конечное подмножество точек:
П = {(xi,yi): i = 1,...,N} ,
которое можно рассматривать как результат N экспериментов. В работе [1] определен алгоритм построения линейной зависимости (Lœ регрессии) между координатами точек Q на основе Чебышев-
скои нормы равномерного отклонения
отсюда получим
аж (у) = 2 • тт < тах у - к.х^ - -\
k;Ь | ¿=1,...,N
С геометрической точки зрения величина аж (у) равна минимуму ширины «полосы», ограниченной двумя параллельными прямыми, содержащими множества П, ширина берется вдоль оси у. Эта величина также тесно связана с такими понятиями из выпуклой геометрии, как ширина выпуклого множества в данном направлении и широта выпуклого множества [2].
Уравнение гиперплоскости, на котором достигается аж (у), называется уравнением Lж регрессии. Очевидно, что для множества П возможно
построение двух регрессий:
у = х + ,
х = к<ху +
с функционалами качества аж = аж (П, у) и аж = аж (П, х) соответственно.
2. Корреляция для Lж регрессии. Основным показателем линейной зависимости между одномерными выборками является коэффициент корреляции [3]. Рассмотрим задачу нахождения аж (соответственно аж) с геометрической точки зрения.
Решение сводится к нахождению полосы, заключенной между двумя параллельными прямыми и содержащей множество точек П такой, что существует треугольник ЛA¿Aj А/; с вершинами на прямых, у которого одна из вершин проектируется вдоль оси ОУ (соответственно ОХ) на основание треугольника, как показано на рисунке 2.
Определение 1. Определим коэффициент корреляции коггто(Х, У) для Lж регрессии формулой:
коггто (X, У)
(1)
где угловые коэффициенты прямых Lж
регрессий у на х и х на у соответственно. Теорема 1. Справедливо неравенство:
-1 < коггто(Х,У) < 1.
Доказательство. На рисунке 1 изображены полосы вертикальной и горизонтальной минимальной ширины для множества П. Обозначим длины отрезков на осях ОХ и ОУ, высекаемые этими полосами через а, Ь и а1, Ь1 соответственно. еогда
Ц = аж < Ь1, а1 = < а.
Перенося параллельно параллелограмм П в начало координат, как указано на рисунке, заметим,
что 5
|коо \ = ~, \коо \ = 1 ,
а Ь1
\коггто(Х,У)\ = - • а < 1.
а -1
Знак равенства достигается при - = Ь1 и а = а1
Рис. 1. Полосы вертикальной и горизонтальной минимальной ширины
когда либо полосы вертикальной и горизонтальной минимальной ширины совпадают, либо получены симметрией друг из друга относительно оси ОХ или ОУ и параллельным сдвигом. При условии регулярности экстремального симплекса второй случай невозможен [4].
Замечание. Совпадение полос минимальной вертикальной и горизонтальной ширины соответствует существованию двух экстремальных треугольников ЛA¿AjА; и ЛАГAsAh с вершинами на прямых, у которых одна из вершин проектируется вдоль оси координат на основание треугольника, как показано на рисунке 2
Рис. 2. Экстремальные ЛА^АуAt, ЛАГAeAh
Об оценке степениоднородности выборки.
Введенный таким образом коэффициент корреляции может быть использован в прикладных исследованиях как показатель причинности между признаками х и у:
1. коггто(Х, Y) > 0 - влияния х на у и у на х имеют одинаковое направление;
2. коггто(Х, ) < 0 - х и у оказывают друг на друга противоположное воздействие.
3. Степень оценки «сконцентрированности» множества. При использовании вероятностных методов построения регрессионной модели основной характеристикой разброса наблюдений в одномерном случае является среднеквадратичное отклонение, а в двумерном — матрица ковариации [5]. Эти характеристики показывают величину разброса наблюдений относительно среднего значения. Введем показатель «сконцентрированности» выборки в модели Lж на основании следующей теоремы.
Теорема 2. Справедливо равенство:
S =
1 - korrTO (X, Y)'
(2)
где S — площадь параллелограмма, аж, аж — вертикальная и горизонтальная минимальная ширина.
Доказательство основывается на построении уравнений границ полос «в отрезках» и параллельном переносе полученного параллелограмма, содержащего П, в начало координат.
Следствие. Геометрически (2) означает следующее равенство:
S=
2S*
1 - korrTO (X, Y )'
где S, S* — площади фигур, изображенных на рисунке 3
Рис. 3. Геометрическая интерпретация коэффициента корреляции korrTO(X,y)
Интерпретировать площадь множества S * можно как наименьшее допустимое подмножество П, при котором не изменяются коэффициенты и другие характеристики L^-регрессий.
4. Вычислительная процедура. Для вычисления коэффициента корреляции необходимо вычислить параметры равномерно-регрессионной модели. Это можно сделать с помощью алгоритмов построения выпуклой оболочки множества П. Наиболее эффективными алгоритмами построения выпуклой оболочки являются:
• обход Грэхема, суть которого состоит в переводе точек множества П в полярную систему координат с последующим сравнением троек этих точек. Сложность алгоритма O(N log N) [6];
• алгоритм Quickhull. Главным преимуществом Quickhull является малая чувствительность к большому объему данных и погрешностям вычислений. Сложность данного алгоритма O(N log N) [7];
• алгоритм Чана, который является объединением алгоритмов Грэхема и Джарвиса и имеет более приемлемую сложность O(Nlogh) [8],
где N — количество точек в П; h — количество точек в выпуклой оболочке.
После построения выпуклой оболочки требуется определить ширину наименьшей вертикальной и горизонтальной полос, содержащих множество П. Эта процедура имеет сложность O(h) и осуществляется по следующему алгоритму:
1. Выбирается одна из сторон полученной выпуклой оболочки AiAi+1 и определяется прямая, содержащая эту сторону li : y = kx + b.
2. Для оставшихся вершин оболочки Aj находятся прямые lj : y = k(x — xj) + yj и проверяется условие, что полоса, ограниченная прямыми li и lj, содержит все точки выпуклой оболочки.
3. Операции 2)-3) повторяются до тех пор, пока не будут рассмотрены все стороны выпуклой оболочки.
4. Из найденных полос выбирается одна, имеющая наименьшую вертикальную и горизонтальную ширину.
Далее по формулам (1) и (2) находим коэффициент корреляции и показатель разброса выборки.
5. Заключение и выводы. Разработанные в статье методы оценки однородности выборки являются универсальными и могут применяться при проведении разведочного анализа статистических данных как показатели внутреннего строения исследуемого множества [9]. Стоит отметить, что оценка «сконцентрированности» выборки может применяться в процедурах нахождения выбросов аналогичных алгоритму, рассмотренному в [10].
Библиографический список
1. Ponomarev I.V., Slavsky V.V. Uniformly fuzzy model of linear regression // Journal of Mathematical Sciences. 2012. Vol. 186, Issue 3.
2. Сантало Луи А. Интегральная геометрия и геометрические вероятности : пер. с англ. / под ред. Р.В. Амбарцумяна. М., 1983.
3. Дрейпер Н, Смит Г. Прикладной регрессионный анализ. Множественная регрессия = Applied Regression Analysis : 3-е изд. М., 2007.
4. Берже М. Геометрия. М., 1984. Т. 1.
5. Кендалл М., Стюарт А. Статистические выводы и связи. М., 1973. Т. 2.
6. Берг М., Чеонг О., Кревельд М., Овер-марс М. Вычислительная геометрия. Алгоритмы и приложения = Computational Geometry: Algorithms and Applications. М., 2016.
7. Barber C.B., Dobkin D.P., Huhdanpa H.T. The Quickhull Algorithm for Convex Hulls // ACM Transactions on Mathematical Software. 1996. Vol. 22, № 4.
8. David M. Mount. Computational Geometry. University of Maryland, 2002.
9. Брюс П., Брюс Э. Практическая статистика для специалистов Data Science : пер. с англ. СПб., 2018.
10. Пономарев Т.В., Саженкова Т.В., Слав-ский В.В. Метод поиска экстремальных наблюдений в задаче нечеткой регрессии // Известия Ялт. гос. ун-та. 2018. №4 (102). D0I:10.14258/izvasu(2018)4-18.