Научная статья на тему 'Коррекция метрических нарушений на основе проверки статистических гипотез'

Коррекция метрических нарушений на основе проверки статистических гипотез Текст научной статьи по специальности «Математика»

CC BY
85
8
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МЕТРИКА / РАССТОЯНИЕ / СКАЛЯРНОЕ ПРОИЗВЕДЕНИЕ / СХОДСТВО / РАЗЛИЧИЕ / ЧИСЛО ОБУСЛОВЛЕННОСТИ / СТАТИСТИЧЕСКАЯ ГИПОТЕЗА / METRICS / DISTANCE / SCALAR PRODUCT / SIMILARITY / DISSIMILARITY / CONDITIONAL NUMBER / STATISTICAL HYPOTHESIS

Аннотация научной статьи по математике, автор научной работы — Двоенко Сергей Данилович, Пшеничный Денис Олегович

Предлагается обеспечить оптимальное снижение числа обусловленности матрицы нормированных скалярных произведений на основе проверки соответствующих статистических гипотез о значимости ее значений.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

A CORRECTION OF METRIC VIOLATIONS BASED ON STATISTICAL HYPOTHESES TESTING

In this paper, we propose an optimal reduction of the conditionality number of the matrix of normalized scalar products based on testing the relevant statistical hypotheses about the significance of its values.

Текст научной работы на тему «Коррекция метрических нарушений на основе проверки статистических гипотез»

2. Мерсер Д. Создание надежных и полнофункциональных веб-сайтов, блогов, форумов, порталов и сайтов-сообществ. Вильямс - М., 2018. 272 с.

3. Шаньгин В.Ф. Информационная безопасность компьютерных систем и сетей: учебное пособие. М.: ИД ФОРУМ, НИЦ ИНФРА-М, 2017. 416 с.

Баранова Елизавета Михайловна, канд. техн. наук, доцент, elisafme@yandex.ru, Россия, Тула, Тульский государственный университет

ANALYSIS OF MODERN SYSTEMS FOR THE PROTECTION OF WEB SERVICES

E.M. Baranova

The paper presents an overview of the problems of protecting web-services organizations from malicious actions, describes the basic structure of the Web-service, presents the features of the Web-environment that affect the protection of the information provided, systematized and analyzed possible threats, developed measures to address the identified vulnerabilities of Web-services.

Key words: Web-service, website, unauthorized access, information confidentiality, security system, authentication, identification, authorization, access rights differentiation, network, exchange Protocol, attack, incident.

Elizaveta Mikhailovna Baranova, candidate of technical sciences, docent, elisafme@yandex. ru, Russia, Tula, Tula State University

УДК 519.816

КОРРЕКЦИЯ МЕТРИЧЕСКИХ НАРУШЕНИЙ НА ОСНОВЕ ПРОВЕРКИ

СТАТИСТИЧЕСКИХ ГИПОТЕЗ

С. Д. Двоенко, Д. О. Пшеничный

Предлагается обеспечить оптимальное снижение числа обусловленности матрицы нормированных скалярных произведений на основе проверки соответствующих статистических гипотез о значимости ее значений.

Ключевые слова: метрика, расстояние, скалярное произведение, сходство, различие, число обусловленности, статистическая гипотеза.

Современные экспериментальные данные в задаче машинного обучения часто представлены в виде парных сравнений. На практике применяются разные способы парного сравнения элементов множеств. Тем не менее, функции сравнения, реализуя интуитивные представления исследователя о сходстве или различии, часто не являются математически строгими расстояниями или скалярными произведениям, определенными на заданном множестве. Проблема заключается в том, что такие эмпирические функции сравнения не позволяют считать, что элементы данного множества погружены в метрическое пространство, образуя корректную конфигурацию. Исправление конфигурации на основе минимизации отклонений скорректированных парных сравнений от исходных приводит к плохо обусловленным матрицам парных сравнений. Поэтому необходимо не только исправить конфигурацию, устранив метрические нарушения, но и обеспечить оптимальную обусловленность соответствующих матриц парных сравнений.

1. Коррекция парных сравнений

Пусть экспериментальные данные представлены матрицей парных близостей между элементами конечного множества. Известно, что положительно определенная квадратная матрица имеет положительный детерминант, и все ее собственные числа также положительны [1]. В этом случае элементы множества посредством парных сравнений могут быть представлены в некотором многомерном координатном пространстве в виде векторов, где между ними можно вычислить расстояния и скалярные произведения на основе теоремы косинусов. Концы нормированных векторов окажутся расположенными на гиперсфере единичного радиуса. Если все скалярные произведения окажутся положительными, то все векторы будут расположены в положительном квадранте координатного пространства.

С практической точки зрения очень важно, чтобы экспериментальные данные, представленные парными сравнениями, могли быть помещены в некоторое реальное (признаковое) или гипотетическое координатное пространство. В этом случае исследователю удобно рассматривать его свойства по аналогии с обычным трехмерным пространством.

С математической точки зрения экспериментальные парные сравнения необходимо погрузить в некоторое метрическое пространство (евклидово). Тем не менее, функции парного сравнения, обычно применяемые исследователями, часто не являются математически корректными функциями расстояния или близости. Применение некорректных функций сравнения обычно приводит к т.н. метрическим нарушениям в конфигурации элементов множества, помещенных в некоторое пространство.

Поэтому необходимо исправить возникшие метрические нарушения, т. е. скорректировать парные сравнения. Нарушения выражаются в появлении отрицательных собственных чисел матрицы парных близостей элементов множества. Оптимальная коррекция позволит восстановить нарушенную метрику и обеспечить положительную определенность скорректированной матрицы близостей. Данный подход отличается от известной задачи многомерного шкалирования, т.к. нам не требуется восстанавливать собственно координатное признаковое пространство в явном виде.

Задача метрического погружения элементов множества является известной математической проблемой [2]. В современных условиях данная проблема приобрела практическое значение при анализе парных сравнений в задачах машинного обучения, обработки изображений и т.д. [3].

Если матрица парных близостей положительно полуопределена, то множество элементов считается корректно погруженным в некоторое метрическое пространство (например, евклидово) размерности не более ранга матрицы. На практике матрица парных близостей может оказаться неположительно определенной из-за того, что результаты измерений не являются скалярными произведениями. Более того, часто требуется симметризация парных сравнений, что тоже обычно приводит к неположительной определенности матрицы.

С другой стороны, проблема получения корректной матрицы £(п, п) парных сравнений п элементов хорошо известна, например, в экспертном оценивании, когда требуется упорядочить альтернативы (проекты, предприятия и т.п.) по предпочтениям экспертов. От эксперта не требуется формировать транзитивное индивидуальное мнение, например, в соответствии с т.н. аксиомой Льюса Sj■ = SifcSfcj относительно парных

сравнений трех альтернатив [4,5]. Вместо этого обязанность восстановить т.н. супертранзитивную матрицу парных сравнений возлагается на метод обработки.

Рассматриваемый в данной работе случай является более сложным, т.к. результаты парных сравнений представлены в количественной шкале в отличие от результата экспертного ранжирования, представляющего собой измерение в ранговой (качественной) шкале. Здесь парные сравнения должны удовлетворять теореме косинусов.

В данной работе рассматриваются матрицы S(n,n) парных близостей (скалярных произведений в общем случае). Для устранения метрических нарушений необходимо устранить их неположительную определенность. Необходимо отметить, что коррекция приводит к проблеме т.к. называемых плохо определенных матриц из-за того, что принцип восстановления с минимальными отклонениями от исходных значений приводит к почти нулевому детерминанту скорректированной матрицы с большим числом обусловленности [6]. Необходимо в процессе коррекции его уменьшить. Предлагаемый подход отличается от сложных вычислительных методов для плохо обусловленных матриц, т.к. здесь мы корректируем сами данные и регулируем процесс коррекции.

2. Метрическая коррекция и обусловленность парных сравнений

Как известно, число обусловленности характеризует вырожденность матрицы. Если квадратная матрица A коэффициентов уравнения Ax = b вырождена, то малые изменения как A, так и b, приведут к большим изменениям в решении x. Хорошо обусловленная матрица имеет небольшое число обусловленности.

Число обусловленности квадратной матрицы близостей S можно определить

как Cond (S) =|| S |||| S"11|. Существуют различные определения нормы матрицы,

например, для прямой и обратной матриц получим || S ||= max 111, || S_11|= 1 / min 111. Тогда число обусловленности положительно определенной матрицы S (n, n) вычисляется как

Cond(S(n, n)) = 1i / 1n, где 1max = 1i >... >1n = 1min > 0.

Мы применяем определение 1 / 1n вместо 11i | /11n |, т.к. второе определение даст также небольшое число обусловленности при большом отрицательном собственном числе 1n < 0. Тем не менее, в этом случае множество элементов оказывается некорректно погруженным в метрическое пространство. Метрические нарушения вызывают появление отрицательных собственных чисел, которые устраняются при коррекции. Таким образом, рассмотренное определение числа обусловленности подходит для решения поставленной задачи.

Рассмотрим последовательность главных миноров S (1,1) = 1, S (2,2),... S(к,к),...S(n,n) нормированной матрицы скалярных произведений S(n,n). Соответствующая последовательность убывающих значений их детерминантов имеет вид Si = 1,... Sk = det S (к, к),... Sn = det S (n, n).

Значение текущего детерминанта Sk > 0, если нет метрических нарушений в конфигурации из к элементов, представленных парными сравнениями. Если это не так, то образуется знакопеременная последовательность Si,... Sn. Если Sk < 0, то текущий

элемент, представленный парными сравнениями sц = Sjk, i = 1,...к, вносит метрическое нарушение. Необходимо скорректировать парные сравнения текущего элемента (все или некоторые) для получения Sk > 0.

Тем не менее, принцип минимальной коррекции [7-9] матрицы близостей (скалярных произведений) не позволяет непосредственно оценить число обусловленности Cond(S(к, к)) скорректированного минора S(к, к) по его детерминанту Sk . Нам лишь

известно, что Sk = П/Uli и к = X/^il', где к = 1,... n. Поэтому 1max = 1i > 0 убывает при возрастании 1min, которое тоже становится положительным 1min = 1 к > 0 . Число обусловленности Cond(S(к, к)) = 1i/1 к также уменьшается, улучшая обусловленность матрицы S (к, к) .

Наименьшая коррекция значения Sk < 0 дает значение Sk = 0. Очевидно, что такой результат неприемлем, т.к. 1m¿n = 1k = 0, для которого Cond (S (k, k)) = ¥. Данное неудобство необходимо преодолеть более сильной коррекций элементов матрицы в последних строке и столбце текущего минора S(k, k) .

С другой стороны, Sk £ Sk-i после коррекции. Если получить Sk = Sk-, то последние срока и столбец матрицы оказываются нулевыми s^ = s^ = 0, i = 1,... k. В этом случае Cond (S (k, k)) = Cond (S (k -1, k -1)). Тем не менее, такая коррекция также нежелательна из-за вырожденных нулевых парных сравнений.

Таким образом, значение Sk = C скорректированного минора является параметром оптимизации, который лишь косвенно связан с числом обусловленности минора S(k, k) . В итоге, необходимо согласовать два противоречивых требования: минимизации отклонений и минимизации числа обусловленности.

Ранее нами был предложен [10,11] эвристический способ совместного анализа двух функций Condt S(k, k) - убывающая для числа обусловленности и

7 1 'Л

Dt = Xp=i(spk — xp ) - возрастающая для оптимальных отклонений, где обозначения Xp = skp = Spk , p = 1,... k — 1 применяются для новых значений элементов скорректированного минора S(k, k), при t = Sk / Sk—i = C / Sk—i, 0 £ t £ 1.

Для оптимальной коррекции элементов на интервале 0 £ t £ 1 методом множителей Лагранжа решается задача условной оптимизации Dt ® min при ограничениях в

виде равенств Xk=ilX j—iXiXjrj = C, где Ту - элемент обратной матрицы

R = S"l(k -1,k -1) [7-9].

3. Проверка гипотез об уровне коррекции

На практике широко применяется распространенный способ совместного исследования противоположно изменяющихся графиков функций, приведенных к единому масштабу, с целью отыскания их точки пересечения. Интуитивно понятно, что такая точка может претендовать на оптимальность в некотором эвристическом смысле. Тем не менее, эксперименты показывают [10,11], что найденный по точке пересечения графиков уровень коррекции t обычно можно еще повысить, т.к. новые скорректированные значения элементов матрицы парных сравнений, например, не воспринимаются исследователем как сильно измененные.

Очевидно, что более строгий подход требует формулировки более корректного принципа определения оптимального уровня коррекции. Более строгий принцип заключается в выдвижении и проверке соответствующих статистических гипотез.

При статистическом подходе вполне допустимо рассмотреть нормированные близости S(n, n) как выборочные коэффициенты корреляции, предположив, что результаты парных сравнений элементов множества между собой есть результаты сравнений соответствующих вариационных рядов наблюдений. Тогда для каждого парного сравнения на заданном уровне значимости a выдвигается нулевая гипотеза об отсутствии корреляции между соответствующими вариационными рядами. В качестве критерия проверки стандартно принимается случайная величина

T = x^(v- 2) / (1 -x2), p = 1,... k,

которая при справедливости нулевой гипотезы имеет ¿-распределение Стьюдента с v - 2 степенями свободы, где v - размер выборки. Для конкурирующей гипотезы проверяется двусторонняя критическая область.

103

Нулевая гипотеза проверяется для модифицированных элементов последней строки текущего минора £(к, к) согласно условию Т > /(а, V — 2) относительно критической точки, выполнение которого является основанием отвергнуть нулевую гипотезу, т.е. признать значение Хр значимо отклоняющимся от нуля.

Из формулы критерия Т для критической точки / = /(а, V — 2) легко определить

П 2

значимый уровень парной близости х(а, V) = у// / (/ + V — 2).

Таким образом, для каждого значения уровня коррекции 0 < т < 1 можно определить число т значимых значений парных близостей Хр > х(а,V), р = 1,... к .

В соответствии с задачей оптимизации, сформулированной выше, предел т = 1 определяет предел значения скорректированного минора ££ = т£к—1 = £к—1, где последние срока и столбец матрицы £ (к, к) оказываются нулевыми ^ = я^к = 0, I = 1,... к. Следовательно, при повышении уровня коррекции т все скорректированные значения Хр, р =1,... к уменьшаясь, окажутся нулевыми.

В итоге, оптимальное число обусловленности должно соответствовать пороговому уровню коррекции т, начиная с которого число т значимых значений парных близостей Хр > х(а, V), р = 1,... к резко падает.

Тем не менее, проблема заключается в том, что, как сами гипотетические «выборки», якобы использованные для вычисления корреляций вариационных рядов, так и их размер V - неизвестны. Поэтому, следует решить, как определить размер V для проверки нулевых гипотез относительно значений парных близостей.

Пусть при заданном уровне значимости, например а = 0.01, значимая парная близость при статистически достаточном размере выборки V > 122 определяется критической точкой /-распределения Стьюдента как величина х(а, V) = 0.208, при среднем

размере выборки V > 62 определяется как величина х(а, V) = 0.2948, при небольшом

размере выборки V > 32 определяется как величина х(а, V) = 0.4097. Тогда пороговый

уровень коррекции т следует определять по резкому падению числа значимых парных близостей, например, относительно этих критических значений.

4. Эксперимент

Рассмотрим один из экспериментов, проведенный на корреляционной матрице £ (11,11), в которой представлены статистические взаимосвязи между энергетическими

свойствами биоритмов головного мозга для 11 частот (тэта-, альфа- и бета-ритмы). Данная матрица была получена В. Д. Небылицыным в ходе психологических исследований по эффекту навязывания ритма [12].

Данная матрица содержит 10 положительных 3.6363, 2.8271, 1.6116, 1.3582, 0.5152, 0.4128, 0.2782, 0.1642, 0.1511, 0.06998 и одно отрицательное собственное число -0.024566. Метрическое нарушение вносит второй элемент множества (тэта-ритм). Ранее данная матрица была исследована нами [13,14] при решении задачи оптимальной коррекции и исследовании эвристического принципа поиска оптимального числа обусловленности.

Отметим, что при просмотре главных миноров их обычно приходится переупорядочивать так, чтобы элементы множества, вносящие метрические нарушения, оказались, по-возможности, последними [8]. Опыт показывает, что неоптимальная последовательность миноров при их корректировке обычно вызывает шлейф дополнительных искажений, которые тоже нужно корректировать. Поэтому общее число коррекций обычно оказывается значительно больше числа отрицательных собственных чисел.

В данном случае оптимальная последовательность миноров соответствует перестановке элементов (7 4 8 1 3 11 5 9 6 10 2), в которой второй элемент вносит метрическое нарушение и оказывается последним. Соответствующие главные миноры имеют значения: 1, 0.9988, 0.985, 0.893, 0.539, 0.256, 0.1087, 0.0246, 0.00475, 0.00048, -0.000057. Следовательно, коррекция значения Sn = -0.000057 минора S (11,11) должна дать его новое значение в диапазоне 0 < TS10 £ 0.00048 на интервале уровня коррекции 0 < t < 1.

В соответствии с эвристическим принципом оптимальный уровень коррекции t = 0.14 позволяет получить оптимальное число обусловленности Condt (S) = 116.027, уменьшив его в 14.24 раза по сравнению с почти граничным уровнем коррекции t = 0.01 и числом обусловленности Condt (S) = 1652.784 (рис.1).

Рис.1. Изменение числа обусловленности (Condt) и оптимального отклонения (Dt) скорректированной матрицы S(11,11) при изменении доли 0 < t < 1 ее детерминанта S11 от значения S10 = 0.000481 предыдущего минора S(10,10)

Проверка статистических гипотез о значимых парных близостях показывает, что пороговый уровень коррекции может быть значительно выше ( t = 0.7 ) и определяется, как легко увидеть на рис.2, началом интервала необратимого падения числа значимых элементов скорректированной матрицы S (11,11).

В итоге, более строгий выбор оптимального уровня коррекции t = 0.7 позволяет получить оптимальное число обусловленности Condx (S) = 59.409, уменьшив его

в 27.8 раза по сравнению с почти граничным уровнем коррекции t = 0.01 с числом обусловленности 1652.784, а также уменьшив его в 1.95 раза по сравнению с эвристически оптимальным уровнем коррекции t = 0.14 и соответствующим числом обусловленности 116.027.

1 0.208 1

0.2 548

0.4097

Рис.2. Изменение числа значимых элементов скорректированной матрицы S(11,11) для различных критических значений x(a, v) при уровне

значимости а = 0.01 согласно критическим точкам t-распределения Стьюдента при изменении доли 0 < t < 1 ее детерминанта Sn от значения S10 = 0.000481 минора S(10,10)

Заключение

В данной работе рассмотрена проблема обеспечения оптимальной обусловленности матрицы парных сравнений, полученной после коррекции метрических нарушений. Уровень оптимальной коррекции определяется параметром t, который должен обеспечить уменьшение числа обусловленности скорректированной матрицы парных близостей. Парные близости понимаются как нормированные скалярные произведения в положительном квадранте метрического пространства. Оптимальное снижение числа обусловленности матрицы нормированных скалярных произведений выполняется на основе проверки соответствующих статистических гипотез о значимости ее значений.

Данное исследование поддержано грантами РФФИ 17-07-00319, 18-07-00942, 18-07-01087.

Список литературы

1. Александров П.С. Лекции по аналитической геометрии. М.: Наука, 1968.

912 с.

2. Bishop R.L., Crittenden R.J. Geometry of manifolds. Academic Press, N.Y., 1964.

273 p.

3. Pekalska E., Duin R.P.W. The dissimilarity representation for pattern recognition. Foundations and applications. World Scientific, Singapore, 2005. 607 p.

4. Luce R.D. Individual choice behavior: A theoretical analysis. Dover Publications, Inc., N.Y., 2005. 153 p.

5. Миркин Б.Г. Проблема группового выбора. М.: Наука, 1974. 256 c.

6. Тихонов А.Н., Арсенин В .Я. Методы решения некорректных задач. М.: Наука, 1979. 284 с.

7. Двоенко С. Д., Пшеничный Д. О. Устранение метрических нарушений в матрицах парных сравнений // Известия Тульского государственного университета. Технические науки. 2013. Вып. 2. С. 96-104.

8. Двоенко С. Д., Пшеничный Д. О. О локализации отрицательных собственных значений в матрицах парных сравнений // Известия Тульского государственного университета. Технические науки. 2013. Вып. 9. С. 94-102.

9. Dvoenko S.D., Pshenichny D.O. A recovering of violated metric in machine learning // Proc. of SoICT'16. ACM, N.Y., 2016. P. 15-21. DOI: https://doi.org/ 10.1145/ 3011077.3011084.

10. Двоенко С.Д., Пшеничный Д.О. Исследование плохо обусловленных матриц парных сравнений при коррекции метрических нарушений // Известия Тульского государственного университета. Технические науки, 2017. Вып. 10. С. 47-56.

11. Dvoenko S., Pshenichny D. On conditionality of pairwise comparisons in machine learning // Proc. of Int. Conf. on Pattern Recognition and Artificial Intelligence (ICPRAI-2018), Montreal, 2018. CENPARMI, Concordia University. P. 618-621.

12. Небылицын В. Д. Основные свойства нервной системы человека. М.: Просвещение, 1966. 384 с.

13. Двоенко С.Д., Пшеничный Д.О. Оптимальная коррекция метрических нарушений в матрицах парных сравнений // Машинное обучение и анализ данных, 2014, 1(7). C.885-890.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

14. Двоенко С.Д., Пшеничный Д.О. Обусловленность матриц парных сравнений при коррекции метрических нарушений // Машинное обучение и анализ данных, 2017, 3(1). C. 50-60. doi:10.21469/22233792.3.1.04

Двоенко Сергей Данилович, д-р физ.-мат. наук, профессор, dsd@tsu. tula.ru, Россия, Тула, Тульский государственный университет,

Пшеничный Денис Олегович, аспирант, denispshenichny@yandex.ru, Россия, Тула, Тульский государственный университет

A CORRECTION OF METRIC VIOLATIONS BASED ON STATISTICAL HYPOTHESES

TESTING

S.D. Dvoenko, D.O. Pshenichny

In this paper, we propose an optimal reduction of the conditionality number of the matrix of normalized scalar products based on testing the relevant statistical hypotheses about the significance of its values.

Key words: metrics, distance, scalar product, similarity, dissimilarity, conditional number, statistical hypothesis.

Dvoenko Sergey Danilovich, doctor of physic-mathematical science, professor, dsd@tsu. tula. ru, Russia, Tula, Tula State University,

Denis Olegovich Pshenichny, postgraduate, denispshenichny@yandex. com, Russia, Tula, Tula State University

i Надоели баннеры? Вы всегда можете отключить рекламу.