Научная статья на тему 'Методы построения систем анализа состояния распределённых информационных систем на основе беспризнакового распознавания образов'

Методы построения систем анализа состояния распределённых информационных систем на основе беспризнакового распознавания образов Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
344
20
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РАСПРЕДЕЛЕНИЕ ИНФОРМАЦИОННЫЕ СИСТЕМЫ / АНАЛИЗ СОСТОЯНИЯ / БЕСПРИЗНАКОВОЕ РАСПОЗНАВАНИЕ ОБРАЗОВ / DISTRIBUTED INFORMATION SYSTEMS / ANALYSIS OF STATE / FEATURELESS PATTERN RECOGNITION

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Руднев Дмитрий Олегович, Сычугов Алексей Алексеевич

Рассмотрена задача анализа состояния элементов распределённой информационной системы. Проведен анализ достоинств и недостатков существующих методов. Предложен новый, гибридный, подход, позволяющий обладающий свойствами адаптивности и при этом оптимальный с точки зрения вычислительных ресурсов. В работе описан эксперимент, подтверждающий эффективность предложенного метода.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Руднев Дмитрий Олегович, Сычугов Алексей Алексеевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

METHODS AND ALGORITHMS OF CONSTRUCTING ANALYSIS OF THE STATE OF DISTRIBUTED INFORMATION SYSTEMS

The article considers the problem of analyzing the state of elements of a distributed information system. The advantages and disadvantages of existing methods are analyzed.. A new, hybrid approach is proposed that allows one that has the properties of adaptivity and at the same time is optimal from the point of view of computing resources. In this paper, an experiment is described that confirms the effectiveness of the proposed method.

Текст научной работы на тему «Методы построения систем анализа состояния распределённых информационных систем на основе беспризнакового распознавания образов»

Грачева Инесса Александровна, асп., gia1509@mail.ru, Россия, Тула, Тульский государственный университет,

Копылов Андрей Валериевич, канд. техн. наук, доц., and.kopylov@gmail.com, Россия, Тула, Тульский государственный университет

THE STRUCTURE-TRANSFERRING ALGORITHM BASED ON THE MODIFICATION METHOD OF THE ADJACENCY GRAPH APPROXIMATION

I.A. Gracheva, A. V. Kopylov

In this paper, we propose the modification version of the previous method based on the adjacency graph approximation of image elements, which use left-diagonal graphs of columns and right-diagonal graphs of rows for the recording of diagonal links between image elements. Recording of diagonal links allows to increase the precision of image processing structure-transferring, the computational complexity of the algorithm remains linear with respect to the number of pixels.

Key words: image processing, non-stationary gamma-normal model, structure-transferring problem.

Gracheva Inessa Aleksandrovna, postgraduate, gia1509@mail. ru, Russia, Tula, Tula State University,

Kopylov Andrey Valerievich, candidate of technical science, docent, and. kopylov@gmail. com, Russia, Tula, Tula State University

УДК 004.891

МЕТОДЫ ПОСТРОЕНИЯ СИСТЕМ АНАЛИЗА СОСТОЯНИЯ

РАСПРЕДЕЛЁННЫХ ИНФОРМАЦИОННЫХ СИСТЕМ НА ОСНОВЕ БЕСПРИЗНАКОВОГО РАСПОЗНАВАНИЯ ОБРАЗОВ

Д.О. Руднев, А.А. Сычугов

Рассмотрена задача анализа состояния элементов распределённой информационной системы. Проведен анализ достоинств и недостатков существующих методов. Предложен новый, гибридный, подход, позволяющий обладающий свойствами адаптивности и при этом оптимальный с точки зрения вычислительных ресурсов. В работе описан эксперимент, подтверждающий эффективность предложенного метода.

Ключевые слова: распределение информационные системы, анализ состояния, беспризнаковое распознавание образов.

К распределённой архитектуре построения информационных систем прибегают, когда необходимо поддерживать работу большого числа элементов системы или обрабатывать большие объёмы информации в реальном времени.

Элементы распределённых информационных систем (РИС) могут добавляться, удаляться, изменяться в случайные моменты времени, то есть неотъемлемым свойствомраспределённой информационной системы является постоянное изменение структуры. Из чего следует, что для РИС особенно важно в реальном времени реагировать не только на изменение значений признаков отдельных элементов РИС, но и анализировать количественные и качественные изменения в структуре самой РИС. Таким образом, одна из важнейших частей - это система анализа состояния РИС, которая должна обладать таким важным свойством как адаптивность, под которой понимается, в данном случае, способность в реальном времени подстраиваться под изменение структуры РИС.

В настоящее время выделяют два основных подхода к анализу состояния распределённой информационной системы: централизованный и распределённый [1].

Централизованный подход заключается в сборе информации о работе всех элементов РИС и последующего анализа всего объёма данных в одном центральном узле РИС. Достоинствами такого подхода является высокая адаптивность, есть возможность оперативно реагировать на изменения свойств системы. К недостаткам такого подхода можно отнести высокие требования к вычислительным ресурсам центрального узла РИС, на котором происходит анализ. Это связано с тем, что на практике распределенные информационные системы содержат большое число элементов, следовательно, описание состояния всех элементов требует обработки значительного объёма данных.

Распределённый подход к анализу состояния РИС заключается в том, что каждый элемент сам анализирует свое состояние на основе некоторого ранее определённого решающего правила. Решающее правило рассчитывается однократно на основе состояния некоторого подмножества элементов РИС. Достоинствами такого подхода являются быстродействие и относительно невысокие требования к вычислительным ресурсам. Главной особенностью распределенного подхода является то, что в процессе анализа участвуют вычислительные мощности всех элементов РИС. Недостатком такого подхода, является низкая адаптивность, то есть при изменении свойств системы необходимо повторять процесс получения решающего правила.При этом нерешенным остается вопрос о периодичности перерасчета решающего правила.

С целью преодоления указанных недостатковпредлагается гибридный подход к анализу состояния РИС, позволяющий, с одной стороны, обеспечить высокую адаптивность, а с другой, обеспечить оптимальное использование вычислительных ресурсов. Разработанный подход основан на том, что каждый элемент РИС передает для анализа не непосредственно свои признаки, а данные косвенно описывающие признаки элемента РИС. При этом подразумевается, что передаваемые данные будут в значительной степени меньше по объёму, чем сами признаки, и, следовательно, их анализ потребует значительно меньше вычислительных ресурсов.

40

Состояние элемента определяется его внутренней структурой и зависит от физической природы. Состояние элемента РИС описывается через значения его признаков в конкретный момент времени, при этом признаки могут иметь произвольную природу. Результатом анализа состояния элементов РИС является некоторая характеристика, которая присваивается каждому из анализируемых элементов.

Пусть, О - множество элементов распределённой информационной системы:

О = {а0,щ,... ,тИ Ь

где N - количество элементов в системе.У - скрытая характеристика, определяющая состояние элемента РИС:

У = {У0, У1, •••, yNЬ существует целевая зависимость у *: О ® У. Тогда задачу проектирования системы анализа состояния РИС можно сформулировать следующим образом: необходимо разработать алгоритм а : О®У,оптимальный с точки зрения вычислительных ресурсов и эффективно работающий при условии, что свойства элементов и состав множества О меняются со временем.

Для решения поставленной задачи предлагается уйти от непосредственного анализа признаков всех элементов РИС в одной точке, равномерно распределив вычислительные ресурсы между всеми элементами РИС. То есть вместо анализа множества векторов действительных чисел, описывающих исходные объекты, предлагается анализировать значения мер похожести исследуемых объектов на множество заранее заданных объектов. Данный подход основан на гипотезе компактности сформулированной Э.М. Браверманом [2]. Она состоит в предположении наблюдателя, что объекты реального мира с близкими значениями скрытой целевой характеристики близки и по своим наблюдаемым свойствам.

Введем функцию похожести р определённой для всех объектов из

О:

"ще О: р,] = р(щ,а]),р,] е Я.

Пусть В сО множество базисных объектов, определённых ранее:

В = {¿1, ¿2,..., Ъм }.

Определим преобразование О ® О' следующим образом: "щ е О : а' = {р(щ,¿1),..., р(щ,Ьм )}, а' е О'.

Подход, при котором вместо признаков объектов рассматриваются отсчеты проекционного пространства, опирающегося на проекционные признаки, роль которых играют похожести на некоторые заранее заданные (базисные) объекты называется беспризнаковым распознаванием обра-зов[3]. В теории беспризнакового распознавания образов множество О' называется множеством вторичных признаков. Такой подход позволяет

использовать уже имеющиеся алгоритмы машинного обучения, подавая им на вход вторичные признаки. Стоит отметить, что объекты из множества О могут иметь произвольную природу. Для определения целевой характеристики достаточно определить меру похожести между объектами. Это применятся в том случае, если исходные объекты сложно или невозможно описать вектором действительных чисел.

Пусть каждый объект с^ е О можно описать с помощью вектора

действительных чисел X размерностью К. Тогда вычислительная сложность централизованного подхода анализа состояния РИС можно оценить, как 0(N ■ К). Одновременно с этим, при использовании гибридного подхода вычислительная сложность будет равна 0(N ■ М). При условии, что количество базисных элементов на практике меньше, чем количество признаков у объекта, использование гибридного подхода является более эффективным с точки зрения необходимых вычислительных ресурсов.

Для выбора базисных элементов предлагается использовать алгоритм выбора опорных точек, который используется в методе визуализации данных большой размерности FastMap[4]. Алгоритм выбора опорных объектов в FastMap итеративный. На первом шаге выбираются два самых отдалённых друг от друга объекта. Они добавляются в список опорных. На следующем шаге выбирается следующая пара опорных объектов, такая что бы расстояние между ними было максимально, а проекция на прямую, проходящая через ранее определённые опорные точки, была минимальна. Этот алгоритм продолжается до тех пор, пока не будет выбрано достаточное количество опорных точек.

Пусть дана О0 с О, подмножество исходных элементов РИС, на основании которого будет считаться базис иМ (М > 2) - число базисных

элементов. Необходимо найти множество базисных элементов В сО. Алгоритм выбора базиса состоит из следующих шагов.

1. Выбор пары объектов, расстояние между которыми максимально:

2. Добавить найденные на предыдущем шаге элементы Ъ1 к множе-

3. Если количество базисных элементов | В |= М, то остановить алгоритм, иначе перейти к шагу 4.

Пусть проекция расстояния произвольной точки:

Ъо = (Ъо 1,Ъо 2/ = а^шах(р(Щ,C0j)),щ,Юj е О .

0

ству базисных:

В = В и ы, В = В и {Ъ,1, Ъг,2}

р2(Ъьщ) + р2(Ъь Ъ2)-Г2(Ъ2,Щ)

2 ■ Г (¿1, ¿2)

2

2

2

рщ(Щ ^Ъ1, Ъ2))

Найти такую пару точек что:

с \

Ъ = аг§тт

рщ(щ, Ьк) - рго^щ, Ьк) ^ Ьк еВ у

Примером распределённой информационной системы может служить сеть мобильных устройств. Часто в таких системах возникают задачи поиска аномалий с целью обнаружения отклонений в поведении отдельных элементов системы, а также задачи, связанные с получением новых знаний об элементах системы, которые не находятся в открытом доступе.

Одной из задач, связанных с анализом состояния мобильных устроив является определение типа активности пользователя мобильных устройств. Так по данным с акселерометра и координатам можно определить тип активности пользователя мобильного устройства. При этом сами данные акселерометра и текущее положение устройства не представляют ценности.

Для поверки качества работы предложенного метода был поставлен численный эксперимент определения типа активности владельца мобильного устройства[5]. Была поставлена задача классификации по одному из 12 классов активности, представленных в таблице.

Классы активности пользователя мобильного устройства.

Номер состояния Описание состояния

1 Ходьба

2 Ходьба по лестнице вверх

3 Ходьба по лестнице вниз

4 "сидит"

5 "стоит"

6 "лежит"

7 Переход "стоит" в "сидит"

8 Переход "сидит" в "стоит"

9 Переход "сидит" в "лежит"

10 Переход "лежит" в "сидит"

11 Переход "стоит" в "лежит"

12 Переход "лежит" в "стоит"

Данные представляют собой показания датчика акселерометра (3 измерения) и показания геопозиции (3 измерения). Исходные данные были получены в результате выполнения действий по заданному сценарию 30-тью различными людьми. Таким образом исходные данные представляют собой непрерывные временные ряды, участки которых размечены соответствующим классом.

Известия ТулГУ. Технические науки. 2017. Вып. 10

Исходные данные обладают следующими свойствами: количество классов - 12, количество элементов РИС - 30, количество размеченных участков - 1214. Распределение размеченных участков по классам представлены на рис. 1.

200---,------

150 100 50 0

Рис. 1. Количество состояний элементов в зависимости от класса активности

Пример исходных данных изображен на рис.2.

1.5 1.0

0.5

0.0

500 1000 1500 2000

Рис. 2. Пример исходных данных для эксперимента, полученных

с акселерометра

Под адаптивностью в контексте данного эксперимента будет пониматься свойство алгоритма, позволяющее с высокой точностью классифицировать состояние ранее неизвестных объектов. В ходе эксперимента было сделано допущение, что в начальный момент времени доступны классы состояний только одного элемента РИС, советующего поведению одного человека. Таким образом, целью эксперимента является сравнение распределённого и гибридного подхода к анализу состояния распределённых информационных систем.

При распределённом подходе для обучения алгоритма распознавания класса состояния объекта использовались только вектора описывающие различные состояния одного объекта. В качестве алгоритма распознавания образов для распределённого подхода были выбраны решающие деревья [6].

При гибридном подходе к анализу состояния элементов РИС использовались все доступные объекты, хотя размеченным были только вектора, описывающие состояние одного объекта, что позволило использовать методы частичного обучения. Для гибридного подхода использовался метод вторичных признаков, описанный в данной работе. В качестве методов распознавания образов использовался алгоритм самообучения[7] основанный на решающих деревьях, и алгоритм распространения меток[8].

Для того чтобы минимизировать влияние обучающей выборки на полученный результат, в качестве обучающей выборки поочерёдно брались данные с различных элементов РИС, таким образом, для каждого из подходов цикл обучения и распознавания выполнялся по 30 раз, по числу пользователей мобильных устройств, представленных в обучающей выборке. Распределение точности работы исследуемых алгоритмов представлено на рис. 3.

Рис. 3. Точность различных методов определения класса активности

пользователя устройства

Эксперимент показал, что использование гибридного подхода позволяет повысить точность определения состояния элементов РИС по сравнению с распределённым подходом.

Таким образом, гибридный подход имеет точность определения состояния выше, чем при использовании распределённого подхода и при этом гибридный подход требует меньше вычислительных ресурсов чем централизованный подход.

Работа поддержана грантом РФФИ №16-07-01008.

Списоклитературы

1. Alghuried A.A. Model for Anomalies Detection in Internet of Things (IoT) Using Inverse Weight Clustering and Decision Tree.Masters dissertation, Dublin Institute of Technology, 2017.

2. Аркадьев А.Г., Браверман Э.М. Обучение машины распознаванию образов. М.: Наука, 1964.

3. Середин О.С. Методы и алгоритмы беспризнакового распознавания образов: диссертация на соискание ученой степени кандидата физико-математических наук. М., 2001.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

4. Christos Faloutso, King-Ip Lin. FastMap: a fast algorithm for indexing, data-mining and visualization of traditional and multimedia datasets. Carnegie Mellon University, 1995.

5. Davide Anguita, Alessandro Ghio, Luca Oneto, Xavier Parra and Jorge L. Reyes-Ortiz. A Public Domain Dataset for Human Activity Recognition Using Smartphones. 21th European Symposium on Artificial Neural Networks, Computational Intelligence and Machine Learning, ESANN 2013. Bruges, Belgium, 2013.

6. Rokach Lior, Maimon O. Data mining with decision trees: theory and applications. World Scientific Pub Co Inc. 2008.

7. Chapelle O., Scholkopf B., Zien A. Semi-supervised learning. Cambridge, Mass: MIT Press, 2006.

8. Yoshua Bengio, Olivier Delalleau, Nicolas Le Roux. In Semi-Supervised Learning, 2006. P. 193-216.

Руднев Дмитрий Олегович, асп., dima rudnev@mail.ru, Россия, Тула, Тульский государственный университет,

Сычугов Алексей Алексеевич, канд. техн. наук, доц., xru2003@Jist.ru, Россия, Тула, Тульский государственный университет

METHODS AND ALGORITHMS OF CONSTRUCTING ANALYSIS OF THE STATE OF DISTRIBUTED INFORMATION SYSTEMS

D.O. Rudnev, А.А. Sychugov

The article considers the problem of analyzing the state of elements of a distributed information system. The advantages and disadvantages of existing methods are analyzed. A new, hybrid approach is proposed that allows one that has the properties of adaptivity and at the same time is optimal from the point of view of computing resources. In this paper, an experiment is described that confirms the effectiveness of the proposed method.

Key words: distributed information systems, analysis of state, featureless pattern recognition.

Rudnev Dmitry Olegovich, postgraduete, dima rudnev@mail.ru, Russia, Tula, Tula State University,

Sychugov Alexey Alekseevich, candidate of technical science, docent, xru2003@list.ru, Russia, Tula, Tula State University

УДК 519.67

ИССЛЕДОВАНИЕ ПЛОХО ОБУСЛОВЛЕННЫХ МАТРИЦ ПАРНЫХ СРАВНЕНИЙ ПРИ КОРРЕКЦИИ МЕТРИЧЕСКИХ

НАРУШЕНИЙ

С.Д. Двоенко, Д.О. Пшеничный

Исследуется проблема оптимального снижения числа обусловленности скорректированной матрицы скалярных произведений.

Ключевые слова: метрика, детерминант, собственное число, собственный вектор, скалярное произведение, парные сравнения.

В современных задачах интеллектуального анализа данных результаты экспериментов часто представлены в виде парных сравнений сходства или различия объектов исследования. Для адекватного применения алгоритмов машинного обучения результаты парного сравнения необходимо корректно погрузить в метрическое пространство. В отсутствие явно заданного пространства признаков одним из условий корректного погружения является неотрицательная определенность матрицы парных близостей элементов множества друг с другом. В этом случае неотрицательные близости представляют собой скалярные произведения векторов в положительном квадранте гипотетического признакового пространства, а соответствующие различия представляют расстояния.

На практике обычно возникает необходимость в метрической коррекции произвольных экспериментальных матриц парных сравнений, чтобы обеспечить положительную определенность соответствующих им нормированных матриц скалярных произведений. Естественное требование минимизации отклонений значений скорректированных матриц от их исходных значений обычно приводит к плохо обусловленным матрицам скалярных произведений с большим числом обусловленности.

1. Задача коррекции метрических нарушений

Рассмотрим нормированную матрицу скалярных произведений 5(п, п), для элементов которой выполняются условия: Sjj = 1,1 = 1,...п ;

sij = s ji, | sij | < 1, ¡, у = 1,... п, где п - число элементов множества. Такая

матрица может быть получена из матрицы расстояний 0(п, п) между элементами множества относительно некоторого начала координат по теореме косинусов.

i Надоели баннеры? Вы всегда можете отключить рекламу.