Научная статья на тему 'Методы диагностики динамических объектов на основе анализа временных рядов'

Методы диагностики динамических объектов на основе анализа временных рядов Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
432
81
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ВРЕМЕННЫЕ РЯДЫ / ИНДУКТИВНОЕ ФОРМИРОВАНИЕ ПОНЯТИЙ / ПОИСК ИСКЛЮЧЕНИЙ / КЛАССИФИКАЦИЯ / TIME SERIES / INDUCTIVE CONCEPT FORMATION / SEARCH FOR EXCEPTIONS / CLASSIFICATION

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Антипов Сергей Генадьевич, Вагин Вадим Николаевич, Фомина Марина Владимировна

В работе рассматривается проблема обнаружения аномалий в наборах временных рядов. Дается постановка задачи. Предлагается алгоритм для случая, когда обучающее множество содержит наборы временных рядов нескольких классов. Приводятся результаты программного моделирования для реальных задач. Даётся сравнение с результатами, показанными рядом известных алгоритмов

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Антипов Сергей Генадьевич, Вагин Вадим Николаевич, Фомина Марина Владимировна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Methods of diagnostics of dynamic objects based on the analysis of time series

The paper deals with the problem of detecting anomalies in sets of time series. The statement of the problem is given. An algorithm is proposed for the case when the training set contains sets of time series of several classes. The results of software simulation for real problems are given. Comparison with the results shown by a number of well-known algorithms is given

Текст научной работы на тему «Методы диагностики динамических объектов на основе анализа временных рядов»

УДК 004.832.3

МЕТОДЫ ДИАГНОСТИКИ ДИНАМИЧЕСКИХ ОБЪЕКТОВ НА ОСНОВЕ АНАЛИЗА ВРЕМЕННЫХ РЯДОВ

Сергей Генадьевич Антипов, канд. техн., наук, инженер каф. ПМ, Вадим Николаевич Вагин, д-р техн. наук, проф., каф. ПМ, e- mail: vagin@appmat.ru, Марина Владимировна Фомина, канд. техн. наук, доц. каф. ВТ, Национальный Исследовательский Университет «МЭИ»,

http://mpei.ru

В работе рассматривается проблема обнаружения аномалий в наборах временных рядов. Дается постановка задачи. Предлагается алгоритм для случая, когда обучающее множество содержит наборы временных рядов нескольких классов. Приводятся результаты программного моделирования для реальных задач. Даётся сравнение с результатами, показанными рядом известных алгоритмов.

Ключевые слова: временные ряды, индуктивное формирование понятий, поиск исключений, классификация.

Работа выполнена при поддержке грантов РФФИ № 15-01-05567,17-07-00442

Введение

Развитие современных интеллектуальных систем тесно связано с развитием наиболее совершенных их представителей, к которым относятся системы поддержки принятия решений. Интеллектуальная система (ИС) может быть рассмотрена как компьютерная система для решения классов задач, которые или не могут быть решены человеком в реальное время, или же их решение требует автоматизированной поддержки. Решение, предоставляемое интеллектуальной системой, должно давать результаты, сопоставимые с решениями, принимаемыми человеком - специалистом в некоторой области. Характеризация компьютерной системы как интеллектуальной будет неполной, если не будут уточнены как природа решаемых задач, так и средства их решения, реализуемые благодаря определённой архитектуре компьютерной системы [1].

Важнейшим классом задач, решение которых требует интеллектуальной поддержки компьютерных систем, являются задачи управления сложными техническими объектами. Главной чертой подобных объектов управления следует признать то, что они являются динамическими, обладают способностью к развитию, состояния таких объектов и систем могут изменяться со временем, поэтому требуется разработка методов и алгоритмов, позволяющих учитывать фактор времени при анализе поведения таких объектов.

Важными задачами, возникающими при обработке временных зависимостей, являются задачи кластеризации и классификации. В работе рассматривается решение задачи классификации темпоральных данных [2, 3, 4]. на примере поиска аномалий в наборах временных рядов.

1. Проблемы, возникающие при обработке временных рядов

Наиболее распространённым случаем анализа темпоральных данных является извлечение знаний из временных рядов [5]. Временные ряды используются в самых различных областях (техника, экономика, медицина банковское дело и т.п.) и описывают различные процессы, протекающие во времени.

Проблема извлечения знаний из временных рядов является важной для специалистов при решении следующих задач анализа процессов:

- по качественной оценке текущего состояния дать прогноз будущего состояния исследуемого процесса;

- по качественной оценке процесса выявить наличие типичных и аномальных типов событий;

- на основе анализа временного ряда выявить имевшие место качественные изменения исследуемого процесса.

При этом интеллектуальный анализ временных рядов на определенном интервале может заключаться в поиске некоторых тенденций в изменении состояния изучаемого процесса.

Обнаружение тенденций, их качественная оценка и прогноз на основе анализа временных рядов, приобретают особую актуальность в связи с непрерывным ростом и изменением в реальном времени данных, поступающих с конкретных сложных технических объектов, предприятий (организаций). Источниками таких данных могут быть, например, показания датчиков, чьи значения меняются со временем.

Рассмотрим случай, когда поведение объекта оценивается на основе наблюдений за значениями одного конкретного параметра. Последовательность значений такого параметра, полученная на основе показаний датчика за определенный временной интервал, представляет собой временной ряд, анализ которого позволит судить о состоянии и изменении состояния сложного объекта.

В общем случае временной ряд ТБ - это упорядоченная последовательность значений единственного параметра

ТБ =< г51,г52,..., г51,...,г$С1 >,

описывающая протекание какого-либо длительного процесса, где индекс 1 соответствует метке времени. Значениями параметра могут быть показания датчиков, цены на какой-либо продукт, курс валюты и т. п. Пример данных, образующих временной ряд, дан в таблице 1, где 1-ая точка соответствует значению полученному в момент времени 1 (время I полагается дискретным, в интервале от 0 до 9):

Таблица 1.

Пример временного ряда

Время 1 0 1 2 3 4 5 6 7 8 9

Значение параметра 18, -1.07 0.13 0.85 0.96 0.81 0.84 -0.07 -1.01 -0.90 -1.14

3. Задача обнаружения аномалий

Задача определения или обнаружения аномалий [6] была поставлена как задача поиска в наборах данных образцов, не удовлетворяющих некоторому предполагаемому типовому поведению сложной системы, или объекта. Возможность найти аномалии в некотором наборе данных важна в различных предметных областях — при анализе работы сложных технических систем (например, телеметрии спутников), анализе сетевого трафика, в медицине (анализ снимков МРТ), в банковском деле (анализ транзакций, производимых с помощью кредитных карт) и др.

Аномалия, или «выброс», определяется как элемент, который явно выделяется из набора данных, к которому он принадлежит, и существенно отличается от других элементов выборки. Неформально задача определения аномалий в наборах временных рядов ставится следующим образом. Имеется коллекция временных рядов, описывающих некоторые процессы. Эта коллекция используется для описания нормального протекания процессов. Требуется на основании имеющихся данных построить модель, которая является обобщённым описанием нормальных процессов и позволяет различать нормальные и аномальные процессы.

Для задачи обнаружения аномалий обычно имеется описание нормальной работы системы - например, набор состояний системы, при которых неполадки отсутствуют. Описание же ситуаций, соответствующих неполадкам на объекте, часто не удаётся получить в полном объёме. При обучении на таких данных требуется построить модель нормальной работы системы, которая в дальнейшем могла бы предсказывать, является ли текущая ситуация на объекте «нормальной» или «аномальной», то есть присутствуют ли в данный момент какие-либо неисправности или нет.

Задача усложняется, тем, что набор исходных данных ограничен и не содержит примеров аномальных процессов; также часто не задан критерий, по которому можно

было бы различать нормальные и аномальные временные ряды. К тому же многие алгоритмы, хорошо показавшие себя на одних наборах данных, совершенно не подходят для других предметных областей. Также может отличаться и критерий, на основании которого определяется «нормальность» рядов.

Классификация используется для обучения модели на данных, отнесенных к различным классам (этап обучения), и отнесения экземпляров данных к одному из имеющихся классов с использованием полученной модели (этап экзамена) [7]. Методы обнаружения аномалий, основанные на классификации, предполагают, что если классификатор, может быть обучен в имеющемся пространстве признаков, то он сможет разделить нормальные и аномальные объекты. К преимуществам методов обнаружения аномалий, основанных на классификации, относится возможность использовать огромное количество методов и алгоритмов, разработанных в области машинного обучения - в особенности для случая, когда обучающее множество содержит примеры нескольких классов. Кроме того этап экзамена проходит быстро по сравнению с другими классами методов, так как используется изначально построенная модель (классификатор).

3.1 Постановка задачи обнаружения аномалий в наборах временных рядов

Пусть имеется набор объектов, где каждый объект есть временной ряд: Т$$1Ыйу=<Т$1$Ыйу1, Т^Ыйу^ ... , Т$$Ыйут> - обучающая выборка. Каждый из временных рядов в обучающей выборке является примером «нормального» протекания некоторого процесса. На основании анализа временных рядов из необходимо построить модель, позволяющую относить временные ряды из экзаменационной выборки Т$>Те51=<Т$>1е511, Т$>1е$12, ... , Т$>1е51„> к нормальным рядам или аномалиям на основании некоторого критерия.

Рассмотрим данную задачу на простом примере. Пусть обучающая выборка ТШф состоит из шести временных рядов (рис. 1):

|4|

Г щ 1 1 у 1

1М 1» 14 144 1М гм

(2)

• И « И 1в 1Ю I» ни 1« 1М ЛИ V 20 « М 100 НО 14С 1« I») И»

(4)

(5)

Рис. 1. Пример обучающей выборки

Экзаменационная выборка TSTest состоит из трех временных рядов (рис. 2).

О 14 4«

1« 119 но ]«о I» г ос

(1) (2) (3)

Рис. 2. Пример экзаменационной выборки

Исходя из приведённой выше постановки задачи, видно, что временные ряды (1), (2) и (6) сильно схожи между собой, а значит, принадлежат одному классу - назовём

его класс 1. Временные ряды (3), (4) и (5) также схожи, но принадлежат другому классу - назовем его класс 2. Из экзаменационного множества (рис. 2) видно, что временной ряд (1), скорее всего, принадлежит классу 2, временной ряд (2) - классу 1. Третий же временной ряд значительно отличается от двух предыдущих и, очевидно, «не похож» ни на один ряд из обучающего множества. При этом можно предположить, что механизм, или закон, по которому был получен временной ряд (3) экзаменационной выборки, отличается от механизма, с помощью которого были получены временные ряды из обучающего множества. Напротив, временные ряды (1) и (2) из экзаменационного множества (рис.2) не будут являться аномалиями, так как по форме очень «похожи» на отдельные временные ряды из обучающего множества.

Рассмотрим два случая [6]: первый случай - обучающее множество содержит примеры единственного класса; второй случай - обучающее множество содержит примеры нескольких классов. В первом случае важен сам факт принадлежности рассматриваемых объектов к классу из обучающего множества, здесь требуется каким-то образом определить «границу», в соответствии с которой временной ряд принадлежит классу из обучающего множества (не является аномалией) или не принадлежит ему (является аномалией). Во втором случае дополнительно нужно определить принадлежность объекта к конкретному классу. В работе рассматривается задача поиска аномалий для этих двух случаев.

3.2 Нормализованное представление временных рядов

Для создания алгоритмов, способных успешно работать с информацией, представленной временными рядами, требуется, безусловно, разработка методов предварительного преобразования самих рядов. Временные ряды, которые представляют данные из разных областей, в различных единицах измерения, требуется привести к некоторым типовым, удобным для дальнейшего анализа формам. Для работы с временными рядами предлагается использовать два способа их представления - нормализованное и символьное. Нормализацией назовём приведение временного ряда к такому виду, что среднее по значениям его параметра было бы равно нулю, а среднеквадратичное отклонение - единице; такое преобразование является необходимым процессом при предварительной обработке данных [8]. Примеры исходного и нормализованного рядов приведены в строках 1 и 2 таблицы 2.

Таблица 2.

Исходное представление временного ряда

Время t 1 2 3 4 5 6 7 8 9

Исходные значения параметра 512 1448 88 1448 1448 1448 1448 1024 512

Нормализованные значения -1.0415 0.748 -1.852 0.748 0.748 0.748 0.748 -0.0627 -0.0415

Символьное представление нормализованных значений C P A C C C C J C

Символьное представление для временного ряда может быть получено из нормализованного представления с помощью алгоритма, изложенного в [8]. Алгоритм носит название «Символьная суммарная аппроксимация» (Symbolic Aggregate approximation или, сокращенно, SAX). Для выполнения преобразования числового ряда в символьную форму вводится алфавит А - конечный набор символов:

А ={a}, a2, .., ü\a\-i} ,

и было сделано допущение о том, что было бы желательно иметь равные вероятности появления символов алфавита A [8]. С этой целью для нормализованного временного ряда ищется упорядоченное множество таких точек B= ßo, ßi, ß2, .., ß|A|-i, ß|A| (ßo = -ю, ß|A| = +ro), которые делили бы область под графиком стандартной нормальной (гауссовой)

кривой N(0, 1) на равные площади, равные 1/|A|. Символьное представление для временного ряда TS получается далее по следующему правилу: если очередной элемент tsj меньше р1, то он отображается в первый символ алфавита A, если элемент tst больше P|A|-1, то он отображается в последний символ алфавита A. Если же элемент tst попадает в интервал (pk, Pk+0, т. е. pk < tSj < pk+1, то он отображается в символ алфавита, соответствующий данному интервалу.

Пример символьного представления (был рассмотрен алфавит А из 20 символов, A={^, B, C, ..., T} ) для временного ряда приведен в таблице 2, строка 3.

3.3. Алгоритм обнаружения аномалий в наборах временных рядов

В данной работе предлагается метод обнаружения аномалий в наборах временных рядов, который является модификацией метода, основанного на точном описании исключения из класса нормальных объектов [9]. Исходная постановка задачи заключается в следующем.

Для заданного множества объектов I необходимо получить множество-исключение 1Х. Для этого на множестве I необходимо ввести следующие функции.

1. Функция неподобия (dissimilarity) D (/у), определенная на Р(1), где Р(1) является множеством всех подмножеств I, /у есть элемент P(I). D (Ij) может быть вычислена для любого I] ^ / и принимает положительные вещественные значения.

2. Функция мощности (cardinality) С(/у), определенная на Р(1) так, что для любых двух подмножеств Ij ^ /, Ik ^ / (j Ф k) выполняется условие: Ij с lk C(lj) < C(Ik). Функция C(lj) принимает положительные вещественные значения.

3. Фактор сглаживания. (smoothing factor) SF(Ij) = C(I Vy) • (D(I)- D(I \ Ij)), который вычисляется для каждого Ij £ /.

Тогда Ix с / будет считаться множеством-исключением для I относительно D и C, если его фактор сглаживания SF(IX) максимален [9].

Неформально, множество-исключение - это наименьшее подмножество из /, которое вносит наибольший вклад в его неподобие и при этом является наименьшим по размеру подмножеством. Фактор сглаживания показывает, насколько может быть уменьшено неподобие множества I, если из него исключить подмножество /у . Функцией неподобия может быть любая функция, которая принимает «небольшие» значение, если элементы множества схожи, и «большие» значения, если элементы не похожи.

Данный метод, на основе которого разработан алгоритм «TS-ADEEP» [10], был адаптирован для задачи поиска аномалий в наборах временных рядов. В качестве множества I рассматриваются множества временных рядов TSStudy U{ TStesti } для каждого TStesti Е TSTest. Здесь TStesti - временной ряд, входящий в экзаменационную выборку.

Функцию неподобия D (Ij) для временных рядов введём следующим образом. Пусть Ij ^ / - подмножество, содержащее несколько временных рядов. Каждый временной ряд из Ij рассматриваем как вектор его значений, поэтому для краткости обозначим далее любой отдельный временной ряд как i е Ij.

Вычислим Ij - среднее значение по координатам векторов для всех временных рядов из Ij. Далее функция неподобия вычисляется как сумма квадратов расстояний между Ij и векторами i е Ij :

D{lj) = £ • liEij\i ~!j\ 2 , где Ij =111е1:ТП , N - число элементов Ij.

2

Функция мощности задаётся формулой

Если множество-исключение 1Х, полученное для I = TSStudy U{ TStesti }, содержит TStesti, то TStesti является аномалией. Для определения аномалий в наборах временных рядов на основе описанного выше метода был разработан алгоритм «TS-ADEEP», подробно описанный в [10].

Был разработан также алгоритм «TS-ADEEP-Multi», который является обобщением алгоритма «TS-ADEEP» для случая обучающего множества, содержащего примеры нескольких классов временных рядов. Обобщение является достаточно очевидным: разделив обучающее множество на подмножества, содержащие примеры только одного класса, и последовательно применив к ним и каждому из временных рядов экзаменационного множества алгоритм «TS-ADEEP», можно определить, является ли рассматриваемый временной ряд аномалией. Если временной ряд является аномалией для каждого подмножества, временной ряд является аномалией для всего обучающего множества. Алгоритм «TS-ADEEP-Multi» приведен в деталях в [11].

4. Результаты экспериментов

4.1 Описание наборов данных, использованных в экспериментах

Моделирование процесса обнаружения аномалий было проведено как на искусственных, так и на реальных данных. В качестве искусственных данных были взяты классические описания временных рядов, использованные в научной литературе: «cyl-inder-bell-funnel» [12] и «control chart» [13] (контрольные карты). В качестве реальных данных - «трафик» - использовались данные, собранные с помощью специальных систем анализа трафика при передаче файлов по различным протоколам.

«Cylinder-bell-funnel» (далее сокращённо CBF) [12], как следует из названия, содержит три различных класса - «цилиндр», «колокол», «воронка».

«Control chart» (далее сокращённо СС) [13] (контрольные карты) содержит шесть различных классов, описывающих различные тенденции изменения показателей процессов (тренды), такие, как цикличность, уменьшение значения параметра, увеличение значения параметра, постоянная величина, резкое возрастание.

«Трафик» [10] - данные, полученные на основе анализа трафика при передаче файлов по протоколу ftp в различных условиях (в том числе, при передаче нескольких файлов по нескольким протоколам). В качестве тестовых данных, помимо прочих, использовались специальным образом сгенерированные временные ряды, имитирующие передачу данных.

4.2 Результаты для классических наборов данных

Чтобы оценить эффективность алгоритма «TS-ADEEP», можно исходить из следующего предположения: обнаружение аномалий с помощью алгоритма является по сути отнесением рассматриваемых объектов к одному из классов - нормальный или аномальный, при этом, с одной стороны, задача облегчается тем, что не нужно в точности определить, к какому из нормальных или аномальных классов (если таковых несколько) относится объект. С другой стороны, этот же факт усложняет задачу тем, что при наличии нескольких нормальных или аномальных классов этим алгоритмом невозможно воспользоваться, так как алгоритм предназначен для обнаружения аномалий в наборах с единственным классом. Таким образом, сравнение точности обнаружения аномалий с точностью классификации на таких же наборах данных в некотором приближении может позволить оценить эффективность алгоритма «TS-ADEEP». Наборы данных, на которых проводился эксперимент, взяты из коллекций данных [12, 13, 15].

Для сравнения будем использовать следующие известные алгоритмы:

- метод K ближайших соседей (Knn);

- алгоритм построения дерева решений C4.5;

- байесовские сети (NB);

- многослойный персептрон, логистическая регрессия (MLP);

- алгоритм Random Forest (RF);

- логистическая регрессия + деревья решений^МХ);

- метод опорных векторов (БУМ).

В таблице 3 приведены результаты, показанные различными алгоритмами классификации при решении задачи поиска аномалий на тестовых задачах.

Таблица 3.

Сравнение точности обнаружения аномалий алгоритмом «ТБ-АБЕЕР» с известными алгоритмами (рассматриваются наборы временных рядов с одним классом)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Набор данных Knn NB C4.5 MLP RF LMT SVM TS-ADEEP (среднее)

Coffee 75.00 67.86 57.14 96.43 75.00 100.00 96.43 82.14

CBF 85.00 89.67 67.33 85.33 83.56 77.00 87.67 78.89

Olive oil 76.67 76.67 73.33 86.67 86.67 83.33 86.67 81.67

CC 88.00 96.00 81.00 91.33 86.00 92.00 92.33 98.03

Beef 60.00 50.00 56.67 73.33 50.00 80.00 66.67 81.33

Среднее 76.93 76.04 67.09 86.61 76.25 86.47 85.95 84.41

(5) (7) (8) (1) (6) (2) (3) (4)

Для оценки эффективности алгоритма «ТБ-АБЕЕР-МиШ» можно исходить из тех же предположений, что и с алгоритмом «ТБ-АБЕЕР». Обнаружение аномалий с помощью алгоритма является по сути отнесением рассматриваемых объектов к одному из нормальных или аномальных классов, при этом не все из них известны заранее. Следует учесть, что при поиске аномалий разделение объектов нужно провести на меньшее число классов, чем их существует в рассматриваемых наборах данных (аномалии и все остальные классы); с другой стороны, этот же факт усложняет задачу тем, что невозможно воспользоваться информацией, касающейся всех классов рассматриваемой предметной области. Оценка эффективности алгоритма «ТБ-АБЕЕР-МиШ» приведена в таблице 4.

Результаты, представленные в таблицах 3 и 4, позволяют сделать вывод о том, что на некоторых наборах данных, как искусственных, так и реальных, предложенные алгоритмы показывают результаты, лучшие, чем перечисленные выше алгоритмы. Для таких задач, как анализ трафика, контрольные карты, и ряд других, алгоритмы «ТБ-АБЕЕР» и «ТБ-АБЕЕР-МиШ» имеют явное преимущество [10].

Таблица 4.

Сравнение точности обнаружения аномалий алгоритмом «ТБ-АБЕЕР-МиШ» с известными алгоритмами (рассматриваются наборы временных рядов с несколькими классами)

Набор данных Knn NB C4.5 MLP RF LMT SVM TS-ADEEP-Multi (среднее)

CBF 85.00 89.67 67.33 85.33 83.56 77.00 87.67 77.89

CC 88.00 96.00 81.00 91.33 86.00 92.00 92.33 91.49

Face(four) 87.50 84.09 71.59 87.50 78.41 77.27 88.64 80.40

Среднее 86.83 89.92 73.31 88.05 82.66 82.09 89.55 83.26

(4) (1) (8) (3) (6) (7) (2) (5)

Рассмотрим далее несколько реальных задач, которые являются достаточно сложными, поскольку отнесение объекта к одному из заданных классов требует анализа нескольких временных зависимостей. К таким задачам относятся задачи распознавания физической активности человека и анализа качества полупроводниковых пластин.

4.3 Результаты распознавания физической активности человека

Набор данных «Физическая активность ежедневной деятельности человека на основе показаний акселерометра» («Activities of Daily Living Recognition with Wrist-worn Accelerometer Data Set», сокращенно «ADL») [14] из репозитория Калифорнийского университета в Ирвайне [15] содержит показания акселерометров, соответствующие различным действиям, которые может выполнять человек. Эти действия, которые обозначены как «примитивы движения человека» (Human Motion Primitives), включают в себя следующие: чистить зубы, подниматься по ступенькам, причесываться, спускаться по ступенькам, пить воду из стакана, есть мясо (с вилкой и ножом), есть суп (ложкой), вставать с кровати, ложиться в кровать, наливать воду, садиться на стул, вставать со

стула, звонить по телефону, ходить. При записи показаний акселерометра сохраняются проекции ускорения на три перпендикулярные оси (они обозначаются далее ось X, ось У, ось X) и, следовательно, для каждого действия имеется набор из трёх временных рядов, который описывает это действие.

В данном случае ставится задача распознавания или классификации объектов (действий, ситуаций), представленных набором временных рядов. По предъявленным временным рядам нужно определить, какой вид деятельности выполнял человек.

Использование всех трёх параметров для классификации на заданных наборах данных в среднем может дать точность классификации объектов выше, чем при использовании только одного параметра (см. таблицу 5). Тем не менее, использование данных по одной оси позволяет получить точность классификации близкую к 100% (ось X, ось X).

Таблица 5

Точность классификации (%) объектов из набора данных «Физическая активность ежедневной деятельности человека на основе показаний акселерометра» (АОЬ) в зависимости от выбранного параметра

Точность классификации (%) объектов из набора данных «Физическая активность ежедневной деятельности человека на основе показаний акселерометра» (ЛЭЬ) в зависимости от выбранного параметраПараметр Точность классификации, %. Алгоритм TS-ADEEP

Классы «вставать со стула», «садиться на стул»

1 (ось X) 97.09

1 (ось Y) 65.96

1 (ось Z) 98.84

Классы «вставать с кровати», «ложиться в кровать»

1 (ось X) 99.01

1 (ось Y) 58.42

1 (ось Z) 96.04

Классы «подниматься по лестнице», «спускаться с лестницы»

1 (ось X) 70.63

1 (ось Y) 71.43

1 (ось Z) 65.87

4.4 Результаты распознавания дефектов полупроводниковых пластин

Набор данных «Полупроводниковая пластина» (wafer) из репозитория Калифорнийского университета в Риверсайде [16], содержит временные ряды, соответствующие показаниям датчиков при производстве полупроводниковых пластин. Полупроводниковая пластина - полуфабрикат в технологическом процессе производства полупроводниковых приборов и микросхем. Представляет собой тонкую (250—1000 мкм) пластину из полупроводникового материала диаметром до 450 мм, на поверхности которой с помощью операций планарной технологии формируется массив дискретных полупроводниковых приборов или интегральных схем. После создания необходимой полупроводниковой структуры пластину разрезают на отдельные кристаллы (чипы). Производство таких пластин (травление) - сложный технологический процесс, включающий в себя более 250 этапов обработки, на каждом из которых может произойти ухудшение характеристик или надёжности, уменьшение выхода продукта или даже отбраковка, если параметры вышли за требуемые пределы. Наиболее критичными при мониторинге процесса производства полупроводниковых пластин являются 6 параметров [17]: радиочастотная мощность прямой волны, радиочастотная мощность отражённой волны, давление в камере, интенсивность излучения плазмы с длиной волны 405 нм интенсивность излучения плазмы с длиной волны 520 нм, напряжение смещения постоянного тока. Среди этих параметров экспертами выделены два, которые по результатам экспериментов показали наиболее высокие результаты по определению качественных и бракованных изделий: это интенсивность излучения плазмы с длиной волны 405 нм и 520

нм. Анализ описанных выше шести параметров позволяет различать классы качественных и бракованных пластин.

Было проведено программное моделирования процесса поиска аномалий для классификации объектов из набора данных «wafer». Практически с помощью алгоритма «TS-ADEEP» решалась задача разделения предъявленных объектов на классы качественных и бракованных пластин (см. таблицу 6).

Таблица 6.

Точность классификации (%) объектов для набора данных «wafer» в зависимости от выбранного параметра алгоритмом «TS-ADEEP»

Параметр Точность классификации (%)

1 91.06

2 91.49

3 87.79

4 90.71

5 90.63

6 90.89

Бракованные пластины рассматривались как аномалии. Было установлено, что каждый параметр из рассмотренных, представляющий временной ряд, позволяет с точностью, близкой к 90%, различать эти два класса изделий. При этом установлено, что ни один из шести параметров не имеет решающего преимущества перед другими.

5. Заключение

В работе рассмотрена задача поиска аномалий среди наборов временных рядов В разработанных алгоритмах TS-ADEEP и TS-ADEEP-Multi для определения аномалий в наборах временных рядов были исследованы случаи, когда обучающее множество содержало примеры как одного, так и нескольких классов объектов. Проведено программное моделирование предложенных алгоритмов. Дано сравнение результатов, показанных этими алгоритмами, с результатами ряда других алгоритмов, способных решать аналогичные задачи. Практические результаты, полученные с использованием алгоритмов TS-ADEEP и TS-ADEEP-Multi, показали, что алгоритмы входят в пятерку наиболее успешных, а на отдельных наборах данных показывают наилучшие результаты по точности классификации. С помощью данных алгоритмов успешно решён ряд задач, имеющих практическую направленность.

Литература

1. Финн В.К. Интеллектуальные системы и общество: идеи и понятия // Научн.- Техн. Информ. сер. 2. № 10. 1999. с. 6-20.

2. Roddick J. F., Spiliopoulou M. A bibliography of temporal, spatial and spatio-temporal data mining research // SIGKDD Explor. Newsl. 1999. Vol. 1. No. 1. pp. 34-38. http://doi.acm.org/10.1145/846170.846173.

3. Lin W., Orgun M. A., Williams G. J. An Overview of Temporal Data Mining // Proceedings of the 1st Australasian Data Mining Workshop. 2002. pp. 1-7.

4. Antunes C. M., Oliveira A. L. Temporal data mining: an overview // Eleventh International Workshop on the Principles of Diagnosis. San-Francisco, 2001, pp. 1-13.

5. Ярушкина Н.Г., Афанасьева Т.В., Перфильева И.Г. Интеллектуальный анализ временных рядов. - Инфра-М., Форум, 2016. 160 с.

6. Varun Chandola, Arindam Banerjee, Vipin Kumar. Anomaly Detection - A Survey // ACM Computing Surveys. 2009. Vol. 41(3). pp. 1-72.

7. Вагин В.Н., Головина Е.Ю., Загорянская А.А., ФоминаМ.В. Достоверный и правдоподобный вывод в интеллектуальных системах / Под ред. В.Н. Вагина, Д. А. Поспелова. 2-е издание дополненное и исправленное. - М.: Физматлит, 2008. 712 с.

8. Lin J., Keogh E., Lonardi S. and Chiu B. A Symbolic Representation of Time Series with Implications for Streaming Algorithms // Proceedings of the 8th ACM SIGMOD Workshop on Research Issues in Data Mining and Knowledge Discovery, 2003. pp. 2-11.

ИТН0У»2017'2

11

9. Arning A., Agrawal R., Raghavan Pr. A Linear Method for Deviation Detection in Large Databases // Proceedings of KDD'1996. 1996, pp. 164-169.

10. Антипов С.Г., Фомина М.В. Проблема обнаружения аномалий в наборах временных рядов // Программные продукты и системы. 2012. № 2. c.78-82.

11. Marina Fomina, Sergey Antipov, Vadim Vagin Methods and algorithms of anomaly searching in collections of time series // Proceedings of the first International Scientific Conference Intelligent Information Technologies for Industry (IITI'16) , Vol.1, pp.63-73 // Series Advances in Intelligent Systems and Computing. -Springer Ferlag, Vol. 450. 2016.

12. Naoki Saito. Local feature extraction and its application using a library of bases. //PhD thesis. Yale University, December. 1994.

13. Pham D.T., Chan A.B. Control Chart Pattern Recognition using a New Type of Self Organizing Neural Network // Proc. Of Institution of Mechanical Engineering. Vol. 212. No. 1. 1998. Pp.115-127.

14. Bruno B., Mastrogiovanni F., Sgorbissa A., Vernazza T., Zaccaria R. Analysis of human behavior recognition algorithms based on acceleration data // IEEE Int. Conf. on Robotics and Automation (ICRA). 2013. pp. 1602-1607.

15. UCI Repository of Machine Learning Datasets. // http://archive.ics.uci.edu/ml/.

16. Chen Yanping, Keogh Eamonn, Hu Bing et al. The UCR Time Series Classification Archive-2015. July. // www.cs.ucr.edu/~eamonn/time_series_data

17. Olszhewski R. Generalized Feature Extraction for Structural Pattern Recognition in Time-Series Data: Ph.D thesis // School of Computer Science. - Carnegie Mellon University, Pittsburgh, 2001.125 p.

Methods of diagnostics of dynamic objects based on the analysis of time series Sergej Genadjevich Antipov,

Vadim Nikolaevich Vagin, Dr. of Tech. Sciences, prof., Department. PM, National Research University "MEI"

Marina Vladimirovna Fomina, Cand. Tech. Sciences, Assoc. Cafe. BT, National Research University "MEI"

The paper deals with the problem of detecting anomalies in sets of time series. The statement of the problem is given. An algorithm is proposed for the case when the training set contains sets of time series of several classes. The results of software simulation for real problems are given. Comparison with the results shown by a number of well-known algorithms is given.

Keywords: time series, inductive concept formation, search for exceptions, classification

УДК 681.3.068

ОЦЕНКА КАЧЕСТВА WEB-СЕРВИСОВ

Вера Львовна Волушкова, канд. техн. наук, доцент, e-mail: w2lvera@gmail.com, Тверской государственный университет, http://university. tversu.ru

Объединение отдельных Web-сервисов в потоки предполагает, что приложение может оптимально выбрать поставщиков отдельных сервисов в соответствии с требованиями качества. В вероятностной среде оценка качества составного Web-сервиса не всегда может напрямую вычисляться по оценкам качества его составных частей. Модель оценки качества сервисов учитывает особенности каждого атомарного Web-сервиса. Модель качества основана на вероятностном подходе и рассматривает 5 базовых структурных конструкций, каждая из которых организует сервисы-компоненты уникальным образом. При алгоритмической реализации модели возникают трудности с ростом области определения результирующей случайной величины. Автор предлагают сократить этот рост с помощью группирующей случайной величины.

i Надоели баннеры? Вы всегда можете отключить рекламу.