Архивация данных в сенсорных сетях методом кластеризации

Козлов Артем Александрович

УДК 004.627

А.А. Козлов

АРХИВАЦИЯ ДАННЫХ В СЕНСОРНЫХ СЕТЯХ МЕТОДОМ КЛАСТЕРИЗАЦИИ

Рассмотрена проблема безопасности на шахтах, даны практические варианты решения данной проблемы с использованием сенсорных сетей, а также рассмотрен EM-алгоритм кластеризации и его применение в проблеме архивирования данных в сенсорных сетях.

Ключевые слова: сенсорные сети, кластеризация, безопасность на шахтах.

В горной промышленности остро стоит проблема безопасности шахтеров. В среднем один млн. тонн угля ровняется двум жизням шахтеров [1]. Существует возможность применения решений, предупреждающих чрезвычайные ситуации на основе технологии беспроводных сенсорных сетей, на шахтах. На основе этой технологии вдоль всей шахты прокладывается сеть из датчиков, фиксирующих параметры шахтной атмосферы, а также множество других физических параметров. Также в этих сетях используются мобильные датчики, позволяющие определять местонахождение шахтеров, состояние их здоровья и контактировать с ними. Объединенные в беспроводную сен-

сорную сеть, датчики образуют распределенную, самоорганизующуюся систему сбора, обработки и передачи информации. Пример развертывания подобной сети представлен на рисунке.

Достоинства систем на основе сенсорных сетей:

• возможность расположения в труднодоступных местах, куда сложно и дорого прокладывать обыкновенные проводные решения;

• оперативность и удобство развертывания и обслуживания системы;

• надежность сети в целом - в случае выхода из строя одного из сенсоров, информация передается через соседние элементы;

• возможность добавления или исключения любого количества устройств из сети;

• длительное время работы без замены элементов питания.

Если принято решение об использовании сенсорных сетей, то неизбежно возникнет вопрос о хранении данных получаемых данной сетью. Их можно просто удалить, но тогда теряется статистика о климатических параметрах в шахте в динамике, а также пропадает возможность использовать старые данные для расследования инцидентов на шахте. Хранить все полученные данные не представляется возможным в крупных сенсорных сетях, т.к. для этого требуются крайне высокие материальные затраты на покупку и содержание носителей информации, в этом случае сенсорная сеть становится не рентабельной.

Оптимальным решением данной проблемы становится архивация старых данных с целью уменьшения их объема. Структура собранных данных сенсорных сетей представляет собой набор записей параметров событий, распределенных по временной шкале. Есть возможность агрегировать множество старых данных в меньшее количество таких же записей с указанием «веса» этой записи в системе. Под «весом» мы понимаем влияние отдельно взятой записи на общую статистику.

Главным условием при агрегировании является сохранение погрешности итоговых данных в установленных рамках. Мы можем сократить часть данных без появления погрешности, просто слив одинаковые записи в одну, но это дает очень малый процент сжатия данных (меньше 1%, эта цифра сильно зависит от типа собираемых данных и топологии сети).

Если нам необходимо сжать подобным образом данные в 100 и более раз, то нам необходимо выработать 2 алгоритма:

• алгоритм сравнения похожести группы записей;

• алгоритм порождения конечной записи на основе имеющейся группы записей.

Максимальная степень сжатия очень сильно зависит от структуры данных.

Алгоритм порождения конечной записи для каждой сети крайне индивидуален и зависит как правило от множества факторов. Примером наиболее простой реализации данного алгоритма может быть выборка среднего или наиболее популярного значения из представленных. Но данный пример порождает большую погрешность и чаще всего заменяется на более сложные алгоритмы.

Как алгоритм сравнения похожести группы записей можно использовать один из множества алгоритмов кластеризации или некий симбиоз нескольких алгоритмов кластеризации. Часто для решения подобной задачи в сенсорных сетях используется алгоритм максимизации ожидания (ЕМ-алгоритм)[2]. ЕМ-алгоритм лежит в основе достаточно эффективной процедуры поиска кластеров, основанной на приближении обучающей выборки смесью нормальных распределений.

В основе идеи ЕМ-алгоритма лежит предположение, что исследуемое множество данных может быть смоделировано с помощью линейной комбинации многомерных нормальных распределений, а целью является оценка параметров распределения, которые максимизируют логарифмическую функцию правдоподобия, используемую в качестве меры качества модели. Иными словами, предполагается, что данные в каждом кластере подчиняются определенному закону распределения, а именно, нормальному распределению. С учетом этого предположения можно определить параметры - мате-

матическое ожидание и дисперсию, которые соответствуют закону распределения элементов в кластере, наилучшим образом «подходящему» к наблюдаемым данным.

Таким образом, мы предполагаем, что любое наблюдение принадлежит ко всем кластерам, но с разной вероятностью. Тогда задача будет заключаться в «подгонке» распределений смеси к данным, а затем в определении вероятностей принадлежности наблюдения к каждому кластеру. Очевидно, что наблюдение должно быть отнесено к тому кластеру, для которого данная вероятность выше.

Среди преимуществ ЕМ-алгоритма можно выделить следующие:

• мощная статистическая основа;

• линейное увеличение сложности при росте объема данных;

• устойчивость к шумам и пропускам в данных;

• возможность построения желаемого числа кластеров;

• быстрая сходимость при удачной инициализации.

Однако алгоритм имеет и ряд недостатков. Во-первых, предположение о нормальности всех измерений данных не всегда выполняется. Во-вторых, при неудачной инициализации сходимость алгоритма может оказаться медленной. Кроме этого, алгоритм может остановиться в локальном минимуме и дать квазиоптимальное решение [3].

1. URL: http://gloriaputina.livejournal. com/84092.html

2. Parameter-Based Data Aggregation for Statistical Information Extraction in Wireless Sensor Networks, «Vehicular Technology, IEEE Transactions on», Oct. 2010, 59 Issue: 8,

_ СПИСОК ЛИТЕРАТУРЫ

page(s): 3992-4001, INSPEC Accession Number: 11588227.

3. Королев В.Ю. ЕМ-алгоритм, его модификации и их применение к задаче разделения смесей вероятностных распределений. Теоретический обзор. - М.: ИПИРАН, 2007. ЕИЗ

КОРОТКО ОБ АВТОРЕ _

Козлов Артем Александрович - аспирант, e-mail: temapodolsky@gmail.com, МГИ НИТУ «МИСиС».

UDC 004.627

BACKING UP DATA IN SENSOR NETWORKS USING CLUSTERING

Kozlov A.A., Graduate Student, e-mail: temapodolsky@gmail.com,

Moscow Mining Institute, National University of Science and Technology «MISiS».

This article describes an issue of mine safety, the sensor networks and EM-clustering algorithm.

Key words: sensor networks, clustering, security at the mines.

REFERENCES

1. URL: http://gloriaputina.livejournal.com/84092.html

2. Parameter-Based Data Aggregation for Statistical Information Extraction in Wireless Sensor Networks, «Vehicular Technology, IEEE Transactions on», Oct. 2010, 59 Issue: 8, page(s): 3992-4001, INSPEC Accession Number: 11588227 .

3. Korolev V.Yu. EM-algoritm, ego modifikatsii i ikh primenenie k zadache razdeleniya smesei vero-yatnostnykh raspredelenii. Teoreticheskii obzor (EM algorithm, its modifications and their application to the problem on separation of mixtures of density distributions. Technical review), Moscow, IPIRAN, 2007.

Архивация данных в сенсорных сетях методом кластеризации Текст научной статьи по специальности «Компьютерные и информационные науки»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Козлов Артем Александрович

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Козлов Артем Александрович

Backing up data in sensor networks using clustering

Текст научной работы на тему «Архивация данных в сенсорных сетях методом кластеризации»