Научная статья на тему 'Конфиденциальный кластерный анализ методом самоорганизующихся карт при вертикальном секционировании данных'

Конфиденциальный кластерный анализ методом самоорганизующихся карт при вертикальном секционировании данных Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
63
10
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КОНФИДЕНЦИАЛЬНЫЕ МНОГОСТОРОННИЕ ВЫЧИСЛЕНИЯ / КРИПТОГРАФИЧЕСКИЕ ПРИМИТИВЫ / CRYPTOGRAPHIC PRIMITIVES / КЛАСТЕРНЫЙ АНАЛИЗ ДАННЫХ / DATA CLUSTERING / САМООРГАНИЗУЮЩИЕСЯ КАРТЫ / SELF-ORGANIZED MAPS / MULTIPARTY COMPUTATIONS

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Вашкевич А.В., Жуков В.Г.

Описывается алгоритм самоорганизующихся карт для проведения конфиденциального кластерного анализа. Авторами проанализировано существующее решение для обеспечения конфиденциальности в самоорганизующихся картах и предложено решение, позволяющее проводить анализ при любом количестве участников.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Вашкевич А.В., Жуков В.Г.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Privacy-preserving clustering via self-organized map over vertically partitioned data

An algorithm of self-organizing maps for providing privacy-preserving clustering is described. The existing solution of preserving privacy in self-organizing maps is analised and the solution that allows to analyse data with any number of participants is proposed.

Текст научной работы на тему «Конфиденциальный кластерный анализ методом самоорганизующихся карт при вертикальном секционировании данных»

Методы и средства защиты информации

УДК 004.056.5

КОНФИДЕНЦИАЛЬНЫЙ КЛАСТЕРНЫЙ АНАЛИЗ МЕТОДОМ САМООРГАНИЗУЮЩИХСЯ КАРТ ПРИ ВЕРТИКАЛЬНОМ СЕКЦИОНИРОВАНИИ ДАННЫХ

А. В. Вашкевич, В. Г. Жуков

Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева Российская Федерация, 660014, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31 E-mail: alex23-5@yandex.ru, zhukov.sibsau@gmail.com

Описывается алгоритм самоорганизующихся карт для проведения конфиденциального кластерного анализа. Авторами проанализировано существующее решение для обеспечения конфиденциальности в самоорганизующихся картах и предложено решение, позволяющее проводить анализ при любом количестве участников.

Ключевые слова: конфиденциальные многосторонние вычисления, криптографические примитивы, кластерный анализ данных, самоорганизующиеся карты.

PRIVACY-PRESERVING CLUSTERING VIA SELF-ORGANIZED MAP OVER VERTICALLY PARTITIONED DATA

A. V. Vashkevich, V. G. Zhukov

Siberian State Aerospace University named after academician M. F. Reshetnev 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660014, Russian Federation E-mail: alex23-5@yandex.ru, zhukov.sibsau@gmail.com

An algorithm of self-organizing maps for providing privacy-preserving clustering is described. The existing solution of preserving privacy in self-organizing maps is analised and the solution that allows to analyse data with any number of participants is proposed.

Keywords: multiparty computations, cryptographic primitives, data clustering, self-organized maps.

Самоорганизующаяся карта (СОК, self-organized map, SOM) - метод кластерного анализа, основанный на идее нейронной сети, учитывающей взаимное расположение нейронов [1]. Ее удобно рассматривать как двухмерную сетку узлов, размещённых в многомерном пространстве и соединённых между собой связями. Значения каждого узла инициализируются случайным образом. После этого узлы начинают перемещаться в пространстве согласно следующему алгоритму:

1. Случайным образом выбирается объект входных данных.

2. Производится поиск ближайшего к объекту узла на карте.

3. Координаты этого узла корректируются. Также корректируются (но меньше) и координаты его соседей.

4. Алгоритм повторяется определённое число раз. При этом коррекция соседних с «победителем» узлов становится всё меньше с каждым тактом согласно функции изменения координат узлов.

На выходе алгоритма строится карта: двумерная сетка узлов, размещённая в многомерном пространстве. Для изображения положения узлов зачастую используется раскрашивание карты (см. рисунок). Такие же карты строятся и для каждого из измерений.

При вертикальном секционировании данных несколько аналитиков обладают разными сведениями (измерениями) об одних и тех же объектах данных. Возможна ситуация, когда аналитики захотят провести совместный анализ объектов данных, не раскрывая свои частные измерения друг другу. В этом случае

используются так называемые криптографические примитивы - относительно простые математические операции, проводимые совместно несколькими участниками без раскрытия входных аргументов с помощью криптографии. Вместе набор криптографических примитивов составляет алгоритм конфиденциальных многосторонних вычислений [2].

Существует множество алгоритмов конфиденциальной кластеризации [3], однако протокол для конфиденциальной самоорганизующейся карты найден только один, при этом он рассчитан только на двух участников [4].

Пример сетки нейронов и пример итоговой карты одного из измерений

Решетневскуе чтения. 2014

Необходимость применения решения авторов только для двух участников обусловлена тем, что защищаются все координаты узлов сети (например, приходилось применять криптографию для пересчёта координат узлов) и применяемыми из-за этого криптографическими примитивами, подходящими только для двух участников.

В предыдущих исследованиях был модифицирован алгоритм конфиденциальной кластеризации k-means [5], являющийся одним из самых простых алгоритмов кластеризации. В ходе работ были модифицированы протокол безопасного скалярного произведения (применяемый при малом количестве участников) и протокол безопасной суммы (при большом количестве). Одной из особенностей данной работы было то, что координаты центров кластеров не защищались, поскольку хранились локально (каждый участник хранил только свои измерения центров кластеров, что позволяло часть операций проводить локально), а это не раскрывало одному участнику данные другого.

Анализ алгоритма построения самоорганизующихся карт показал, что если применить тот же метод, что и в предыдущих исследованиях, и не делать конфиденциальными координаты узлов сетки, то для поиска ближайшего к объекту узла можно применить уже модифицированные криптографические примитивы (безопасного скалярного произведения и безопасной суммы). Это позволит проводить конфиденциальную кластеризацию методом самоорганизующихся карт для любого количества участников, а для двоих участников позволит проводить её быстрее, так как уменьшит количество криптографических распределённых операций.

В ходе дальнейших исследований будут изучены и защищены другие алгоритмы кластеризации, например, алгоритм кластеризации c-means и алгоритмы иерархической кластеризации.

Библиографические ссылки

1. Зиновьев А. Ю. Визуализация многомерных данных / Краснояр. гос. техн. ун-та. Красноярск, 2000. 180 с.

2. Шутый Р. С. Рандомизированные протоколы, применяемые для выполнения конфиденциальных

УДК 004.056

многосторонних вычислений в компьютерных сетях / Санкт-Петербург. гос. ун-т телекоммуникаций им. проф. М. А. Бонч-Бруевича. СПб., 2009. 170 с.

3. Meskine F., Bahloul S. Privacy Preserving K-means Clustering: A Survey Research // International Arab Journal of Information Technology. 2012. Vol. 9, no. 2. P. 194-200.

4. Han S., Ng W. K. Privacy-Pre serving Self-Organizing Map // Proceedings of the 9th International Conference on Data Warehousing and Knowledge Discovery. 2007. P. 428-437.

5. Zhukov V. G., Vashkevich A. V. Privacy-preserving Protocol over Vertically Partitioned Data in Multiparty K-means Clustering // Middle-East Journal of Scientific Research. 2013. Vol. 17, no. 7. P. 992-997.

References

1. Zinovyev A. Y. Vizualizatsiya mnogomernykh dannykh (Visualization of multidimensional data). Krasnoyarsk State Technological University, 2000, 180 p.

2. Shutyy R. S. Randomizirovannye protokoly, primenyaemye dlya vypolneniya konfidentsial'nykh mnogostoronnikh vychisleniy v komp'yuternykh setyakh (Randomized protocols used to perform secure multiparty computations in computer networks). The Bonch-Bruevich Saint-Petersburg State University of Telecommunications, 2009, 170 р.

3. Meskine F., Bahloul S. Privacy Preserving K-means Clustering: A Survey Research, International Arab Journal of Information Technology, 2012, vol. 9, no. 2, p. 194-200.

4. Han S., Ng W. K. Privacy-Pre serving Self-Organizing Map, Proceedings of the 9th International Conference on Data Warehousing and Knowledge Discovery, 2007, p. 428-437.

5. Zhukov V.G., Vashkevich A.V. Privacy-preserving Protocol over Vertically Partitioned Data in Multiparty K-means Clustering, Middle-East Journal of Scientific Research, 2013, vol. 17 no. 7, p. 992-997.

© Вашкевич А. В., Жуков В. Г., 2014

ПРИМЕНЕНИЕ АГЕНТНО-ОРИЕНТИРОВАННОГО ПОДХОДА В ЗАДАЧЕ РАЗРАБОТКИ ГИБРИДНОЙ АРХИТЕКТУРЫ СИСТЕМЫ ЗАЩИТЫ ИНФОРМАЦИИ*

Б. В. Волошин, В. Г. Жуков

Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева Российская Федерация, 660014, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31 E-mail: bodia@bk.ru, zhukov.sibsau@gmail.com

Рассматриваются современные подходы к построению архитектуры системы защиты информации организации, а также их преимущества. Предлагается создание архитектуры системы защиты информации на базе гибридного подхода построения для использования преимуществ каждого из них.

Ключевые слова: многоагентные системы, иерархическая архитектура, системы защиты информации.

*Работа поддержана грантом Президента РФ молодым кандидатам наук, договор № 14.124.13.473-МК от 04.02.2013.

i Надоели баннеры? Вы всегда можете отключить рекламу.