Научная статья на тему 'Метрика для анализа big data'

Метрика для анализа big data Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
1460
204
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Хаханов Владимир Иванович, Обризан Владимир Игоревич, Мищенко Александр Сергеевич, Tamer Bani Amer

Предлагается инфраструктура обеспечения параллельного анализа big data для поиска, распознавания и принятия решений на основе использования предложенной метрики киберпространства. Используется метрика анализа киберпространства (big data), которая характеризуется наличием единственной логической xor-операции для определения киберрасстояния путем циклического замыкания не менее одного объекта, что дает возможность на порядок повысить быстродействие анализа данных.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Хаханов Владимир Иванович, Обризан Владимир Игоревич, Мищенко Александр Сергеевич, Tamer Bani Amer

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Metrics for analyzing Big Data

An infrastructure for parallel analyzing big data is proposed to search, pattern recognition and decision-making through the use of the developed cyberspace metric. The metric of cyberspace (big data) analysis is used; it is characterized by the presence of a single logical xor-operation to determine the cyber distance by cyclical closing at least one object, which allows significantly increasing the speed of data analysis.

Текст научной работы на тему «Метрика для анализа big data»

УДК004:519.713

МЕТРИКА ДЛЯ АНАЛИЗА BIG DATA

ХАХАНОВ В.И., МИЩЕНКО А.С.,

ОБРИЗАН В.И., TAMER BANIAMER_______________

Предлагается инфраструктура обеспечения параллельного анализа big data для поиска, распознавания и принятия решений на основе использования предложенной метрики киберпространства. Используется метрика анализа киберпространства (big data), которая характеризуется наличием единственной логической xor-операции для определения киберрасстояния путем циклического замыкания не менее одного объекта, что дает возможность на порядок повысить быстродействие анализа данных.

1. Введение

Киберфизическая система призвана сделать активной концепцию big data, рассматривая большие данные во взаимодействии с киберсистемами (облаками) управления, ориентированными на поиск, распознавание и принятие решений. Структурное содержание CPS -совокупность коммуникационно связанных реальных и виртуальных компонентов с выраженными функциями адекватного физического цифрового мониторинга и оптимального облачного компьютерного киберуправления для обеспечения качества жизни, продукции, процессов или сервисов в заданных условиях ограничений на время и ресурсы. CPS включает компоненты: Cyber Control, Internet of Things или Cloud, Security, Intelligence, Big Data and Services, Digital Monitoring, Cyber Managing, Physical Smart Everything, Nature, Social, and Tech World. Регуляторные отношения (Relationship) между компонентами CPS формируются законами, уставами предприятий и организаций, морально-этическими правилами поведения внутри социальной группы. Направление движения RoadMap - Harmony of Human, Nature and Tech киберфизической системы человечества можно определить как достижение такого интегрального уровня развития киберфизических компонентов, который обеспечит гармонию жизни человека с природой и техникой (созданным миром - Created World).

Big Data - технологическая культура киберпространства, направленная на формирование динамически развивающейся инфраструктуры киберфизической экосистемы планеты путем семантической структуризации больших потоков (объемов) гетерогенных данных на основе использования интеллектуальных быстродействующих специализированных облачных фильтров параллельного мониторинга и метрического анализа извлекаемой информации для online управления физическими и виртуальными процессами.

Big data driven киберфизическая система управления физическими процессами имеет инновационные отличия от существующих решений, в частности, использование нецифровой булеан-метрики для структурного и скалярного оценивания процессов и явлений.

Цель big data - выращивание в киберпространстве культурного слоя инфраструктуры метрико-семантически упорядоченной легко доступной полезной reusable информации за счет разработки виртуальных облачных сервисов, выполняющих роль быстродействующих интеллектуальных фильтров в процессах поиска, распознавания и принятия решений.

Отсюда одна из задач технологической культуры big data - создание метрик измерения (дифференцирования) процессов и явлений в киберпространстве для построения быстродействующих семантических и оценивающих фильтров поиска полезной информации.

2. Метрика для анализа big data

Идея, способствующая повышению быстродействия анализа big data - убрать из виртуального компьютера «тяжеловесную» арифметику и трансформировать освободившиеся ресурсы для создания параллельного виртуального мультипроцессора векторно-логических вычислений в целях поиска, распознавания и принятия решений с помощью примитивных операций: and, or, not, xor. Специализация компьютерного изделия, ориентированная на использование только логических операций, дает возможность существенно (х100) повысить быстродействие решения неарифметических задач. Исключение арифметических операций, использование параллелизма алгебры векторной логики, мультипроцессорность архитектуры создают эффективную инфраструктуру, которая объединяет математическую и технологическую культуру для решения прикладных задач анализа киберпространства. Рыночная привлекательность логического виртуального мультипроцессора (Logical Vitual MultiProcessor - LVMP) определяется сотнями старых и новых логических по своей природе задач, которые в настоящее время решаются не всегда неэффективно на избыточных универсальных компьютерах с мощными арифметическими процессорами.

Цель исследов ания - существенное повышение быстродействия процедур поиска, распознавания и принятия решений путем мультипроцессорной и параллельной реализации ассоциативно-логических векторных операций для анализа больших данных в векторном логическом пространстве без использования арифметических операций.

Для достижения поставленной цели необходимо разработать неарифметическую метрику оценивания векторно-логических решений в кибернетическом big data пространстве.

Объектом исследования является инфраструктура процессов поиска, распознавания и принятия решений в big data пространстве на основе использования алгебры векторной логики, квантовых структур данных, вычислительной архитектуры анализа ассоциативно-логических структур данных и неарифметического интегрального критерия качества.

В процессе исследований использованы источники научно-технической информации: ассоциативно-ло-

26

РИ, 2014, № 2

гические структуры данных для решения информационных задач [2]; аппаратная платформа векторнологического анализа информации; модели и методы дискретного анализа и синтеза объектов киберпространства [3], а также кубитное представление дискретных объектов [1].

Дискретное векторно-логическое пространство (киберпространство) - совокупность взаимодействующих по соответствующей метрике информационных процессов и явлений, описываемых векторами логических переменных и использующих в качестве носителя компьютерные системы и сети.

Метрика - способ измерения расстояния в киберпространстве между компонентами процессов или явлений, описанных векторами логических переменных, задаваемых в булевом или булеановом (многозначном) алфавите. Расстояние в киберпространстве - это xor-отношение (симметрической разности) между отличным от нуля числом векторов, обозначающих компоненты процесса или явления, что отличает его от кодового расстояния по Хэммингу. Расстояние, производная (булева), степень изменения, различия или близости есть изоморфные понятия, связанные с определением отношения двух компонентов процесса или явления. Понятие близости (расстояния) компонентов в киберпространстве есть мера их различия. Процедуры сравнения, измерения, оценивания, распознавания, тестирования, диагностирования, идентифицирования есть способ определения отношения при наличии не менее, чем двух объектов.

Компонент пространства представлен k-мерным (двоичным) вектором a = (ai,...,aJ,...,ak),aJ є {0,1},

где каждая его координата определена в двоичном алфавите, 0 - «ложь», 1 - «истина». Нуль-вектор есть k-мерный кортеж, все координаты которого равны

нулю: aj = °,j = 1,k.

двумя векторами - как число единиц вектора d(a,b). Иначе: метрика в векторного логического двоичного пространства есть равная нуль-вектору xor-сумма расстояний между конечным числом точек (вершин) графа, образующих цикл. Сумма n-мерных двоичных векторов, задающих координаты точек циклической фигуры, равна нуль-вектору. Свертка пространства в нуль-вектор представляет интерес для многих практических задач, включая: диагностирование и исправление ошибок при передаче информации по каналам связи; поиск дефектов в цифровых изделиях на основе двузначных и многозначных таблиц неисправностей. Кроме того, на основе введенной метрики можно дать более формальное определение киберпространства, которое является векторно-логическим, нормируемым в -метрикой, где xor-сумма расстояний между конечным числом точек цикла равна нуль-вектору. Определение метрики ставит во главу угла не элементы множества, а отношения, что позволяет сократить систему аксиом (тождественности, симметрии и транзитивного треугольного замыкания) с трех до одной и распространить ее действие на сколь угодно сложные конструкции n-мерного логического пространства. Классическое задание метрики для определения взаимодействия одной, двух и трех точек в векторном логическом пространстве является частным случаем в -метрики при i=1,2,3 соответственно:

d1 = 0 о a = b;

M = {

d1 © d2 = 0 о d(a,b) = d(b,a);

(2)

d1 © d2 © d3 = 0 о d(a,b) © d(b,c) = d(a,c).

Векторно-логический транзитивный треугольник (2) имеет полную аналогию численному измерению расстояния в метрическом M-пространстве, которое задается системой аксиом, определяющей взаимодействие одной, двух и трех точек в любом пространстве:

Метрика в кибернетического пространства определяется единственным равенством, которое формирует нуль-вектор для xor-суммы расстояний di между ненулевым и конечным числом точек (объектов), замкнутых в цикл

в = ©d = 0, (1)

где n - количество (целое число) расстояний между компонентами (векторами) пространства, составляющими цикл D = (d1,...,di,...,dn), di - вектор

расстояния, соответствующий ребру цикла, соединяющему два компонента (вектора) a,b пространства, который далее обозначается без индекса как d(a,b). Расстояние между двумя объектами (векторами) a и

b есть производный вектор: d(a,b) = (aj © bj)1k .

Векторному значению расстояния соответствует норма - скалярное расстояние по Хэммингу между

d(a,b) = 0 о a = b;

M = <d(a, b) = d(b, a);

d(a, b) © d(b, c) > d(a, c).

(3)

Специфика аксиомы треугольника (3) метрического пространства заключается в численном (скалярном) сравнении расстояний трех объектов, когда интервальная неопределенность ответа - две стороны треугольника могут быть больше либо равны третьей -малопригодна для определения точной длины последней стороны. Векторно-логическое пространство устраняет данный недостаток, полностью исключает степень неопределенности в бинарном отношении детерминированных состояний процессов или явлений. В этом случае численная неопределенность третьей стороны треугольника в векторном логическом пространстве приобретает форму точного двоичного вектора, который характеризует расстояние между двумя объектами и вычисляется на основе знания расстояний двух других сторон треугольника:

РИ, 2014, № 2

27

d(a,b) ® d(b, c) = d(a, c) ^ d(a,b) ® d(b, c) ® d(a, c) = 0.

Пример 1. Имеется пять точек в векторном пространстве: (000111, 111000, 101010, 010101, 110011). Замыкание этих точек в цикл дает следующие стороны-расстояния в пятиугольнике: (111111,010010, 111111, 100110, 110100).

Покоординатное сложение всех векторов дает результат (000000). Практическая значимость данного факта заключается в возможности восстановления любого расстояния в замкнутом цикле, если известны (n-1) сторон фигуры. Для треугольника это означает восстановление третьей стороны по известным двум. Если же создать из треугольников замкнутое логическое пространство, то можно сэкономить 66% от объема данных, который формирует все расстояния в логическом пространстве.

Метрика в кибернетического многозначного векторно-логического пространства есть вектор, равный значению 0 по всем координатам, полученный путем применения симметрической разности расстояний между конечным числом точек, образующих цикл:

в = А di =0, (4)

i=1

где каждая координата вектора, соответствующего объекту, определена в алфавите, составляющем буле-ан на универсуме примитивов мощностью р:

a = (а!,...,аjv..,ak),m = 2р.

Равенство пустому вектору симметрической разности покоординатного теоретико-множественного взаимодействия (4) подчеркивает равнозначность компонентов (расстояний), участвующих в формировании уравнения, где единственная координатная операция

di j Adi+1 j, используемая, например, в четырехзначной модели Кантора A = {0,1, x, 0}, x = {0,1} , определяется соответствующей таблицей:

А 0 1 x 0 п 0 1 x 0 U 0 1 x 0

0 0 x 1 0 0 0 0 0 0 0 0 x x 0

1 x 0 0 1 1 0 1 1 0 1 x 1 x 1

x 1 0 0 x x 0 1 x 0 x x x x x

0 0 1 x 0 0 0 0 0 0 0 0 1 x 0

a 0 1 x 0

a 10 0 x

.(5)

Здесь также приведены таблицы истинности для других базовых теоретико-множественных операций (пересечение, объединение, дополнение), далее используемых по тексту. Число примитивных символов, образующих замкнутый относительно теоретико-множественных координатных операций алфавит, может быть увеличено. При этом мощность алфавита (буле-

ана) определяется выражением m = 2р, где р - число примитивов. Для практического использования введенной метрики киберпространств а далее предлагается доказательный переход от численной характеристики бинарного отношения объектов, объединяющей

три скалярные оценки их взаимодействия, к чисто векторно-логическому критерию качества отношения двух объектов.

Пример 2. Замыкание любых сколь угодно сложных конструкций или фигур (линии, плоскости, кубы произвольной мерности) в киберпространстве. Пусть имеются векторы, заданные в алфавите Кантора {0,1,X}: {010XXX10, 10X00XX1, XX0011XX, 1100XX00}. Расстояния между ними определяются

на основе использования А - операции симметрической разности (XOR-функция, заданная в алфавите Кантора). Кубы, задающие расстояния между исходными векторами, вычисленные путем применения введенной координатной операции, имеют следующий вид:

0 1 0 X X X 1 0

A 1 0 X 0 0 X X 1

= X X 1 1 1 0 0 X

1 0 X 0 0 X X 1

A X X 0 0 1 1 X X

= 0 1 1 0 X 0 0 0

X X 0 0 1 1 X X

A 1 1 0 0 X X 0 0

= 0 0 0 0 0 0 1 1

1 1 0 0 X X 0 0

A 0 1 0 X X X 1 0

= X 0 0 1 0 0 X 0

Естественно, что XOR-сумма всех расстояний между фигурами или объектами, образующими замкнутый цикл в киберпространстве, равна пустому вектору:

X X 1 1 1 0 0 X

A 0 1 1 0 X 0 0 0

0 0 0 0 0 0 1 1

X 0 0 1 0 0 X 0

= 0 0 0 0 0 0 0 0

Пример 3. Стрельба по мишени может быть интерпретирована взаимодействием двух матриц, в результате чего появляется третья, идентифицирующая успешность выполненной операции, которая имеет структурный и скалярный эквиваленты, необходимые для online коррекции действий киберсистемы управления, направленных на достижение идеального результата при использовании минимальных временных и материальных затрат:

X X X X X

X 1 0 1 X

X 0 0 0 X

X 1 0 1 X

X X X X X

0 0 X X X

0 0 0 1 X

0 0 0 0 X

0 0 0 0 0

0 0 0 0 0

X X 0 0 0

X 1 0 0 0

X 0 0 0 0

X 1 0 1 X

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

X X X X X

В данном примере структура результирующей матрицы показывает области, подлежащие уничтожению, а также какого типа снаряды должны быть использованы при стрельбе. Кроме того, нетрудно посчитать эффективность произведенного выстрела, как отношение пора-

28

РИ, 2014, № 2

женной области к совокупному пространству с учетом значимости (мощности подмножествапримитивных символов) каждой координаты матрицы для выбранной цели:

j=1,m

Z MP хk.

i=1,n

14

j=1,m 41

Z M4X ki

0,341.

3. Выводы

i =1,n

Существующие программные продукты и публикации практически не предлагают ассоциативно-логических технологий поиска, распознавания и принятия решений в дискретном информационном пространстве, состоящем из big data. Практически все они используют универсальную систему команд современного дорогостоящего процессора с математическим сопроцессором. В то же время, аппаратные специализированные средства логического анализа, являющиеся их прототипами [15], как правило, ориентированы на побитовую или невекторную обработку информации.

Фактическая реализация подхода основана на предложении инновационных моделей и методов, использующих идею векторно-логической метрики киберпространства.

Метрика анализа киберпространства (big data), которая характеризуется использованием единственной логической xor-операции для определения кибер-расстояния путем циклического замыкания не менее одного объекта, что дает возможность на порядок повысить быстродействие анализа big data и подсчет структурных критериев качества взаимодействия информационных объектов на основе использования векторных логических операций для точного поиска, распознавания образов и принятия решений.

Будущие исследования направлены на проектирование big data driven cyber physical systems, которые ориентированы на постоянную метрико-семантическую реструктуризацию киберпространства в целях удобного извлечения знаний, а также на преобразование социальных отношений неприродного мира путем передачи управления от человека к облачным сервисам.

Литература: 1. БондаренкоМ.Ф.,ХахановВ.И., Литвинова Е.И. Структура логического ассоциативного мультипроцессора // Автоматика и телемеханика. 2012. № 10. С. 7192. 2. Ariane Hellinger, Ariane Hellinger, Heinrich Seeger. Cyber-Physical Systems. Driving force for innovation in mobility, health, energy and production. Acatech. National Academy of Science and Engineering. 2011. 48p. 3. Hahanov V.I., Litvinova E.I., Chumachenko S.V. et al. Qubit Model for solving the coverage problem // Proc. of IEEE East-West Design and Test Symposium. Kharkov. 14-17 September, 2012. P.142 - 144.

Поступила в редколлегию 11.05.2014

Рецензент: д-р техн. наук, проф. Чумаченко С.В.

Хаханов Владимир Иванович, декан факультета КИУ, д-р техн. наук, профессор кафедры АПВТ ХНУРЭ. Научные интересы: проектирование и тестирование вычислительных систем, сетей и программных продуктов. Увлечения: баскетбол, футбол, теннис, горные лыжи. Адрес: Украина, 61166, Харьков, пр. Ленина, 14, тел. +380 57 70-21 -326, E-mail: hahanov@kture. kharkov. ua.

Обризан Владимир Игоревич, старший преподаватель кафедры АПВТ ХНУРЭ. Научные интересы: облачные технологии, программирование мобильных платформ. Увлечения: путешествия. Адрес: Украина, 61166, Харьков, пр. Ленина, 14, тел. +380 57 70-21-326, E-mail:

V olodymyr. obrizan@gmil. com.

Мищенко Александр Сергеевич, аспирант кафедры АПВТ ХНУРЭ. Научные интересы: облачные технологии, web-программирование. Увлечения: путешествия. Адрес: Украина, 61166, Харьков, пр. Ленина, 14, тел. +3 80 57 70-21 -326, E-mail: [email protected].

T amer Bani Amer, магистрант ХНУРЭ. Научные интересы: проектирование и тестирование вычислительных систем. Адрес: Украина, 61166, Харьков, пр. Ленина, 14, тел. +380 57 70-21-326. E-mail: [email protected].

РИ, 2014, № 2

29

i Надоели баннеры? Вы всегда можете отключить рекламу.