Научная статья на тему 'ПОИСК И АНАЛИЗ ДАННЫХ НА ОСНОВЕ МЕТРИКИ СХОДСТВА-РАЗЛИЧИЯ'

ПОИСК И АНАЛИЗ ДАННЫХ НА ОСНОВЕ МЕТРИКИ СХОДСТВА-РАЗЛИЧИЯ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
197
16
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КОМПЬЮТИНГ / КИБЕРСОЦИАЛЬНЫЙ КОМПЬЮТИНГ / ПРИНЯТИЕ РЕШЕНИЙ / УНИТАРНЫЕ КОДЫ ДАННЫХ / СХОДСТВО-РАЗЛИЧИЕ / ПОИСК ДАННЫХ / ПЛАГИАРИЗМ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Шевченко Ольга Юрьевна, Хаханов Иван Владимирович, Хаханов Владимир Иванович

Предлагаются модели, методы и алгоритмы киберсоциального компьютинга, машинного обучения, использующие метрику сходства-различия унитарно кодированной информации для обработки больших данных в целях выработки адекватных актюаторных сигналов для управления киберсоциальными критическими системами. Разрабатывается теоретико-множественный метод поиска данных на основе сходства-различия частотных параметров примитивных элементов, что дает возможность определять подобие объектов, стратегию трансформирования одного объекта в другой, а также идентифицировать уровень общности интересов, конфликтности. Создаются вычислительные архитектуры кибер-социального компьютинга и метрического поиска ключевых данных. Даются определения основополагающих понятий в области компьютинга на основе метрических отношений между взаимодействующими процессами и явлениями. Предлагается программное приложение для вычисления сходства-различия объектов на основе формирования векторов частотностей двух множеств примитивных данных. Показывается высокий уровень корреляции результатов работы приложения с известной системой определения плагиаризма.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Шевченко Ольга Юрьевна, Хаханов Иван Владимирович, Хаханов Владимир Иванович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

SEARCH AND ANALYSIS OF DATA BASED ON SIMILARITY-DIFFERENCE METRIC

Models, methods and algorithms for cyber-social computing, machine learning are proposed that use the similarity-difference metric of unitary coded information for processing big data in order to generate adequate actuator signals for controlling cyber-social critical systems. A set-theoretic method of data search is being developed based on the similarity - difference of the frequency parameters of primitive elements, which makes it possible to determine the similarity of objects, the strategy of transforming one object into another, and also to identify the level of community of interests, conflicts. Computational architectures of cyber-social computing and metric search for key data are being created. The definitions of the fundamental concepts in the field of computing are given on the basis of metric relations between interacting processes and phenomena. A software application is proposed for calculating the similarity-differences of objects based on the formation of frequency vectors of two sets of primitive data. A high level of correlation of the application results with the wellknown system for determining plagiarism is shown.

Текст научной работы на тему «ПОИСК И АНАЛИЗ ДАННЫХ НА ОСНОВЕ МЕТРИКИ СХОДСТВА-РАЗЛИЧИЯ»

— East European Scientific Journal #1(65), 2021 51

y^K 658: 512.011: 681.326: 519.713

Shevchenko O. Yu.

Assistant of the Design Automation Department, Kharkiv National University of Radioelectronics

Hahanov I. V.

PhD Student of the Design Automation Department, Kharkiv National University of Radioelectronics

Hahanov V.I. Doctor of Technical Sciences, Professor, Professor of the Design Automation Department, Kharkiv National University of Radioelectronics

SEARCH AND ANALYSIS OF DATA BASED ON SIMILARITY-DIFFERENCE METRIC

Шевченко Ольга Юрьевна

ассистент кафедры автоматизации проектирования вычислительной техники, Харьковский национальный университет радиоэлектроники

Хаханов Иван Владимирович аспирант кафедры автоматизации проектирования вычислительной техники, Харьковский национальный университет радиоэлектроники

Хаханов Владимир Иванович

доктор технических наук,

профессор кафедры автоматизации проектирования вычислительной техники, Харьковский национальный университет радиоэлектроники

ПОИСК И АНАЛИЗ ДАННЫХ НА ОСНОВЕ МЕТРИКИ СХОДСТВА-РАЗЛИЧИЯ

Summary. Models, methods and algorithms for cyber-social computing, machine learning are proposed that use the similarity-difference metric of unitary coded information for processing big data in order to generate adequate actuator signals for controlling cyber-social critical systems. A set-theoretic method of data search is being developed based on the similarity - difference of the frequency parameters of primitive elements, which makes it possible to determine the similarity of objects, the strategy of transforming one object into another, and also to identify the level of community of interests, conflicts. Computational architectures of cyber-social computing and metric search for key data are being created. The definitions of the fundamental concepts in the field of computing are given on the basis of metric relations between interacting processes and phenomena. A software application is proposed for calculating the similarity-differences of objects based on the formation of frequency vectors of two sets of primitive data. A high level of correlation of the application results with the well-known system for determining plagiarism is shown.

Аннотация. Предлагаются модели, методы и алгоритмы киберсоциального компьютинга, машинного обучения, использующие метрику сходства-различия унитарно кодированной информации для обработки больших данных в целях выработки адекватных актюаторных сигналов для управления кибер-социальными критическими системами. Разрабатывается теоретико-множественный метод поиска данных на основе сходства-различия частотных параметров примитивных элементов, что дает возможность определять подобие объектов, стратегию трансформирования одного объекта в другой, а также идентифицировать уровень общности интересов, конфликтности. Создаются вычислительные архитектуры кибер-социального компьютинга и метрического поиска ключевых данных. Даются определения основополагающих понятий в области компьютинга на основе метрических отношений между взаимодействующими процессами и явлениями. Предлагается программное приложение для вычисления сходства-различия объектов на основе формирования векторов частотностей двух множеств примитивных данных. Показывается высокий уровень корреляции результатов работы приложения с известной системой определения плагиаризма.

Key words: computing, cybersocial computing, decision making, unitary data codes, similarity - difference, data retrieval, plagiarism.

Ключевые слова: компьютинг, киберсоциальный компьютинг, принятие решений, унитарные коды данных, сходство-различие, поиск данных, плагиаризм.

1. Мотивация и постановка задач исследования

Критическая система представляет собой совокупность взаимосвязанных в киберфизическом пространстве и времени отношений (целостности и единства) между компонентами для достижения

поставленной цели, отказы которых приводят к значительным экономическим, политическим, социальным, экологическим и гуманитарным (материально-энергетическим и пространственно-временным) потерям. Примерами критических систем выступают технологические и технические

объекты в отраслях: энергетика, транспорт, индустрия, вооружение, киберсоциальная сфера, банкинг, интернет, государственность,

юриспруденция. Однозначно ученые и специалисты пришли к выводу, что порядка 80 процентов всех отказов в критических системах связано с непредназначенностью человека к управлению любыми системами или объектами, включая самого себя. Человек есть всегда лишь исполнитель. Следовательно, необходимо исключать его из цикла мониторинга-управления, по меньшей мере, критическими процессами и явлениями, путем передачи полномочий по принятию решений детерминированному и практически безошибочному компьютингу: сетевому, облачному, терминальному. Выигрывает тот, кто своевременно превращает физическое и социальное пространство в оцифрованные процессы и явления для точного мониторинга и управления желательно без участия человека. Поэтому управление кадрами в критических системах любой природы пока остается самой главной проблемой человечества, решение которой связано с сохранением планеты, пригодной для жизни людей [1-3].

Компьютерная инженерия есть отрасль знаний, которая занимается теорией и практикой

проектирования, тестирования производства и эксплуатации защищенных программно-аппаратных масштабируемых вычислительных средств для надежного метрического управления виртуальными, физическими и социальными процессами и явлениями путем использования интеллектуальных облачных и

телекоммуникационных сервисов на основе цифрового мониторинга киберфизического пространства с помощью персональных гаджетов и встроенных умных сенсоров. Здесь компьютинг, как глобальная методология, которую имеет и компьютерная инженерия, есть стратегия достижения и визуализации поставленной цели -создания продукции и/или сервисов при заданных ресурсах, которая системно представляется процессом мониторинга и актюации метрических отношений в замкнутой инфраструктуре управления и исполнения.

Компьютинг системно может быть представлен (рис. 1) процессом мониторинга (5) и актюации (6) метрических отношений (2) в инфраструктуре управления (3) и исполнения (4) для достижения и визуализации (8) поставленной цели - продукции и/или сервисов (1) при заданных ресурсах (7).

Рисунок 1. Компьютинг критической системы управления персоналом

Метрическое и структурное определение компьютинга посредством восьми

взаимосвязанных компонентов предоставляет теоретическую фундаментальную основу для формального и фактического создания системы цифрового управления любым процессом в заданной сфере человеческой или природной деятельности. Виды компьютинга по введенной метрике охватывают все сферы человеческой деятельности: космологический, биологический, флористический, физический, виртуальный, квантовый, социальный, государственный, медицинский, транспортный, инфраструктурный, научный, образовательный, производственный, спортивный, отдыха, путешествий, развлечений. Естественно, что в первую очередь компьютинг ориентирован на мониторинг и управление критическими объектами, процессами и явлениями без- или с минимальным участием человека.

Мобильность граждан порождает интересные альтернативные предложения со стороны существующих государственностей, которые все более борются за кадровые ресурсы планеты по метрике: самые умные и самые дешевые. Здесь каждый человек также приобретает право альтернативного выбора (рис. 2), формирующего качество жизни для работника по метрике отношений: уровень зарплаты, языковая культура, традиции, история, питание, инфраструктура, транспорт, климат, политическая стабильность, социальные льготы, здравоохранение, налоговое законодательство. Очевидно, что финансовые потоки от граждан в альтернативные государственности прямо пропорциональны упомянутой метрике отношений к человеку со стороны власти. Сегодня в соревновании за работника участвуют, как минимум, две и более государственности. Выигрывает та, которая

предлагает лучшие условия для жизни и творчества. Другая постепенно самоуничтожается.

Рисунок 2. Альтернатива слабой государственности

Возникает конкурентоспособный строго метрический интерактивный компьютинг рынка талантливых работников и государственностей, где каждый гражданин планеты выбирает крышу, наиболее благоприятную для творчества и отдыха, а социальная система - лучших, креативных и здоровых исполнителей. Качество продукции (сервиса, процесса или явления) - совокупность свойств, обусловливающих ее пригодность удовлетворять определенные потребности в соответствии с назначением. Метрика качества критической системы определяется параметрами: надежность, безотказность, долговечность, ремонтопригодность, сохраняемость,

тестопригодность, управляемость, наблюдаемость, диагностируемость, обслуживаемость,

контролепригодность, безопасность и живучесть. Что касается критических ситуаций и отказов, то в настоящее время в киберфизическом пространстве имеется исчерпывающая информация о любом негативном процессе или явлении, которое можно

предотвратить средствами интеллектуального облачного и edge computing мониторинга-управления, что составляет сущность critical system computing (рис. 3). Здесь два вычислителя (облачный и терминальный) обслуживают критическую систему с помощью сенсорных датчиков и актюаторов. Естественно, что облачный компьютинг является инвариантным по отношению ко времени и геопозиции критического объекта, например, автомобиля (Synopsys, GMC, Tesla). Качество и надежность здесь обеспечиваются стандартами: JTAG IEEE 11.49, SECT IEEE 1500, IJTAG IEEE 1687, ISO 9001. Технологии граничного сканирования упомянутых страндартов создают дополнительные линии и spare-компоненты, позволяющие достичь высоких уровней качества и надежности за счет online тестирования и восстановления работоспособности критических систем с использованием встроенных средств BIST и облачных test services.

Рисунок 3. Компьютинг критической системы

Естественно, только компетентный оператор имеет возможность вмешиваться в работу критической системы посредством терминального компьютера. Для этого исчерпывающий мониторинг компетенций каждого человека достаточно просто осуществить с помощью поисковых и специальных приложений в целях последующего принятия актюаторных решений о назначении работника на функциональную позицию, что составляет сущность personnel computing или HR-Management. Для измерения компетенций работников, представленных векторами переменных, используется метрика Левенштайна, которая дает возможность определить сходство-различие между

претендентами и образцовым паттерном, а также квази-оптимальные маршруты трансформирования одной метрики-модели в другую.

2. Цель и задачи исследования Цель исследования - уменьшение экономических, технологических и социальных

потерь, связанных с минимизацией отказов в критических системах за счет повышения компетенций сотрудников и последовательного исключения человека из процессов принятия решений на основе его замены детерминированными механизмами компьютинга, использующего цифровое интеллектуальное управление на основе метрического мониторинга киберсоциальных процессов и явлений.

Функция цели Ь - минимизация прямых Б и косвенных потерь 8, связанных с п-отказами и ремонтом Я критических систем за счет затрат на разработку и обслуживание компьютинговых структур метрического онлайн принятия решений по цифровому управлению критическими процессами и явлениями на основе исчерпывающего точного мониторинга М, использования умной инфраструктуры I и квалифицированных сотрудников Е,

удовлетворяющих эталонным компетенциям по образованию, опыту и навыкам:

L=min Z"=i(Di + k X Si + Rj) ^ (A + M + I + E) < Gn

Задачи, подлежащие решению, для достижения поставленной цели: 1) Разработать структурную модель компьютинга для интерактивного онлайн взаимодействия между человеком, критической системой и механизмами точного цифрового мониторинга-управления. 2) Разработать теорию и структуры данных для частотно-множественного метода определения подобия двух объектов. 3) Синтезировать алгоритм сходства-различия текстовых фрагментов. 4) Выполнить тестирование и верификацию метода на примерах.

3. Частотно-множественный метод определения подобия двух объектов Технологическим ядром для решения практических задач управления персоналом в критических системах является киберфизический компьютинг, оформленный в структуры Machine Learning и SCADA -

Supervisory Control And Data Acquisition. Такой компьютинг предполагает аналитику больших данных, которая использует примитивные теоретико-множественные операции, процедуры и алгоритмы параллельного действия в целях повышения производительности при поиске квазиоптимальных решений. Поэтому далее предлагается имплементация в программный код алгоритма и процедур для поиска данных по заданному паттерну путем сравнения, что дает возможность принимать адекватные

управленческие воздействия в критических системах [1-4]. В мире поиск-компьютинга нет ничего кроме метрики сходства-различия [5-8]. Поэтому важно иметь эффективный специализированный процессор, как простейшее ядро, для параллельного и

высокопроизводительного решения задач синтеза и анализа новых процессов и явлений [9]. Структурно, метрика сходства-различия двух

процессов, явлений, объектов, компонентов использует две формулы, оперирующие в бинарной алгебре логики двумя параллельными операциями and, xor для получения результирующих векторов:

S(a, b) = ai Л bi;

i = 1,n

D(a,b) = ai ф bi.

i = 1,n

Но такие формулы мало, что дают для знания отношений между процессами (явлениями), когда необходимо и очень важно определить общие структуры данных, чтобы понять, как трансформируются отдельные компоненты (координаты векторов) друг в друга при синтезе и анализе. Более того, здесь весь процесс синтеза находится в вычислительной зависимости от технологически совершенных структур данных. Нормированная метрика сходства-различия использует две формулы, также оперирующие в алгебре логики двумя параллельными операциями, но дополненные арифметикой подсчета единичных координат, полученных в результате выполнения логических операций. Кроме того, появляется общий знаменатель в виде дизъюнкции одноименных координат векторов, который служит интегратором разрозненных структур данных участвующих процессов в общий вектор именно и только существенных координат, относительно которых выполняется нормирование сходства и различия:

S(a,b) =■

2п_,(а.Л b

(a.v b

Z?=i(ai.® bi) D(a,b)= n .

1=1.П

n

S

1=1.n

Например, два вектора a=00111100 и Ь=10101010, имеющие несущественные нулевые одноименные координаты, автоматически исключаются из нормированного оценивания, благодаря учету и подсчету только единичных значений в результирующих векторах:

S(a,b) =

Е°=1(00111100Л10101010=001010000)=2 Sj=1(00111100V10101010=10111110)=6

0,33;

D(a,b)

_ Е°=1(00111100ф10101010 = 10010110)=4 _ Sj=1(00111100V10101010 = 10111110)=6 0,66;

Естественно, нет нужды вычислять обе оценки по данным формулам. Достаточно определить одну из них, а вторую можно получить по формуле дополнения: D(a, Ь) = 1 — S(a, Ь); S(a, Ь) = 1 — D(a,b).

Здесь, отличием формируемой оценки от расстояния Хэмминга является исключение из метрики и структур данных условия существования двух нулей на координатах с одинаковыми адресами-индексами, что существенно повышает

адекватность измерения двух процессов. Что касается многозначной алгебры (теории множеств), где вместо алфавита {0,1} выступают символы, буквы, цифры, слова, тексты, объекты, процессы, то сходство-различие, как правило, рассматривается в рамках метрики или расстояния Левенштайна. В нем фигурируют три элементарных операции: замена символов, вставка и удаление, которые трансформируют одно слово (процесс, явление) в другое. Предлагается другое решение определения сходства-подобия между словами, которое характеризуется синтезом унифицированной структуры данных,

выравнивающей пары слов любой длины к одной размерности за счет выполнения единственной операции - вставки пустого символа. Как следствие, вычислительная сложность алгоритма для синтеза унифицированной структуры единой размерности сводится к поиску мест для вставки конечного числа п=0,1,2,3,... пустых символов в целях выравнивания длины двух слов (объектов, процессов). В качестве примера далее рассматривается преобразование одного слова в другое путем вставки пустых символов:

C B

O O

N N

D D

U I

C A

T N

I

A

O

N

Выполнение алгоритма вставки пустых трансформировании одного слова в другое дает символов в целях получения минимального результат: различия и максимального сходства при

C

O

N

D

U

C

T

I

O

N

B O N D - - - I A N A

Количество пустых символов для выравнивания двух слов равно четырем. После этого осуществляется тривиальный подсчет расстояния Левенштайна, которое равно числу координат, имеющих различные символы в метрике трансформации слов, что означает D(a,b) = 6, S(a,b) = 5. Таким образом, любую пару процессов или явлений можно привести к структурной метрике одинаковой длины в целях последующего подсчета нормированных оценок сходства-различия путем арифметического сложения выполнения логических условий в числителе и знаменателе:

D(a,b) = ~ = 0,45.

Более сложная конструкция нормированного сходства-различия определяется не по равенству, а по принадлежностью одной координаты вектор-слова другой координате второго вектора, если координаты представлены некоторыми множествами. В этом случае формулы для вычисления оценок будут иметь вид:

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

S(a,b) =

En=i(a4=?,nbi).

и bj

S(a, b)

D(a, b)

= Sj=i(ai = bi) . s!=1(aiUbi^0);

_ Sj=i(ai*bi) Ej=1(aiUbi^0).

Для заданного примера трансформируемого взаимодействия пары слов нормированные оценки сходства-различия имеют вид:

D(a, b) =

sjj=1lai

ai . 4 bi)

i=1, n f

Ej=1(aii=4,nbi

Здесь полезными будут теоретико-множественные операции для алфавита Кантора, например, которые определены следующими квадратичными таблицами истинности:

j

Sj

a

t=1.n

S(a, b) = — = 0,55;

n 0 1 X 0 и 0 1 X 0 д 0 1 X 0

0 1 0 0,5 0 0 1 1 1 0,5 0 0 1 0,5 0,5

1 0 1 0,5 0 1 1 1 1 0,5 1 1 0 0,5 0,5

X 0,5 0,5 1 0 X 1 1 1 1 X 0,5 0,5 0 1

0 0 0 0 0 0 0,5 0,5 1 0 0 0,5 0,5 1 0

Элементарные таблицы дают возможности привести теоретико-множественные операции к их нормам, сложение которых формирует точные оценки сходства-различия. Например, для следующих двух многозначных векторов а=1ХХХ10Х1, Ь=01Х00ХХ1, оценки сходства-различия, полученные по численным таблицам истинности, будут иметь вид:

D(a,b) =

еП-1 (ixxxioxi д oixooxxi=i+i+o+i+i+i+o+o)

-т^-2-2-2-1 = 0,44.

n

222

-n=1(ixxxioxi и oixooxxi=i+i+i+i+i+i+i+i)

Общая структура определения сходства-различия пары векторов за три векторных параллельных численных операции (П,Д,и) представлена в следующей таблице:

S(a,b) =

-L (ixxxioxi n oixooxxi=o+i+i+i+o+i+i+i) i=U _2 2 2_J

-n (ixxxioxi и oixooxxi=i+i+i+i+i+i+i+i)

= 0,56;

a 1 X X X 1 0 X 1

b 0 1 X 0 0 X X 1

n 0 0,5 1 0,5 0 0,5 1 1

д 1 0,5 0 0,5 1 0,5 0 0

и 1 1 1 1 1 1 1 1

Таким образом, получены две оценки подобия, которые являются взаимно-дополняющими друг друга до 1: S(a,b) = 0,56; D(a,b) = 0,44. Координаты следующих векторов промежуточных вычислений также являются взаимно-

дополняющими до 1, что является условием валидации процесса определения сходства-различия:

n 0 10,5 1 0,5 0 0,5 1|1 1

д 1 10,5 0 0,5 1 0,5 |0 0

Вычислительная сложность алгоритма синтеза структурной унифицированной метрики трансформирования одного слова в другое равна Q = (mx п)2.

4. Частотно-векторная модель и метод для вычисления подобия

Многозначная структура пары векторов, соответствующих множеству слов-примитивов

(Ть Т), может быть использована для эффективного определения подобия текстовых фрагментов, а также вычисления уровня плагиаризма. Упрощенная диаграмма решения данной задачи с помощью трех векторных логических операций может быть представлена в виде рис. 4.

Рисунок 4. Диаграмма поиска подобия текстовых фрагментов

В координатах вместо единичных значений могут быть представлены слова или любые другие данные, фигурирующие в вектор-множествах (Т, Т]). Однако предварительное унитарное кодирование слов или предложений существенно

облегчает выполнение алгоритма определения сходства-различия. Следует заметить, что вместо двоичного кода координаты вектора могут быть отмечены частотностью слов или данных в форме действительных или целых чисел, а также

временными или другими параметрами компонентов, что не изменяет сущности алгоритма для метрического нормированного оценивания подобия текстовых фрагментов.

Характеристика метрики:

1) Определяется уникально существенными переменными для вектор-множеств, взаимодействующих между собой.

2) Не имеет переменных, которые не существенны для взаимодействующих множеств.

3) Учитывает частоту встречаемости каждого компонента для вычисления сходства-различия.

4) Является универсальной моделью для определения сходства-различия любых дискретных процессов и явлений.

Частотно-векторная модель двух

взаимодействующих подмножеств для

определения сходства-различия обрабатывается по следующим формулам:

S(a,b) =

Sj=1(aii=i,nbiK, Sj=1(aim1nnbi). Ej=1(aii=4,nbi) ~ Ej=1(aimaxnbi);

D(a, b) =

(ai . 4 bi

V ii=1,n i.

(ab U bi

V ii=1,n \

(a max b;

Здесь в логических операциях участвуют мощности подмножеств - частотности - каждого компонента, которые существенно повышают адекватность сходства-различия текстов, процессов и явлений. Такая модификация формул, где фигурируют три операции: выбор минимального значения из двух одноименных координат (a; min bj), выбор максимального

i=1,n

значения на паре координат (a; max b;), вычисление

i=1,n

модуля разности двух значений координат |a; - bj |, обрабатывает не только частотность, но

I i = 1,n I

и чисто двоичное представление вектор-множеств. Однако арифметические операции здесь приобретают недостаток - нельзя использовать параллельные вычисления над координатами векторов.

Преимущества предложенной метрики подобия процессов и явлений:

1) Инвариантность частотно-множественного представления примитивов-данных, по сравнению с кортеж-ориентированным расстоянием Левенштайна, дает возможность уменьшить вычислительную сложность алгоритма определения сходства-различия от экспоненциальной до квадратичной. Данное преимущество дает возможность адекватно оценивать плагиаризм для текстов на славянских языках, где допускается изменение порядка слов в предложениях.

2) Векторная, аппаратно ориентированная, модель унитарного кодирования множеств примитивов-слов дает возможность вычислять сходство различие за один автоматный такт.

3) Синтезируемая уникальная метрика также показывает путь преобразования одного текста в другой, а также вычислительную сложность такой трансформации, которая измеряется различиями в вектор-множествах.

4) Частотно-векторная структура является универсальной моделью для определения сходства-различия любых дискретных процессов и явлений для решения задач преобразования одного объекта в другой, принятия решений, поиска дефектов, классификации и кластеризации данных.

5) Маршрут трансформирования (коррекции) неисправного продукта, цифровой системы, программного приложения в исправное на основе определения различий двух метрик.

6) Маршрут трансформирования деструктивного генома вируса в полезный белок на основе определения различий двух метрик, или выработки антител, нейтрализующих деструктивные геномы вирусов.

5. Приложение для определения сходства-различия двух объектов

Реализация программного модуля сходства-различия представлена в С++ коде. Вход-выходной интерфейс программного модуля для вычисления сходства-различия между объектами (текстами, векторами, матрицами, структурами), где фигурируют файлы-источники, локальные и интегральные оценки сходства-различия, а также кнопки управления, имеет следующий вид (рис. 5):

j

2i=1|ai, - b

S

1=1,n

j

n

S

S

1=1,n

i Find similarities and differences in text object

1. C:/Users/Lu/source/repos/DifferenceFilesCounter/CFKC_4/Bodyanskiy Yevgeniy.txt

2. C:/Users/Lu/source/repos/DifferenceFilesCounter/CFKC_4/Vladimir Hahanov.txt

3. C:/Users/LiVsource/repos/DifferenceFilesCounter/CFKC_4/Svetlana Chumachenko.txt

File selected: 3

Aggregate difference and similarity

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

X

File path

Difference Similarity

0.690 0.310

Get Result

Reset

Tablel - Separate difference / similarity

Table2 - Separate difference / similarity with frequency

1 г 3 л 1 2 3 л

1 0.000/1.000 0.893/0.107 0.885/0.115 1 0.000/1.000 0.813/0.187 0.740/0.260

2 0,893/0,107 0,000/1,000 0,545/0.455 г 0,813/0,187 0,000/1,000 0,601/0.399

3 0.885/0.115 0.545/0.455 0.000/1.000 3 0.740/0.260 0.601/0.399 0.000/1.000

V V

< > < >

Рисунок 5. Интерфейс С+ + приложения

Тестирование модуля выполнено на 4) Список Scopus-публикаций отдельных

различных текстовых файлах, включающих пары: ученых и научных сотрудников. Следующая

1) Произведения известных авторов. таблица метрического векторно-множественного

2) Научные публикации ученых. сравнения пар текстовых объектов:

3) Резюме экспертов и новичков в области компьютинга.

Sim-matrix Resume Text Data Screens Scopus Courses References E-mails Papers

Object А (к) 450 150 560 500 40 140 15 3 470

Object В (к) 780 230 120 700 30 100 20 5 500

Similarity U 36 49 47 78 34 57 37 45 70

Similarity N 41 49 42 73 39 52 37 50 64

и график, представленный на рис. 6, отражают использования программного продукта для

устойчивую связь между оценками, полученными в определения сходства (плагиаризма) unicheck

результате работы программного Similarity- [https://corp.eu.unicheck.com/dashboard/library/brow

модуля, а также значений, полученных на основе ser#100071849].

Scopus Courses References E-mails Papers

Рисунок 6. Корреляция между оценками двух программных продуктов

Здесь наблюдается корреляция между оценками с максимальным отклонением в 6 пунктов, полученными в различных программных продуктах, что свидетельствует о состоятельности предложенного теоретико-множественного метода для поиска сходства-различия между процессами и явлениями в целях принятия адекватных решений.

6. Выводы

Структура киберфизического компьютинга, направленного на метрическое управление кадрами и принятие решений на основе исчерпывающего сбора данных и последующего сравнения с эталонными решениями, представлена на рис. 7.

— Data Acquisition

С i r

о 'с —► Metrics Definition

ч— си о i i

с s— a> +-> Similarity-Difference

+-> го CL

Decision making H-Resources management

Safety-Critical System

Рисунок 7. Структура компьютинга управления

1) Предложены концепции архитектур, моделей, методов и алгоритмов киберсоциального компьютинга, актуальные для обработки больших данных, принятия решений и управления критическими системами.

2) Сформулированы задачи и целевая функция, подлежащая исполнению для минимизации потерь, связанных с отказами и ремонтом критических систем за счет разработки и обслуживания компьютинговых структур метрического онлайн принятия решений по цифровому управлению критическими процессами и явлениями на основе исчерпывающего точного мониторинга, использования умной инфраструктуры и подбора квалифицированных сотрудников, удовлетворяющих эталонным компетенциям по образованию, опыту и навыкам.

3) Предложен частотный теоретико-множественный метод поиска данных путем вычисления сходства-различия текстовых фрагментов-объектов, что дает возможность определять подобие объектов, стратегию трансформирования одного объекта в другой, а также идентифицировать уровень общности интересов, конфликтности, плагиаризма.

4) Реализован и протестирован С++ код частотного теоретико-множественного метода вычисления сходства-различия различных текстовых фрагментов-объектов. Проведен

сравнительный анализ предложенного приложения и существующей системы определения плагиаризма. Результаты имеют высокий уровень корреляции на различных тестовых примерах при невысоком квадратичном уровне вычислительной сложности предложенного метода.

Список литературы:

1. Drozd A. Checkability of the digital components in safety-critical systems: problems and solutions / A. Drozd, V. Kharchenko, S. Antoshchuk et. al. // IEEE East-West Design & Test Symposium. Sevastopol, Ukraine. 2011. P. 411-416.

2. Drozd O. Development of Models in Resilient Computing / O. Drozd, V. Kharchenko, A. Rucinski et. al. // IEEE International Conference DESSERT. Leeds, UK. 2019. P. 2-7.

3. Hahanov V. Green Cyber-Physical Computing as Sustainable Development Model / V. Hahanov, E. Litvinova, and S. Chumachenko // In the Book "Green IT Engineering: Components, Networks and Systems Implementation". Editors V. Kharchenko, Y. Kondratenko, J. Kacprzyk, Springer. 2017.

4. Tarraf D. Control of Cyber-Physical Systems / D. Tarraf // Workshop held at Johns Hopkins University. March 2013. Springer. 2013.

5. Guo R. The Method of Similarity-Difference Comprehensive Evaluation on Test Paper Quality in Colleges and Universities and Its Application / R. Guo,

60 East European Scientific Journal #1(65), 2021 G. Mao, Y. Liu, Y. Liu, J. Wang, R. Cui // 2009 Second International Conference on Education Technology and Training. Sanya, 2009. P. 227-230.

6. Zhu J. Deep Hybrid Similarity Learning for Person Re-Identification / J. Zhu, H. Zeng, S. Liao, Z. Lei, C. Cai, L. Zheng // IEEE Transactions on Circuits and Systems for Video Technology. Nov. 2018. Vol. 28, no. 11. P. 3183-3193.

7. Komori T. Real Friendship and Virtual Friendship: Differences in Similarity of Contents/People and Proposal of Classification Models on SNS / T. Komori, Y. Hijikata, T. Tominaga, S. Yoshida, N. Sakata and K. Harada // 2018

IEEE/WIC/ACM International Conference on Web Intelligence (WI). Santiago,. 2018. H. 354-360.

8. Lin K. New Vague Set Based Similarity Measure for Pattern Recognition / K. Lin // 2019 20th IEEE/ACIS International Conference on Software Engineering, Artificial Intelligence, Networking and Parallel/Distributed Computing (SNPD). Toyama, Japan. 2019. P. 15-21.

9. Hahanov V. Qubit Description of the Functions and Structures for Computing / V. Hahanov, S. Chumachenko, E. Litvinova, and M. Liubarskyi // Proc. of IEEE East-West Design and Test Symposium. Yerevan. Armenia. 14-17 Oct., 2016. P. 88-93.

i Надоели баннеры? Вы всегда можете отключить рекламу.