Научная статья на тему 'Классификация взаимосвязей в схемах данных'

Классификация взаимосвязей в схемах данных Текст научной статьи по специальности «Математика»

CC BY
92
25
i Надоели баннеры? Вы всегда можете отключить рекламу.
Область наук
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Классификация взаимосвязей в схемах данных»

ватно представлена моделью:

у = п(Х) + е , (1)

где п(Х) - функция неизвестного вида; е - аддитивная случайная помеха (отражает действие неучитываемых факторов) с нулевым математическим ожиданием и неизвестным распределением

на (-е^ ет) •

Функция п(Х) представима в виде: П(Х) = р(Х) + g(X), (2)

где р(Х) - полиномиальная функция: 1

р(х) = Xакх1а1кх2а2к...хп"пк , (3)

к=1

где ак - постоянные параметры; 1 - целый положительный параметр; а^ - целые неотрицательные параметры; g(Х) - нелинейная функция общего вида.

Для функций р(Х) и g(x) выполняется соотношение:

8 [р(Х)]> 8 [^Х)], (4)

где 8 [•] - функционал, возвращающий среднеквадратичное значение функции-аргумента в области Д :

S[P(X)]:

J [p(X)]2 dx o.

S[g(X )] =

J [g(X)]2 dx o.

I ЙХ I ЙХ

Д, Ох

Предположим далее, что на объекте реализован эксперимент, заключающийся в регистрации N пар значений:

(х',у'), 1 = 1,2,...,N • (5)

При этом Х1 е ДХ; значения Х и у измерены

без ошибок. Требуется на основе экспериментальных данных (5) восстановить неизвестную зависимость п(Х) •

В работах академика А.Г. Ивахненко сформулирован принцип адекватности, согласно которому объект и его система моделирования или управления для наиболее оптимального решения задачи должны обладать рядом общих черт. В соответствии с принципом адекватности для решения рассматриваемой задачи предложена гибрид-

ная полиномиально-радиальнобазисная искусственная нейронная сеть (HPRBFN, от Hybrid Polynomial Radial Basis Function Network), структурно состоящая из радиально-базисной части (РБЧ), полиномиальной части (ПЧ) и блока взвешенного суммирования.

Предложенная искусственная нейронная сеть реализует следующую нелинейную зависимость:

y(X):

£ фДх) • wr + u -фп(X)

£ Фг(х)

(6)

+u

где wr, и - весовые коэффициенты; фДХ), фП (Х) - функции, реализуемые радиальными нейронами и ПЧ сети соответственно:

фг(х)=exp

х - c

2-X2

Фп (X) = £ M/V2*

...х„

(7)

(8)

b,

X -

• - евклидова векторная норма; ьк, постоянные параметры; 1 - целый положительный параметр; Р^ - целые неотрицательные параметры.

Структура нейронной сети определяется числом радиальных нейронов М, числом пи-нейронов Ь и их параметрами в^ .

Алгоритм обучения НРЯВРК на основе выборки (5) состоит в последовательной реализации трех этапов: 1) обучение РБЧ (параметры ег, X , wr) в предположении, что ПЧ отсутствует (и = 0); 2) обучение ПЧ сети (параметры Ьк) в предположении, что РБЧ отсутствует (и ^^); 3) оптимальная настройка параметра и, определяющего соотношение между влиянием РБЧ и ПЧ на выход сети, по критерию наименьшей погрешности аппроксимации.

Вычислительные эксперименты показали, что если исследуемая зависимость адекватно описывается соотношениями (1) и (2), предложенная гибридная полиномиально-радиальнобазисная нейронная сеть обеспечивает лучшую по точности аппроксимацию по сравнению с другими известными методами.

r=1

r=1

2

k =1

КЛАССИФИКАЦИЯ ВЗАИМОСВЯЗЕЙ В СХЕМАХ ДАННЫХ

Н.В. Юмагужин (Переславль-Залесский)

Во многих коммерческих, государственных и научных организациях распространена ситуация, когда отдельные информационные системы рабо-

тают на разных программных платформах и используют разные локальные справочники, никак не связанные между собой. Это ставит перед раз-

работчиками программных продуктов ряд задач, связанных с интеграцией данных: ведение централизованных справочников, конвертация и синхронизация данных и др. Первым шагом в решении подобных задач является сопоставление схем данных, которое проводится разработчиками совместно с экспертами в предметной области.

На сегодняшний день есть средства, которые автоматически предлагают соответствия между схемами на основе их синтаксического анализа (см.: E. Rahm, P.A. Bernstein. A survey of Approaches to Automatic Schema Matching. VLDB Journal. 10(4):334-350, 2001) либо на основе семантических данных, задаваемых экспертами (см.: S. Spaccapietra, C. Parent. View Integration: A Step Forward in Solving Structural Conflicts. TKDE. 6(2):258-274. 1994). Однако применение этих средств не дает ответа на вопрос о гарантированной возможности решения той или иной задачи интеграции данных. В случае определения соответствий на основе семантических данных от экспертов обычно требуется абстрактное высокоуровневое проектирование: детальное описание объектной модели предметной области либо определение формальной онтологии разрешения конфликтов (см.: S. Ram, J. Park. Semantic Conflict Resolution Ontology (SCROL): An Ontology for Detecting and Resolving Data and Schema-Level Semantic Conflict, TKDE. 16(2). 189-202, 2004). Подход, описанный в данной статье, напротив, не требует от экспертов ничего, кроме указания конкретных взаимосвязей между атрибутами.

Рассмотрим задачу сопоставления информации из двух схем данных, содержащих одни и те же физические сущности. При этом допускается, что схемы имеют различные системы кодирования, то есть один и тот же объект может иметь в этих схемах различные идентификаторы. Допускается, что названия таблиц, атрибутов и распределение атрибутов по таблицам могут различаться. Но предполагается, что между схемами существуют взаимосвязи, которые могут быть заданы экспертами. Нашей задачей будет классифицировать типы возможных взаимосвязей и найти необходимые условия для решения различных задач интеграции данных на основе этих взаимосвязей.

Пусть некоторая сущность описывается в первой схеме данных отношением A, содержащим кортежи {xj ,x2 ,...xn}, а во второй схеме данных отношением B, содержащим кортежи {yj ,y 2 ,...ym}. Отношения A и B могут быть как отдельными таблицами в реляционной схеме данных, так и переменными-отношениями. Запишем формально условие, что A и B содержат одни и те же физические сущности. Будем считать, что в этом случае существуют взаимосвязи между отдельными атрибутами Xj и yj. Рассмотрим различные типы таких взаимосвязей между двумя скалярными атрибутами x и y, определенными на конечных доменах X и Y соответственно.

Классификация взаимосвязей доменов

1. Смысловая взаимосвязь доменов. Наиболее общим типом взаимосвязи можно считать случай, когда мы хотя бы можем определить, совпадают ли объекты по атрибутам x и у или не совпадают. Другими словами, задана функция смысловой эквивалентности: Р^хУ^{0,1}. Р(х,у) = 1, если по атрибутам х и у объекты совпадают, Р(х,у) = 0 в противном случае.

2. Существует конвертирующее отображение из X в У, если для любого значения х е X существует значение у е У, такое что по атрибутам х и у объекты будут совпадать. Другими словами, существует отображение Ж : X ^ У такое, что для всех х е X выполняется равенство

Р(х,Е(х)) = 1. (1)

3. Существует обобщающее отображение из

X в У (У - обобщение X), если для любого значения х е X существует ровно одно значение у е У, такое что по атрибутам х и у объекты будут совпадать. Другими словами, существует отображение Ж : X ^ У , такое что для всех х е X выполняются условие (1) и неравенство

Р(х,у) < 1 для всех у * Ж(х). (2)

4. Существует обобщающее отображение X на У (X - детализация У), если для любого значения х е X существует ровно одно значение у е У, и для любого у существует хотя бы одно значение х, такое что по атрибутам х и у объекты будут совпадать. Другими словами, существует отображение ^ У, такое что для всех у е У существует х е X , такой что Ж(х) = у; и для всех х е X выполняются условия (1) и (2).

5. Изоморфизм доменов, если существуют отображение Ж : X ^ У , удовлетворяющее условиям (1) и (2), и обратное к нему Ж-1 :У ^ X, также удовлетворяющее условиям (1) и (2).

Кроме приведенных типов взаимосвязей, рассмотрим следующие.

2'. Существует конвертирующее отображение из У в X.

3'. Существует обобщающее отображение из У в X.

4'. Существует обобщающее отображение У на X.

Нетрудно доказать следующие свойства приведенной классификации.

• Классы взаимосвязей, определяемые условиями 1-5, 2'-4', не совпадают между собой.

• Каждое условие с меньшим номером следует из условия с большим номером (в отдельности для условий без штрихов и со штрихами).

• Из условия 4 следует 2', а из 4' следует 2.

• Если условия 3 и 3' выполняются одновременно, то выполняется условие 5.

Классификация взаимосвязей схем данных

Будем считать, что объект, заданный кортежем а = {х1 ,х2 ,...хп} в одной схеме данных, совпадает с объектом, заданным кортежем Ь= = {у1 ,У2, •••У1ш} в другой схеме данных, если они совпадают по всем взаимосвязанным атрибутам, то есть для всех функций смысловой взаимосвязи Р^:^хУ| —^{0,1} верно равенство Р^Сх^у^ = 1. Множество пар индексов (1,!), для которых заданы функции Р^, обозначим й = {(1, . Тогда можно задать функцию соответствия объектов Р: А х В — {0,1} следующим образом: Р(а,Ь) = 1, если P1>J(x1,yJ) = 1 для всех (1! е й ; (3)

Р(а,Ь) = 0, если существует (1! е й ,

такие что P,,(x,,y.) Ф1.

(4)

Замечание. Для задачи устранения дублирования можно рассматривать не бинарную функцию Р, а отображение на отрезок. Р: А х В — [0,1]. В этом случае Р задается некоторой формулой от функций Р^. В самом простом случае - это среднее арифметическое:

X Рц(х^)

P(a,b)=

(i,j)eQ

I & I

В прикладных задачах к этой формуле могут добавляться весовые коэффициенты или использоваться более специфические формулы. Например, если мы решаем задачу сопоставления списков юридических лиц и у нас заданы функции смысловой взаимосвязи: Р1 - совпадение ИНН, Р2 - похожесть наименования, Р3 - совпадение даты регистрации. Условие, что Р1 = 1 дает нам полную уверенность, что юридические лица совпадают, а условия Р2 и Р3 используются, только если Р1 ф 1, чтобы определить степень похожести. В этом случае функцию Р можно задать следующим образом:

P = [Pi ] + (1 - [Pi ])

P + P

4

Обозначение. Множество пар индексов (1^), для которых существует взаимосвязь доменов второго типа (существует конвертирующее отображение из X1 в У!), обозначим й2. Для третьего типа - й3. Для типа 2' - обозначим й2 и так далее для всех типов взаимосвязей между доменами. Множество индексов 1, входящих в одно из этих множеств йх, обозначим йА , множество индексов ! обозначим йВ .

Перейдем к классификации взаимосвязей между схемами данных.

1. Соответствие объектов. Если & не пусто, и задана функция P:AхB —{0,1}, будем говорить, что установлено соответствие объектов. Пусть X1 и Y1 являются первичными ключами отношений A и B. Тогда, если выбрать все пары {x1 ,y1}, для которых P(a,b) = P({x1 ,x2 ,...xn}, {y1 ,y 2 ,...ym}) = 1, получим таблицу соответствия N с заголовком {< x1 : X1 >,< y1: Y1 >}. Имея такую таблицу, можно делать запросы, получающие данные из обеих схем, следующим образом:

Select xi ,x2 ,...xn,yi ,y 2 ,»ym

From A,B,N

Where N.X1 = A.X1 and N.Y1 = B.Y1

2. По кортежу из A можно определить кортеж в B. Если существует потенциальный ключ K с & B , будем говорить, что по кортежу из отношения A можно определить кортеж в отношении B. Условие K с &B означает, что существует набор конвертирующих отображений Fi, :X —^Yi, для всех j е K . Используя эти отображения, можно по кортежу a = {x1 ,x2,...,xn}построить набор атрибутов k = {y,, jе K}. И поскольку K - это потенциальный ключ, в отношении B может существовать не более одного кортежа b, содержащего атрибуты k. Таким образом, можно по кортежу a из отношения A быстро найти в отношении B кортеж b такой, что P(a,b) = 1, не создавая и не используя таблицу соответствия.

Такой способ проверки применяется при решении задачи переноса данных из одной системы в другую, чтобы избежать возникновения дубликатов. Но для переноса данных необходимы еще два дополнительных условия:

1) переменная-отношение B должна быть обновляемой (либо это должна быть таблица);

2) для всех атрибутов y,, где j g &B , должны

быть заданы значения по умолчанию или выполнена автоматическая нумерация.

3. По кортежу из A можно однозначно определить кортеж в B. Если существует потенциальный ключ K с &B , будем говорить, что по кортежу из отношения A можно однозначно определить кортеж в отношении B. Смысл этого условия раскрывает следующая теорема.

Теорема. Если в B существует потенциальный ключ K, такой что для всех j е K существует

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

обобщающее отображение Fi,j из Xi в Yj , то каждое значение первичного ключа x1 входит в таблицу соответствия N не более одного раза.

Пример. Проиллюстрируем действие теоремы задачей сопоставления юридических лиц. Предположим, что во второй из интегрируемых систем реализовано устранение дублирования, не допус-

кающее в переменной-отношении В двух кортежей с одинаковым значением ИНН в атрибуте у1, то есть у1 является потенциальным ключом. И пусть обобщающее отображение ^ (х1 ) = х1 оставляет ИНН без изменений. Тогда, применяя теорему, можно заключить, что если построить таблицу соответствия, то каждая запись из переменной-отношения А будет входить в нее не более одного раза.

4. Отношения А и В синхронизируемы. Если по кортежу из А можно однозначно определить кортеж в В и по кортежу из В можно однозначно определить кортеж в А, будем говорить, что отношения А и В синхронизируемы. Смысл этого условия в том, что если перенести некоторый кортеж а из А в В, а потом обратно, то гарантировано не будет создано новой записи а', дублирующей а. Этот факт следует из предыдущей теоремы. Действительно, если по кортежу из В можно однозначно определить кортеж в А, то первичный ключ кортежа Ь может входить в таблицу соответствия не более одного раза и, следовательно, не

может соответствовать кортежам а и а одновременно.

Замечание. Не требуется, чтобы потенциальные ключи А и В лежали в Д5 = Д3 п Д3 . Для того чтобы А и В были синхронизируемы, достаточно, чтобы потенциальный ключ А лежал в ДА , а потенциальный ключ В лежал в ДВ .

В данной статье построена классификация взаимосвязей между доменами и между схемами данных. На основе построенной классификации найдены необходимые условия для решения различных задач интеграции данных: выполнение запросов, получающих информацию из обеих схем данных, перенос (конвертация) данных из одной схемы в другую, синхронизация данных.

В качестве возможного продолжения работы остается поиск достаточных условий для перечисленных задач и дальнейшее изучение свойств построенной классификации.

Автор благодарит своего руководителя чл.-корр. РАН, д.ф.-м.н. С.М. Абрамова за постановку задачи и полезные обсуждения.

ОЦЕНКА ПРОИЗВОДИТЕЛЬНОСТИ ИНТЕЛЛЕКТУАЛЬНЫХ СЕТЕЙ СВЯЗИ НА ОСНОВЕ АНАЛИТИЧЕСКИХ МОДЕЛЕЙ

И.Л. Бузюкова (Санкт-Петербург)

Для заказчиков программного обеспечения интеллектуальных сетей (ИС) связи важным аспектом качества работы системы являются ее характеристики, такие как производительность, стабильность, надежность. Для анализа подобного рода требований возникает необходимость моделирования трафика ИС. Цель данной статьи заключается в определении основных принципов, позволяющих построить модель трафика для узлов ИС.

При оценке производительности ИС должны учитываться следующие исходные данные: топология сети, соответствие функциональных элементов физическим узлам ИС, требования к сервису, модель распределения вызовов, процедуры обмена сообщениями.

По функциональности узлы ИС можно разделить на три уровня:

- узел коммутации услуг (SSP, Service Switching Point) с интеллектуальной периферией (IP, Intelligent Peripheral),

- узел управления услугами (SCP, Service Control Point) с узлом базы данных услуг (SDP, Service Data Point),

- узел менеджмента услуг (SMP, Service Management Point) и узел создания услуг (SCEP, Service Creation Environment Point).

Для рассмотрения требований к сервису в ИС приведем в качестве примера услуги универсальную персональную связь (УПС). Это услуга, позволяющая абоненту пользоваться исходящей и входящей связью по единому номеру вне зависимости от сетевой инфраструктуры и его местоположения.

Для того чтобы проанализировать производительность ИС, перейдем к модели обслуживания в ИС. При этом будем основываться на следующих предпосылках:

• модель распределения вызовов при использовании услуги УПС: 60% местных, 30% междугородных и 10% международных вызовов;

• для лучшей аппроксимации при моделировании нагрузка в сети принята симметричной;

• одинаковая интенсивность исходящего и входящего трафика;

• у всех абонентов одинаковая частота вызовов;

• в процесс установления соединения вовлечены только два пользователя.

Аналитическая модель трафика базируется на сетевой структуре ИС, при которой в процессе обработки интеллектуального вызова участвуют узлы SCP, SDP и SSP. Данные сетевые узлы можно поделить на два уровня: коммутаторы (SSP), вы-

i Надоели баннеры? Вы всегда можете отключить рекламу.