Научная статья на тему 'Модель согласования данных при интеграции информационных систем'

Модель согласования данных при интеграции информационных систем Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
605
92
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Танянский Сергей Станиславович

Рассматриваются вопросы обеспечения целостности и согласованности распределенных данных. Предлагается модель интегрированной системы на основе реляционной базы данных. Исследование методов поддержки целостности данных, основанных на зависимостях между атрибутами, дало возможность определить ряд свойств, обеспечивающих актуальность информации при совместном использовании нескольких баз данных. Рассматривается класс несогласованных баз данных и определяются методы их согласования.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Model of the coordination of the data at integration of information systems

The methods of designing of the allocated databases are analyzed. The basic means of support of integrity data based on dependences between attributes of the relations are considered. The properties of operations above the data influencing on an overall performance of the integrated systems are determined. The class of the uncoordinated relations is considered and the methods of their coordination for management of the integrated systems are offered on the basis of the allocated storage of the data.

Текст научной работы на тему «Модель согласования данных при интеграции информационных систем»

1) увеличить надежность программного продукта, так как благодаря доступности графического способа представления проекта в нотации языка UML проектные решения могли обсуждаться с заказчиком и соисполнителями в целях обнаружения логических ошибок на ранних стадиях проектирования;

2) сократить сроки отладки и внедрения программного продукта за счет выявления основных проблем системы на стадии проектирования и сокращения времени выполнения большей части рутинной программистской работы;

3) обеспечить повторное использование найденных решений в других разработках.

Применение другими р азр аботчиками этой мето до ло -гии при проектировании сложных программных систем может способствовать внедрению современных

УДК681.3.016 "

МОДЕЛЬ СОГЛАСОВАНИЯ ДАННЫХ ПРИ ИНТЕГРАЦИИ ИНФОРМАЦИОННЫХ СИСТЕМ

ТАНЯНСКИЙ С. С____________________________

Рассматриваются вопросы обеспечения целостности и согласованности распределенных данных. Предлагается модель интегрированной системы на основе реляционной базы данных. Исследование методов поддержки целостности данных, основанных на зависимостях между атрибутами, дало возможность определить ряд свойств, обеспечивающих актуальность информации при совместном использовании нескольких баз данных. Рассматривается класс несогласованных баз данных и определяются методы их согласования.

1. Введение

Проектирование баз данных (БД) представляет собой трудоемкий, длительный и, во многих случаях, неформализованный процесс. Это комплексная проблема, касающаяся, в конечном счете, не только обработки данных, но и организации вычислительного процесса в целом. Качество полученной в итоге структуры определяется общей методологией проектирования, используемой на каждом этапе разработки БД.

Выделяется три основных этапа построения БД [ 1,2].

1. Анализ предметной области. Здесь определяется область прикладных задач, состав и структура программного обеспечения.

2. Логическое проектирование. На этом этапе осуществляется отображение инфологической модели предметной области в логическую структуру данных. Можно отметить, что с повышением уровня автоматизации методов проектирования наблюдается тенденция объединения первого и второго этапов.

3. Физическое проектирование. Выбор структуры хранения данных на основе заданной логической структуры и методов доступа к данным.

84

методов разработки программного обеспечения, принятых в международной практике.

Литература: 1.Буч Г., Рамбо Д., Джекобсон А. Язык UML. Руководство пользователя: Пер. с англ. М.: ДМК, 2000. 432с. 2. ГомаХ. UML. Проектирование систем реального времени, распределенных приложений, М.: ДМК, 2002.

Поступила в редколлегию 14.03.2006

Рецензент: д-р техн. наук, проф. Руденко О.Г.

Есилевский Валентин Семенович, канд. техн. наук, доцент кафедры «Прикладной математики» ХНУРЭ. Адрес: Украина, 61166, Харьков, пр. Ленина, 14, тел. 7021 -94-36, e-mail:[email protected]

Нетёса Павел Сергеевич, бакалавр, студент ХНУРЭ. Адрес: Украина, 61166, Харьков, пр. Ленина, 14.

Климова Мария Валентиновна, бакалавр, студентка ХНУРЭ. Адрес: Украина, 61166, Харьков, пр. Ленина, 14.

Этими этапами ограничиваются традиционные методы проектирования БД. Рассматривая класс задач поддержки распределенных данных, введем дополнительный этап проектирования.

4. Проектирование технологии ведения БД. Этап включает определение оценки эффективности БД, анализ причин отклонения от эксплуатационных характеристик, а также осуществление мероприятий по устранению этих отклонений (реорганизация, реструктуризация БД и т. п.).

В дальнейшем под ведением данных будем понимать технологический процесс обновления БД в целях поддержки ее в актуальном состоянии в ходе функционирования информационной системы (ИС).

Недостатки, присущие системам монопольного использования БД, и отсутствие общей технологии управления распределенными данными привели к концепции интегрированных систем БД. Вместе с более сложной структурой появилась необходимость в системах управления такими БД. Однако программное обеспечение систем управления базами данных (СУБД) предназначено только для определения, загрузки и доступа к данным, структура которых заранее установлена.

Сложность ведения интегрированных данных требует дополнительных мероприятий по автоматизации этих процессов. При этом дополнительный этап проектирования технологии ведения должен до начала эксплуатации системы (при интеграции локальных БД) определить эффективные методы поддержки целостности распределенных данных.

Один из способов построения системы управления распределенными БД состоит в интеграции всех БД (или их частей, необходимых для обобщенного представления) на основе глобальной схемы. В дальнейшем под глобальной схемой будем понимать схему, состоящую из имен атрибутов БД, которые соответствуют как синтаксической, так и семантической уникальности. На концептуальном уровне она должна

РИ, 2006, № 2

описать единую интегрированную среду применительно ко всей (или части) информации. Считается, что БД создается на основе спроектированной глобальной схемы. Распределение информации достигается разбиением глобального отношения на части, соответствующие тем или иным требованиям пользователей.

Интеграция БД в общем случае не может быть выполнена только с помощью операций, использующих синтаксические свойства операндов, поскольку необходимо еще и разрешить семантические конфликты. Последние возникают из-за различий, относящихся, например, к именам атрибутов, их значениям, смысловому содержанию или обусловлены тем основополагающим фактом, что один и тот же реальный объект может восприниматься по-разному. Такая ситуация обычно затрудняет создание глобальной схемы даже для небольшого числа интегрируемых БД. В частности, если интегрируемые БД не согласованы относительно некоторого значения атрибута, т.е. имеются семантические конфликты, то не может существовать единого значения, одинаково воспринимаемого всеми пользователями. Также не существует общего метода выполнения корректировки данных через глобальную схему.

Исходя из этого, можно принять общий способ, основанный на предположении, что нет никакой глобальной схемы. Пользователь в этом случае, как правило, будет иметь дело с несколькими автономными схемами и рассматривать их как отдельные БД.

Большинство действующих в настоящее время БД являются централизованными, т.е. хранящими информацию на одном носителе, а точнее, крупномасштабными, где доступ к данным осуществляется с различных пунктов сети.

Необходимость исследования возможности эффективного ведения распределенных данных при обеспечении целостного состояния локальных БД определяет актуально сть данной статьи.

Основополагающая структура распределенной БД может быть опис ана на языке информацио нных структур и архитектуры системы. Информационная структура характеризует типы схем БД и их отношения, в то время как архитектура системы содержит описание важнейших обрабатывающих модулей и их взаимосвязей.

Интеграция систем, распределенных в вычислительной сети, в значительной степени усложняет реализацию и организацию поддержки БД. Современные подходы к использованию распределенных информационных ресурсов развивают идею их представления в виде набора типизированных объектов и наличие различных средств поддержки данных в актуальном состоянии для любого локального пользователя.

Исследования в этой области ведутся с момента практического использования БД в распределенных и интегрированных системах. Оригинальные подходы

были рассмотрены в [3], а также при построении испытательной распределенной базы данных [4]. Современные подходы к управлению распределенными ресурсами представлены в работе [5], в которой рассматриваются задачи, возникающие при обеспечении локальной автономности, а также в [6]. Следует выделить работу группы авторов [7], которая отличается широтой и глубиной охвата материала по вопросам проектирования и использования современных систем БД в распределенной среде.

Основное развитие ИС строилось на разработке средств эффективной организации данных и манипулирования ими. В результате было предложено несколько видов моделей данных, среди которых наибольшее распространение получили сетевая, иерархическая и реляционная модель данных.

На основании того, что большинство ИС используют для хр анения и обработки данных реляционные модели и соответственно системы управления реляционными структурами данных, дальнейшие выкладки будут строиться с использованием принципов и математического аппарата реляционной модели Кодда.

Основное отличие рассматриваемого класса БД состоит в ограничениях, накладываемых на структуру глобальной схемы и семантику данных. Обобщенно модель интегрированной БД можно представить в виде набора

M =< {Ri, иІ5 у i},U, Q, ,

где Ri - схема локальной БД; ю і - операторы локальных БД; у і - ограничения целостности локальных БД; U - глобальная схема БД, Q - операторы, реализующие транзакции между локальными БД; у -глобальные ограничения целостности (для U).

Разработка интегрированной БД в терминах такой модели сводится к сложному процессу построения структуры данных, так как она не содержит достаточных средств для независимого контроля целостности глобальной схемы. По этой причине необходимо найти такие средства поддержки БД, которыми можно описать ограничения на глобальном уровне представления данных, а не на уровне их локальных структур.

По мере того, как растет необходимость в распределенных системах, проектирование и поддержка таких структур становится важной областью построения интегрированных БД, требующей своих теоретических основ, отдельных постановок задач, разработки методов и средств их решения.

Таким образом, целью исследования является анализ ограничений для распределенных данных в системах БД, выявление недостатков существующих средств при интеграции данных и разработка теоретических основ поддержки интегрированной БД в согласованном состоянии.

РИ, 2006, № 2

85

Для обеспечения согласованности данных в статье необходимо рассмотреть следующие задачи: определить свойства некоторых операций реляционной алгебры, влияющие на целостность данных, задать условия корректного соединения отношений БД для эффективного функционирования интегрированной ИС, определить понятие эквивалентных схем БД, исследовать ограничения целостности и выделить класс несогласованных БД, определить принцип согласования данных пр и интегр ации данных локальных ИС.

2. Исследование свойств операций над данными

Как показал проведенный анализ, несмотря на несомненную эффективность применения концепции БД в ИС, попытка решения задачи ведения БД в промышленных условиях наталкивается на значительные трудности. Это объясняется тем, что существенное значение при повышении эффективности функционирования ИС имеет проблема поддержки целостности данных.

Значительная часть интегрированных систем обеспечивает в рабочем режиме лишь проведение локальных обновлений, т.е. контроль ввода ведется на уровне представления БД отдельными пользователями. В этом случае контроль целостности затруднен из-за необходимости построения универсальной схемы, что часто невозможно в связи с несогласованностью отношений БД.

Анализ важнейших ограничений целостности БД, которые в реляционной модели задаются функциональными зависимостями (ФЗ), показал, что поддержка ФЗ относится к классу NP - сложных задач [8]. Следовательно, алгоритм поддержки целостности имеет экспоненциальную временную сложность, что значительно сужает область его применения в интегрированных системах. Кроме того, при несогласованных отношениях, что часто бывает на практике, поддержка ФЗ во всех отношениях БД (глобально) затруднена в связи с возможной потерей информации при получении одного глобального отношения, экземпляром которого является вся информация интегрированной БД.

Обычно отношения рассматриваются как статические объекты. Однако они предназначены для отражения некоторой части реального мира, которая изменяется во времени, т.е. кортежи могут добавляться, удаляться или изменяться. Тем не менее, предполагается, что схема отношения инвариантна во времени.

Дальнейшие рассуждения и выводы будут базироваться на предположении о существовании универсального отношения (УО). В схеме такого отношения каждый атрибут имеет уникальное имя, причем будем считать, что множество атрибутов схемы любого другого отношения БД есть некоторое подмножество атрибутов U, где U - схема УО.

Интеграция требует соединения нескольких отношений БД из локальных ИС, что не всегда приводит к однозначному результату. Неоднозначность может возникнуть вследствие того, что операции реляцион-

ной алгебры соединение (><) и проекция (p) не являются взаимообратными, хотя и образуют дополнительные функции.

Обобщенные свойства совместного использования операций соединения и проекции выражаются правилами взаимодействия [8]. Пусть r(R), s(S) и q(Q) -некоторые отношения со схемами R, S, Q соответственно, тогда выполняются следующие аксиомы.

1. Идемпотентность проекции:

если Q с S с R, то пQ(rcS(r(R))) = (кq (r(R)).

2. Коммутативность соединения:

(q(Q) >< s(S)) >< r(R)) = q(Q) >< (s(S) >< r)R)).

3. Поглощение соединения проекцией:

если R = Q u S, то r(R) ck q (rR)) ><KS(r(R)).

Введем некоторые определения для многократных

соединений. Пусть Si(S i),_, sn(Sn) - отношения БД,

R = S1 u _ u Sn, и пусть t1,_,tn - последовательность кортежей, в которой ti Є Si, 1 < i < n. Будем говорить, что кортежи t1,_, tn соединимы на S, если 31 на RS ti = t(Si), 1 < i < n. Кортеж t является результатом соединения кортежей t1,_,tn на S. Отношения s 1,...,sn будем называть полностью соединимыми, если каждый кортеж в каждом отношении является членом некоторого списка соединимых на S кортежах.

Пусть r(R) и s(S) - отношения БД, q=r><s и Q = R u S - схема отношения q. Положим r = п r (q). Между r и r' существует связь, так как у t є q проекция t(R) должна быть кортежем r, а r' = {t(R)S t є q}, т.е. r' с r. Включение становится равенством, когда Vtr є r 3ts є s с tr(R u S) = ts(R n S). Включение также может стать равенством и без того, чтобы r и s были полностью соединимыми. Если S' = к s(Q) и, следовательно, значения отношения s' соответствуют

S

', то условия r = r' и s = s' означают в точности то же самое, что и отношения r и s полностью соединимы.

Следующая теорема обобщает результат более чем на два отношения.

Теорема. Пусть r1 (R1),..., rn (Rn) - отношения БД и q = r1 >< ... >< rn. Отношения r1 ... rn полностью

соединимы тогда и только тогда, когда Гі =п r. (q), 1 < i < n.

Доказательство. Необходимость. Пусть r1 (R1),..., rn (Rn) - отношения БД и q = r1 >< ... >< rn универсальное отношение со схемой U = (R1 и ... и Rn).

Предположим, что Р1 = я R1 (q),..., Pn = яRn (q), тогда Р1 = Г1, ..., pn = rn, когда

Vtr. є Гі 3trj Є rj І Ц (Ri nRj) = trj (Ri ПRj),

86

РИ, 2006, № 2

VR; ПRj Ф 0 , при 1 < i < n, 1 < j < n, i ф j. Достаточность. Пусть p - отношение со схемой

U = (Ri u ... u Rn) и ri = лR1(p),...,rn = лRn(p).

Предположим, что q = r1 >< ... >< rn. Если t(R) є p, то t(Ri) є rb..., t(Rn) є rn. Пусть T = Ri n Rj и TФ0 , тогда

л T (ri) = л T (n Ri (q)) = л T (q) = л t (л Rj (q)) = л t (rj).

Отсюда следует, что q полностью соединимо, так как

Vtr

е ri 3trj

є Ц

tri (T) - trj (T), при 1 < i < n,

1 < j <n, i Ф j.

Теорема доказана.

При интеграции ИС существует чрезвычайно большая свобода выбора принципов структуризации данных и спецификации ограничений. Одному и тому же приложению может соответствовать множество различных схем. В этой связи имеет смысл определить понятие эквивалентных схем БД.

Пусть R1 = {Rb..., Rn} и R2 = {R1,... Rm} - схемы БД. Будем говорить, что схемы R1 и R2 эквивалентны (R1 = R2), если R1 << R2 и R2 << R1. Для пояснения символа “<<“ введем в рассмотрение операции объединения и разложения на множестве {Ri}.

Пусть даны два отношения r1 и r2 со схемами R1 (A1,., Ak) и R2 (A1,., Ap). Объединением схем двух отношений назовем схему R', состоящую из элементов данных R1 или R2, где операция “или” соответствует определению теоретико-множественной операции объединение. Таким образом, R' = R1 u R2={A1v..,

Ak} ^ {Ab- • •, Ap}.

Разложением схемы R будем называть отношения R1,..., Rn такие, что их объединение есть R, т.е.

n

U Ri = R. Схема R1 содержится в R2 (R1<<R2), если i=1

VRi є R1 может быть получена из R2 операциями объединения и разложения.

Определим условия, согласно которым схемы баз данных могут быть сравнимы в смысле отношения “<<”. Будем считать, что разложения R' (R1,., Rk) и R'' (R1,., Rp) сравнимы, если R'<<R'' или R''<<R'. Необходимые условия сравнимости схем R' и R'' имеют вид:

URi= U', URj= U'' и U' = U'' = U,

i—1 j=1

где U - схема УО.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Таким образом, все последующие рассуждения строятся в классе эквивалентных схем на множестве U.

Ограничения вводятся в моделях данных в целях повышения их семантичности и расширения возмож-

РИ, 2006, № 2

ностей поддержания целостности данных. Первый аспект связан с адекватностью отражения реального мира в схеме, а второй - с возможностями СУБД обеспечивать соответствие порождаемых схемой состояний БД требованиям, выражаемым ограничениями. Ограничения целостности делятся на два класса.

1. Ограничения, которые зависят от семантики элементов домена. Они основаны на понимании того, что означают компоненты кортежей.

2. Огр аничения на отношения, которые зависят только от равенства или неравенства значений в кортежах. Эти ограничения связаны не с конкретными значениями элементов кортежа, а с тем, совпадают ли определенные элементы двух кортежей.

Заметим, что ограничения 2-го класса дают возможность представить отношение его проекциями без потери информации, т.е. обеспечивают равенство вида (в отличие от общего случая (аксиома 4))

r(R) = пRi (r(R)) ><... ><лRn (r(R)),

n

где R = U Ri.

i=1

Таким образом, ограничения 2-го класса влияют на выбор структуры БД, как на концептуальном, так и на физическом уровне. Такие ограничения задаются в форме так называемых зависимостей атрибутов. Среди таких зависимостей можно выделить функциональные, многозначные, зависимости соединения и др.

Зависимости, как ограничения целостности, играют заметную роль в моделировании данных. Вместе с тем, существуют свойства БД, которые также необходимо поддерживать. БД обладает свойством однозначности по отношению к некоторой совокупности пользователей, если в любой момент времени БД реагирует на их запросы одинаковым образом, т.е. все пользователи на заданный запрос получают одинаковый ответ. Это свойство соответствует в основном многопользовательским БД в интегрированных системах.

Различные модели данных основывается на предположении о том, что представляемая информация хорошо укладывается в плоские таблицы, т.е. приводится к реляционной модели. Это предположение может нарушаться по двум причинам:

1) информация не соответствует простой структуре хранения;

2) структура информации соответствует предложенной форме, но часть ее отсутствует.

По этим причинам в таблицах хранения данных могут возникать так называемые неопределенные значения. Особое внимание на использование неопределенных значений необходимо уделять при совместном использовании распределенных данных, так как причиной их возникновения может быть результат выполне-

87

ния запроса к таблицам из различных локальных БД, которые, возможно не согласованы глобально.

Термин “неопределенное значение” широко применяется в литературе по БД [8, 9] для специальных значений домена, которые возникают по целому ряду причин. В работе этот термин используется в узком смысле: “значение не определено”.

Введем формальное определение неопределенных значений в качестве инструмента для работы с БД как с единым семантическим целым. Строку, содержащую некоторое число вхождений неопределенного значения, будем называть частичной (в обозначении

t ). Строку t без неопределенностей будем называть полной. Строку t со схемой, включающей атрибут A, будем называть определенной на A (в обозначении t(A)), если t(A) не является неопределенным значением. Отношение г будем называть полным, если все его

строки являются полными. Через г будем обозначать частичные отношения, т. е. отношения, содержащие некоторое число неопределенных значений. Обо-

значим через rel (R) множество всех частичных

отношений со схемой R и через rel(R) - множество всех полных отношений со схемой R.

В прикладных задачах на частичные отношения могут накладываться различные ограничения, например, требование, чтобы они удовлетворяли F - зависимостям. Для множества rel (R) множество F может использоваться при решении двух задач:

1) замещение неопределенных значений определенными;

2) поддержка целостности данных.

Применение F - зависимостей для заполнения неопределенностей затрагивает большой раздел в теории БД и в данной статье не рассматривается. В дальнейших исследованиях F - зависимости будут использоваться как ограничения целостности БД, причем БД в некотором смысле будет содержать неопределенности.

Существуют ограничения относительно того, где в отношении могут появиться неопределенные значения. Типичный случай - запрещение неопределенностей в любой компоненте первичного ключа. Можно выделить и другие виды огр аничений. Пусть R - схема отношения. Ограничение существования (E - зависимость) в R - это утверждение вида X L> Y (читается: “если X, то Y”), где X с R и Y с R. Отношение

г є Rel1 (R) удовлетворяет E - ограничению XL>Y, если t(X) влечет за собой t(Y) Vt є R.

Отношение удовлетворяет некоторой E - зависимости, если каждая его строка в отдельности удовлетво-

ряет этому ограничению. В этом состоит основное отличие от F - зависимостей, где необходимо рассматривать пары строк. Далее рассмотрим зависимость существования между отношениями БД и ее влияние на семантику универсального отношения.

Исследуем ограничения на существование неопределенностей как средства контроля при использовании неопределенных значений. Пусть r(R) и s(S) - некоторые отношения и R о S ^0 , тогда будем говорить, что г сохраняется при соединении, если л r (г >< s) = г , что соответствует TL>s. При выполнении условий Л r (г >< s) = г и я^(г >< s) = s будем говорить, что отношения сохраняются в обе стороны, и обозначать T<-L>s. Если tL>s, тогда будем говорить, что БД удовлетворяет ограничению существования между отношения г и s. Таким образом, при выполнении E -зависимости для отношений t(R) и s(S), когда R О S ^0, должны выполняться следующие условия:

1. Каждый добавляемый в г кортеж t должен иметь значение компоненты t(X), где X = R n S такое, что в отношении s существует кортеж р, для которого выполняется равенство p(X) = t(X). Другими словами, каждый кортеж отношения г должен соединяться с кортежем (кортежами) отношения s.

2. Каждый удаляемый из s кортеж р имеет значения на компоненте p(X), где X = R о S такое, что ни один кортеж t є г не имеет значения на компоненте t(X) = p(X). Другими словами, кортеж, который удаляется из отношения s, не должен соединяться ни с одним кортежем отношения г.

В общем случае будем говорить, что отношение s зависит по существованию от отношения г, если в естественном соединении T><s сохраняются все кортежи г. Это означает, что для любого кортежа из г в s найдется “ответная часть”, т.е. кортеж, который имеет точно такие же значения общих для г и s атрибутов. Аналогично можно определить зависимости существования на подмножествах отношений БД. Например, запись TL>s><p означает, что г зависит по существованию от отношения, образованного соединением отношений s и p. Как и в случае функциональных зависимостей, зависимости существования определяются на основе “мысленного эксперимента” со всеми допустимыми состояниями БД.

Исследование неопределенных значений обусловлено потребностями процесса интеграции БД, входящих в локальные ИС. В дальнейшем неопределенности рассматриваются с учетом двух основных критериев. Во-первых, они должны обладать достаточной общностью с тем, чтобы их можно было представлять структурами, свойственными реальному миру. Во-вторых, возможностям модели должны соответствовать возможности СУБД, иначе возникают проблемы реализации.

88

РИ, 2006, № 2

3. Определение несогласованной базы данных

Как отмечалось выше, при построении локальных ИС исходными проектными данными служат схемы, отображающие информацию, которая необходима каждому отдельному пользователю. В дальнейшем такую схему будем называть локальной универсальной схемой (ЛУС). При этом логическая структура ЛУС открыта для пользователя, а физическая является скрытой (в большинстве случаев физическое представление отличается от логического). Проектирование интегрированной архитектуры заключается в идентификации общих данных и в выявлении их отличий. Значительная часть интегрированных систем обеспечивает в рабочем режиме лишь возможность формирования локальных запросов и проведения локальных обновлений.

При проектировании структуры интегрированной БД предположение, что естественное соединение отдельных отношений является УО, не освобождает разработчика от ряда серьезных проблем:

- автоматическое обновление локальных отношений приводит к нарушению целостности, если не применять специальные методы контроля данных на полноту соединения отношений;

- поддержка зависимостей между атрибутами нескольких отношений может привести к необходимости восстанавливать УО или его проекцию, которая не хранится в БД;

- не всегда целесообразно рассматривать локальные отношения как проекцию УО, так как они могут содержать дополнительные кортежи, не соединяющиеся с кортежами других отношений;

- процедура проверки полноты соединения имеет экспоненциальную временную сложность.

При этом трудность поддержки целостности возникает из-за необходимости построения УО, которого, быть может, и не существует, хотя строки с универсальной схемой U имеют смысл. Такое предположение допускает несогласованная БД.

Несогласованная БД представляет собой совокупность нескольких локальных отношений, а попытка свести эти отношения в одно универсальное приводит к появлению в его экземплярах неопределенных значений. Другими словами, БД является несогласованной, если допустимо такое состояние локальных отно -шений, при котором не все кортежи одного локального отношения воссоединяются при выполнении естественного соединения с другим локальным отношением. Согласованная БД хотя и может быть представлена несколькими локальными отношениями, но их допустимые состояния таковы, что УО полностью восстанавливается естественным соединением локальных отношений.

Как видно, согласованная БД является частным случаем несогласованной БД. Если согласованную БД можно представить в виде двух или большего числа

отношений, естественное соединение которых восстанавливает исходное У О, говорят, что БД удовлетворяет зависимости соединения.

Пусть R - имя УО и Т - множество атрибутов УО; N, M - имена локальных отношений с атрибутами X, Y соответственно, на которые декомпозируется УО. Если R = N >< M, то для R выполняется зависимость соединения в обозначении ><[ X,Y ]. Зависимость соединения задается на множестве атрибутов УО и определяется всевозможными допустимыми состояниями БД.

Построение структуры несогласованной БД завершается выявлением ФЗ внутри каждого локального отношения. Отметим, что в случае, когда в одном из локальных отношений выявлена некоторая ФЗ между его атрибутами и эти же атрибуты присутствуют в другом локальном отношении, то в последнем также должна выполняться эта ФЗ. Сам этот факт повторно можно не отражать в концептуальном представлении. Однако если анализ ПрО говорит о том, что A ^ B выполняется в отношении Rj, но не выполняется в отношении R2, то это свидетельствует о неправильном отождествлении атрибута A (или В) в глобальном представлении БД. В этом случае в глобальном представлении должны присутствовать два атрибута А і и А2 (или В і и В2).

4. Согласования данных при интеграции баз данных

Исходная схема может быть задана одним из двух способов [9]. В первом случае задается множество атрибутов и все ФЗ между ними; во втором - множество отношений r(R) и множество функциональных зависимостей F между атрибутами в каждой Ri. Одним из способов выражения уникальности является представление всех атрибутов как компонент одной схемы U и соответствующего УО.

В первом случае задается схема U множества F, и необходимо решить задачу корректной декомпозиции U, т.е. представить схему U совокупностью схем R = {Ri, R2,..., Rn}, таких, что

Ri u R2 u • • • u Rn = U, при этом r - отношение со схемой U, а множество {rj, Г2,..., rn} - отношения со схемами из R. Пусть, например, дано некоторое отношение R{A, B, C, D} и пусть имеет место следующее множество зависимостей F = {A ® B, A, C ® B}. Устранить некоторые аномалии [8, 10] в отношении R можно, заменив двумя отношениями Rj(A, B) и R2(A, C, D). Если в БД используются отношения Rj и R2 вместо R, то можно ожидать, что текущие состояния для этих двух схем будут проекциями отношения

R. Формально имеем проекции вида ri = л Rj(U) и

Г2 = л r2 (U). В результате такой декомпозиции ФЗ

“разнесены” по разным отношениям, в чем и состоит принцип устранения аномалий.

Декомпозиция эффективна, если схема R = U и выполняются два условия:

РИ, 2006, № 2

89

- обеспечение соединения без потерь информации;

- обеспечение сохранения зависимостей.

Декомпозиция R обладает свойством соединения без потерь информации по отношению к множеству F, если для каждого Г, удовлетворяющего F, справедли-n

во условие: г = >< R: (Г)) .

i=1 1

Декомпозиция R сохраняет F, если выполняется усло-n

вие: ( U Fi )+ = F+ , т.е. зависимости U должны сохра-i=1

няться в R.

Во втором случае исходными проектными данными служат схемы, отображающие информацию, которая необходима отдельной БД, входящей в каждую локальную ИС.

Пусть Г = {гі, Г2,..., rn} - множество отношений БД, U = {А1, А2,..., Ак} - множество всех атрибутов БД, R = {Ri, R2,.., Rp} - множество схем локальных БД, причем отношениями {Ri} являются экземпляры БД, полученные соединением или проекцией отношений из г, и пусть для каждой схемы из R определены свои ФЗ. При этом БД рассматривается как единое семантическое целое, т.е. необходимо поддерживать целостность данных во всех отношениях множества r.

Таким образом, как было отмечено выше, семантическая однозначность атрибутов интегрируемой БД требует проверки ФЗ на универсальной схеме. Поддержка целостности в этом случае затрудняется по двум причинам:

- невозможность получения такого экземпляра БД, который содержит всю хранимую информацию, так как интегрированные системы в основном имеют несогласованную структуру;

- экспоненциальная вычислительная сложность операции естественного соединения [8, 11].

Важное свойство для R заключается в том, чтобы множество зависимостей F для U было выводимо из F на схемах Ri. Формально проекцией F на множество атрибутов Z, обозначаемой pZ(F), называется множество зависимостей X ^ Y в F, таких, что X ^ Y с Z. Заметим, что зависимость X ^ Y не обязательно принадлежит F, она должна принадлежать замыканию F+[2]. Будем говорить, что R сохраняет множество ФЗ, если из объединения всех зависимостей, принадлежащих л Ri (F) для i = 1, 2,..., р, логически следуют все зависимости, принадлежащие F.

Стремление к тому, чтобы R сохраняла F, может рассматриваться как ограничение целостности для интегрированной БД. Так как при интеграции несогласованных БД не всегда выполняется условие сохранения зависимостей при каждом обновлении одного из Ri, необходимо осуществлять соединение для того, чтобы проверить, не нарушилось ли данное ограничение.

90

Пусть Г1(А, B, D) и Г2(А, B, C) - отношения локальных БД, которые удовлетворяют зависимостям F1 = {A, B ^ D} и F2 = {A, B ^ C}, и пусть необходимо поддерживать глобальную зависимость F = {A, B ^ C, C ^ D}, для чего потребуется соединение отношений Г1 и Г2 (рисунок).

Г1 Г2 Гз

Соединение, нарушающее ФЗ

Очевидно, что эта операция отвечает свойству соединения без потерь (см. рисунок, в). При добавлении новых кортежей <a2, b2, d2> и <a2, b2, c1> в Г1 и Г2 соответственно нарушается ФЗ C ^ D (добавленные и полученный кортеж на рисунке обведены). Таким образом, представленные локальные отношения не отвечают глобальной ФЗ, при этом сохраняют свойство соединения без потерь информации.

5. Выводы

Проанализировав операционную спецификацию и зависимости между данными, влияющими на согласованность информации в БД, можно сделать вывод, что средства, гарантирующие целостность данных в локальных системах, не всегда могут адекватно применяться в интегрированных системах. При этом использование операций реляционной алгебры для решения таких задач не представляется возможным в силу некорректности их применения при несогласованности отношений.

Таким образом, научной новизной работы является предложенная модель несогласованной БД, которая дает возможность рассматривать интегрированную систему как набор отношений, между которыми установлены зависимости на допустимые значения. Определенные свойства соединимости без потерь и сохранения зависимостей задают класс БД, гарантирующих целостность хранимой информации. С другой стороны, ограниченность операционной спецификации сужает этот класс из-за появления неопределенных значений и, как следствие, неоднозначность данных.

Практическая значимость полученных результатов заключается в том, что при построении интегрированной БД, учитывая возможную несогласованность данных, можно обеспечить поддержку целостности данных, на этапе ведения ИС используя дополнительные программные средства.

Для расширения возможностей интеграции необходимо модифицировать некоторые операции для работы с неопределенными значениями в кортежах глобального отношения. Эти задачи определяют дальнейшее исследование несогласованных БД, разработку средств интеграции ИС, обеспечивающих надежное

РИ, 2006, № 2

хранение и обработку данных, а также повышение эффективности поддержки целостности путем снижения временных затрат на соединение локальных отношений БД.

Литература: 1. Дейт К. Введение в системы баз данных: Пер. с англ.. М.: Издательский дом “Вильямс”, 2001. 1072 с. 2. УльманДж. Основы систем баз данных: Пер. с англ. М.Р. Когаловского и В.В. Когутовского; Под. ред. М.Р. -Когаловского. М.: Финансы и статистика, 1983. 334 с.

3. Карденас А.Ф. Управление неоднородными распределенными базами данных // ТИИЭР. Т. 75, № 5. 1987. С. 72-86. 4. Дуайер П.А., Ларсон Дж.А. Опыт работы с испытательной распределенной базой данных // ТИИЭР. Т. 75, № 5. 1987. С. 126-138. 5. Чери С., Перничи Б., Видер-хольдДж. Методология проектирования распределенных баз данных // ТИИЭР. Т. 75, № 5. 1987. С. 7-22.

6. Sheth A.P., Larson J.A. Federated database for managing distributed, heterogeneous, and autonomous databases // Computing Surveys, 22:3 (1990). Р. 183-236. 7. Гарсиа-Мо-

УДК621.383.8:621.396.96:621.396.6 '

СУЧАСНИЙ СТАН СИСТЕМ ПРИЙОМУ, МОНІТОРИНГУ І ОБРОБКИ ІНФОРМАЦІЇ ЗОБРАЖЕНЬ І ПЕРСПЕКТИВИ ЇХ РОЗВИТКУ НА ОСНОВІ ДИФЕРЕНЦІАЛЬНОГО МЕТОДУ

РУСИН Б.П., ІВАНЮК В.Г., КАПШІЙ О.В. * і

Представлений огляд фокусується на розгляді і визначенні основних технічно-програмних перетворень інформації для зображень, котрі несуть інформацію про фізичні процеси, за схемою диференціального методу і спектра супутніх питань. Спираючись на представлені матеріали пропонується формалізоване дослідження такої схеми на засадах кількості інформації. Дається практична оцінка впливу технічних засобів отримання інформації зображень за схемою диференціального методу.

1. Вступ

За останні роки область застосування цифрової обробки зображень, котрі несуть інформацію про фізичні процеси (медицина, гістологія, біологія, металографія

і т. д.), значно збільшилась, чому сприяло застосування нових пристроїв і програм в системах обробки інформації зображень. Тим не менше, залишаються певні недоліки в роботі зазначених систем обробки інформації і на їх усунення направлені зусилля значної частини дослідників, які працюють в галузі обробки зображень. Представлений огляд приділяє увагу розгляду і визначенню основних технічно-програмних перетворень інформації, які є в системах прийому, моніторингу, обробки і архівування інформації зображень, котрі несуть інформацію про фізичні процеси. З метою запозичити корисні перетворення для втілення в таких системах огляд спрямований на розгляд і визначення основних технічно-програмних перетворень інформації, які є в мультимедійних системах. В

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

РИ, 2006, № 2

лина Г., Ульман Дж., Уидом Дж. Системы баз данных. Полный курс.: Пер. с англ. М.: Издательский дом “Вильямс”, 2003. 1088 с. 8. Мейер Д. Теория реляционных баз данных. М.: Мир, 1987. 608 с. 9. ЦаленкоМ.Ш. Семантические и математические модели баз данных. М.: ВИНИТИ, 1985. 208 с. 10. ГолосовА.О. Аномалии в реляционных базах данных // Системы управления базами данных. 1996. № 3. С. 23-28. 11. БуслікМ.М. Оптимальні зображення реляційних баз даних. Монографія. К: ІСДО, 1993. 84 с.

Поступила в редколлегию 12.03.2006

Рецензент: д-р техн. наук, проф. Филатов В.А.

Танянский Сергей Станиславович, канд. техн. наук, доцент кафедры информационных систем и технологий в деятельности ОВД Харьковского национального университета внутренних дел. Научные интересы: поддержка и обработка распределенных данных. Адрес: Украина, 61080, Харьков, пр. 50-летия СССР, 27, тел: 739-85-79, e-mail: [email protected].

першу чергу увага концентрується на визначенні перспектив розвитку зазначених перетворень на основі диференціального методу для файлів зображень, котрі несуть інформацію про фізичні процеси.

Мета дослідження: огляд основних технічно-програмних перетворень інформації, які використовуються в сучасних системах обробки медичних, металографічних, мультімедіа зображень та виділення серед них перетворень, корисних для розвитку схем диференціального методу. Задачі: 1) Формалізація схем диференціального методу за пар аметром, що діагностує фізичний стан досліджуваного об’єкта. 2) Оцінка впливу похибок приймача зображення та формування рекомендацій по застосуванню апаратури приймача і її юстуванню.

2. Сучасний стан систем обробки медичних зображень

Діагностування з допомогою медичних зображень є їх спеціальне декодування. Вони несуть інформацію про клінічні процеси (відновлення форми медичних об’єктів в трьохмірному просторі з двохмірних зображень ). Екстракція об ’ єктів з дистанционно отр иманих зображень, метричні виміри розмірів медичних об ’ єктів є складними внаслідок варіації геометрії і частотних форм об’єктів діагностики та декодування і варіації інтенсивності (чи кольору) всередині однакових структурних класів.

В процессі такого декодування медичного зображення візуально або з допомогою системи обробки зображень визначаються певні діагностичні параметри, що характеризують стан пацієнта.

Проведемо огляд питань, які виникають під час обробки медичного зображення.

В роботах [1-5] розглядається відновлення медичних зображень, пошкоджених внаслідок дискретизації їх сигналу. Типовим представником такого напрямку досліджень є робота [1]. В ній запропоновано новий метод для відновлення пошкоджень від дискретизова-

91

i Надоели баннеры? Вы всегда можете отключить рекламу.