Научная статья на тему 'Модель интеграции данных в единое информационное пространство предприятия с использованием метода n-грамм'

Модель интеграции данных в единое информационное пространство предприятия с использованием метода n-грамм Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
402
81
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ИНТЕГРАЦИЯ ДАННЫХ / N-ГРАММ / МАТРИЦА ДОСТУПА / ПРЕДПРИЯТИЕ / МОДЕЛЬ ИНТЕГРАЦИИ / DATA INTEGRATION / N-GRAMS / ACCESS MATRIX / ENTERPRISE / INTEGRATION MODEL

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Подобрий Александр Николаевич

В статье рассматривается подход к реализации сопоставления данных с помощью модифицированного метода n-грамм. Выводится модель интегрированной информационной системы и доступа к сопоставленным данным в рамках корпоративной информационной сети. Статья предназначена для специалистов, занимающихся внедрением автоматизированных систем управления предприятием, а также для специалистов занимающихся вопросами интеграции данных.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Подобрий Александр Николаевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

DATA INTEGRATION MODEL IN A COMMON INFORMATION SPACE COMPANIES USING METHOD N-GRAM

In the article considers an approach to the implementation of mapping data with the modified method of n-gram and model of an integrated information system, and access to associated data within a corporate network information. Article is intended for professionals involved in the introduction of automated business management systems, as well as for all professionals involved in data integration.

Текст научной работы на тему «Модель интеграции данных в единое информационное пространство предприятия с использованием метода n-грамм»

УДК 004.6

МОДЕЛЬ ИНТЕГРАЦИИ ДАННЫХ В ЕДИНОЕ ИНФОРМАЦИОННОЕ ПРОСТРАНСТВО ПРЕДПРИЯТИЯ С ИСПОЛЬЗОВАНИЕМ МЕТОДА ^ГРАММ

© 2012 А.Н. Подобрий

ФНПЦ ОАО "НПО "Марс", г. Ульяновск

Поступила в редакцию 02.11.2012

В статье рассматривается подход к реализации сопоставления данных с помощью модифицированного метода п-грамм. Выводится модель интегрированной информационной системы и доступа к сопоставленным данным в рамках корпоративной информационной сети. Статья предназначена для специалистов, занимающихся внедрением автоматизированных систем управления предприятием, а также для специалистов занимающихся вопросами интеграции данных.

Ключевые слова: интеграция данных, п-грамм, матрица доступа, предприятие, модель интеграции.

Интеграция данных - обеспечение единого согласованного представления данных для ряда информационных ресурсов, объединенных общим смысловым содержанием, и/или на основе общего представления - частных представлений.

Интеграция данных в информационных системах понимается как обеспечение единого унифицированного интерфейса для доступа к некоторой совокупности, неоднородных независимых источников данных. Таким образом, для пользователя информационные ресурсы всей совокупности интегрируемых источников представляются как новый единый источник. Система, обеспечивающая пользователю такие возможности, называется системой интеграции данных [1, 2].

Система интеграции данных освобождает пользователей от необходимости знания, данные из каких источников, кроме интегрированного, они используют, каковы свойства этих источников и как осуществить доступ к ним. Доступ к данным многих источников обеспечивается через единый интерфейс, который представляет совокупность данных из множества независимых источников в терминах единой модели данных на основании прав доступа.

Существуют три основных типа информационного поиска: булевый, поиск по релевантности и поиск по сходству. Для сопоставления неоднозначных наименований объектов предлагается использовать метод нечеткого поиска основанный на релевантности - количественного критерия схожести. В основе данного метода лежит модифицированный метод n-грамм.

Целями статьи являются построение математической модели интегрированной информационной системы на основании интеграции данных из разных информационных систем с помощью сопоставления данных, используя метод Подобрий Александр Николаевич, ведущий инженер-программист. E-mail: mars@mv.ru

п-грамм, и матрицы прав доступа сотрудников предприятия.

МОДЕЛЬ ИНТЕГРИРОВАННОЙ ИНФОРМАЦИОННОЙ СИСТЕМЫ

Основным понятием описываемой модели является понятие информационного объекта, являющимся сущностью информационной системы [3].

Набором информационных объектов назовем множество упорядоченных пар вида:

х = {<ах,\ >,<а2,Ъ2 >,...,<ап,Ъп >},

а1 <> а}. для I <> у , I, у е {1. п}, где а - имя атрибута (идентификатор),

Ъ - характеристика (свойство) объекта.

Набор свойств Ъ1 можно представить как кортеж полей

Ъ1 = {еп> е 2 еш},

каждое поле которого состоит из набора:

еИ = , % ) , где Уу - значение атрибута,

в у - тип атрибута

Таким образом, набор свойств информационного объекта заданных множеством характеристик ставят в соответствие каждому объекту некоторое свойство Ъi е В = {Ъ1, Ъ2,...,Ъп} .

Через ох обозначим множество атрибутов элемента х, через о1 (х) - характеристика атрибута о1 объекта х.

Информационную систему рассмотрим как структуру информационной схемы, описывающей характеристики входящих в эту систему информационных объектов.

Информационная схема включает в себя следующие характеристики:

- множество характеристик информационных объектов;

- множество атрибутов для информационных объектов каждой характеристики;

- множество используемых атрибутов;

- множество связей между информационными объектами;

- множество иерархий (вложенностей) объектов.

Связи между информационными объектами зададим элементами множества L = {11, l2,..., 1к }, где каждый элемент является тройкой:

11 = {о]1, О] 2 , г } ,

где о^, Оj2 - два связанных между собой объекта,

Г - наименование (вид) роли, по которой связываются объекты.

Иерархия (дерево вложенности) объектов опишем множеством T = t2,...,tn}, где каждый элемент - это пара ti = (oi,о}-), где / е{1..п} , в которой первый элемент соответствует объекту с тем же индексом, а второй указывает на объект, который является родительским по отношению к данному в иерархии.

Информационной схемой назовем набор:

M =< О, В, L,T > ,

где O = {о1, о2,..., on} - множество атрибутов информационных объектов;

B = {Ь1, Ь2,...,Ьп } - множество возможных характеристик атрибутов;

L = {11, 12,..., 4 } - множество связей между информационными объектами;

T = t2,...,tp } - множество иерархий (вложенностей) объектов

Информационной системой построенной по схеме М назовем набор:

SM =<М,S,в>, где М =< О, В, L,T > - информационная схема;

S = {х1з х2,..., хп} - множество информационных объектов;

в : S ^ В - отображение, ставящее каждому объекту его характеристику.

Причем для каждого информационного объекта х е 8 выполнено следующее условие:

Все атрибуты х имеют значение и тип, т.е. для любой пары<а,Ь> е х существует Ь е Р(а) .

Пусть М = {М1,М2,...,Мп} - множества схем информационных систем. Используя sM = {S1M1, S2М2,-, SnMn}, обозначим множество информационных систем, каждая из которых имеет соответствующую схему из М .

Для того, чтобы множества информационных систем можно было рассматривать как единую информационную систему, необходимо, чтобы разные информационные системы, входящие в sM могли иметь пересекающиеся множества атрибутов объектов и соответствующие им характеристики.

Таким образом, для построения интегрированной информационной системы, необходимо, чтобы отображения - В, ставящие каждому объекту его свойство на разных информационных системах совпадали.

Множество информационных систем _sm

iM =

непротиворечиво если существует s {S1M 1, S2M2,-, SnMn} - множество информационных систем, где S,M =<Mi,S,,ß > и Mi =< O,, B,, Li, T > , для которых:

S = U S,, O = U O,, B = U B,., L = U L ,T = U T .

1<i< N 1<i< N 1<i< N 1<i< N 1<i < N

При условии, что существует отображение ß: S ^ B, являющееся расширением каждого отображения ßi для 1 < i < n.

Информационная система S называется интегрированной на множестве информационных систем sm , если sm = {S1M1, S2M2,-, SnMn} непротиворечиво.

Таким образом, будем считать информационную__систему S' =< M, S, ß> , где

M =< O,B,L,T > интегрированной на множестве SM.

ОПИСАНИЕ МОДЕЛИ СРАВНЕНИЯ ХАРАКТЕРИСТИК ИНФОРМАЦИОННЫХ ОБЪЕКТОВ

N-граммой на алфавите E некоторого языка L(E) будем представлять набор символов длиной n строки Y [5], где E = {v, e1, e2,..., et} - алфавит;

L(E) - некоторый язык на алфавите E;

Y -строка символов.

N-грамма может совпадать с какой-либо строкой, быть его подстрокой или не входить в язык L(E):

- если алфавит E = {v, e1, e2,..., et} и строка Y = {У1,У2,...,Уп,$}, где Vi,yt е A, то n-грамма - это последовательность из n символов, принадлежащая одному слову;

- если строки - это тексты, то n-грамма -это последовательность из N слов одного текста.

Число вхождений строки Y опишем множеством: C (w) = C (w1, w2,..., wn),

где W = {w1, w2,..., wn} есть совокупность всех слов рассматриваемого языка L(E)

Вероятность P(W) появления n-граммы W = {w1, w2,..., wn} вычисляется по формуле:

P (w,) =

C (w,) £ C (wj)

где wi - п - грамма;

С(wi) - количество вхождений wi;

^ С (w j) - общее число возможных п -грамм.

Если вероятность появления символов в любой позиции строки У имеют одну и ту же вероятность, то формулу вероятности можно представить:

w

) = П Р(™г)

Таким образом, любые перестановки символов строки У имеют одну и ту же вероятность.

Релевантность есть степень (коэффициент) соответствия поискового шаблона Р = {р1, р2,..., рп} и просматриваемого текста. Данный коэффициент можно воспринимать как процент вхождения поисковой строки к общему объему текста.

Формулу релевантности можно представить как:

N

X г ( Г )

Я = —-;

N

8в\р (1, 2, /) + 8в\р (2, 1, /) Г(/) = -

С (Я(Г 1, ¡) + С (Я(Г 2, /) ,

где $оур(У1,У2,г) - сумма совпадений всех подстрок длиной 1 из строки У1 в строке У2;

Сг) - общее число возможных п -грамм длиной 1;

N - фиксированная длина максимальной подстроки.

Данный метод позволяет получить схожие тексты информации с высокой долей вероятности. За счет увеличения фиксированной длины подстроки N и в случае, когда N будет равно длине строки, при отсутствии точных дублей строк будет получено полностью равномерное распределение.

Недостатком данного метода можно считать низкую степень релевантности при сравнении строк с одинаковым набором слов, но с разным порядком следования.

Пример 1:

Вычислим коэффициент релевантности наименований двух атрибутов: У1 =("Иванов Сергей") и У2 =("Сергей Иванов")

При N=3 И= 0.72, N=4 И=0.6

Для сравнения данных атрибутов разобьём строки У1 и У2 на слова с помощью пробельного символа х,

где С1 = ^2,...,gm} е У1 -

строки;

С 2 = g2,..., gk } е У2

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

набор слов первой - набор слов вто-

рой стр №

оки;

= т, \02

= к - количества слов в строках. агам образом, вероятность совпадения слова gj строки У1 и строки У2 при длине п-грам-ма равной 1 получаем:

г (г) =

БОУр( gj, бК 2, г)

а^)

где sovp(gj, б1г2, г) - сумма совпадений всех подстрок длиной 1 из набора слов G в строке У2;

С(gj, г) - общее число возможных п - грамм длиной 1 в слове G

Формула релевантности соответствия gг -отдельно взятого слова строки У1 со строкой У2 будет выражаться:

X г (г )

Я( gi) =

г=1

N

Коэффициент релевантности строки У1 со строкой У2 :

т

X я( gt)

Я(в !) = - ,

т

где R(gj) - коэффициент релевантности gг слова строки У1 ;

т - количество слов в строке У1. Аналогично выводится коэффициент релевантности для строки У2 .

Общий коэффициент соответствия двух строк У1 и У2 можно представить как:

Я(0>) + Я(02)

= ■

2

где Я(01) - коэффициент релевантности строки У1 со строкой У2 ;

Я(02) - коэффициент релевантности строки У2 со строкой У1 .

Пример 2:

Вычислим коэффициент релевантности наименований двух атрибутов: У1 =("Бензопила белая") и У2 =("Бензопила")

При N=3,

Я(О') = 0.66, Я(С2) =1, Ятат = 0.83

Таким образом, на основании полученных трех коэффициентов релевантности строк, фиксированная длина максимальной подстроки можно с высокой долей вероятности определить однозначные атрибуты. Для определения однозначного соответствия двух строк достаточно сделать длину подстроки плавающей в зависимости от максимальной длины gj.

Результат сопоставления можно увидеть на рис. 1, где данные берутся из разных корпоративных информационных систем и представляются в едином виде.

ПОСТРОЕНИЕ ЕДИНОГО ПОЛЬЗОВАТЕЛЬСКОГО ИНТЕРФЕЙСА

Информационной основой автоматизированной интегрированной информационной си-

г=1

Рис. 1. Окно программы просмотра приходных ордеров из КИС "Марс 1С" и КИС "Флагман"

стемы управления предприятия должна являться единая распределенная база данных, в которой каждый пользователь, обладающий соответственными правами доступа, может своевременно получить информацию из разных информационных систем [7].

Объект информационного ресурса интегрированной информационной системы можно представить как набор полей: к = {< «1,Ь >,< аг,Ь2 >,...,< ап,Ьп >}, а <> а}. для / <>^ , _ г, j е{1..п}, а1 е О, Ь е В , где а - идентификатор объекта, Ь - значение объекта.

Информационным ресурсом интегрированной информационной системы есть набор:

и = {Н V, В},

где Н = {к1, к2,..., кп} - множество объектов информационного ресурса;

V = { у1 , у2 ,..., Уп} - множество представлений; В = {ё1, й2,..., ёп} - множество прав доступа пользователей;

Представлением V информационного ресурса интегрированной информационной системы называется именованная функция или процедура представления пользователю набора информационных сущностей одного типа, определенных в виде реляционной таблицы. Представление, в свою очередь, включает в себя следующие множества:

- набор входных параметров Р={рх, р2,...,рп}

- на основании их значений и формируется конкретный экземпляр представления;

- набор выходных параметров К={к1,к2,...кп}

- поля, обеспечивающие уникальность каждой записи.

Множество всех информационных ресурсов обозначим и = {и1, и2,..., и1}, где I - количество всех ресурсов.

Матрица прав доступа сотрудников предприятия к интегрированным объектам информационных ресурсов представляется:

(

S =

S S

S S

12

S S

Л

1 к

2 к

V S 11

S Г

S

где

Sj

множество прав доступа на просмотр и

редактирование;

S¡1 - информационный ресурс из множества И;

S1k - информационный объект из множества о.

Множество прав доступа к информационным ресурсам Sij состоит из двоек вида:

, ^) , причем 8р, ^ е{0;1}, где sp - правила доступа на просмотр; - правила доступа на изменение.

Таким образом матрицу прав доступа можно представить:

12

22

5=

^рнАц) (^р12'^о12) (^р21' ^о21) (^р22' ^о22)

^ (8р11'8о11) (^р12'^о12)

'.. (^р1к'^о1к) '.. (^р2к' ^о2к)

'.. (^р1к' ^о1к) )

81 82 ... 8т

81 1 0 1

Э2 0 1 0

...

8ш 1 0 1

Рис. 2. Пример матрицы прав доступа отдельно взятого сотрудника

Тогда совокупность элементов прав доступа к информационным ресурсам интегрированной информационной системы можно показать:

Е = {О,и, 5},

где О - множество информационных объектов из множества о;

и - множество информационных ресурсов;

8 - правила доступа.

Основным объектом идентификации корпоративной информационной сети защищенной инфраструктуры предприятия является учетная запись. Данные которой хранятся в доменной службе, представляющей из себя распределенную базу данных сведений о сетевых ресурсах [8].

Доменная учетная запись сотрудника предприятия будем называть множеством пар вида: б = {< а1,¿1 >,< а2,Ъ2 >,...,< ап,Ъп >} , где а - наименование атрибута;

Ь - значение атрибута.

Через А8 обозначим множество атрибутов элемента 8, через аг (б) - характеристика атрибута аг объекта 8.

Информационной системой доменной службы называется кортеж:

D = <А, В, Ь, I >, где А = {а1, а2,..., ап} - множество атрибутов учетных записей;

В = {Ъ1, Ъ2,...,Ъп} - множество возможных значений возможных атрибутов;

Ь = {/1, /2,..., /п} - множество иерархий (вло-женностей) объектов;

1:А ^ В - отображение, ставящее каждому атрибуту его значение.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Множество иерархий вложенности объектов Ь = {/1,/2,...,/п} - это набор из (ог,О) , где г е {1..п} , в котором первый элемент соответствует объекту с тем же индексом, а второй указывает на объект, который является родительским по отношению к данному в иерархии.

Таким образом, интегрированная информационная система 5' и доменная система D образуют набор данных о сотрудниках предприятия и учетных записей корпоративной информационной сети предприятия. Тогда функция соответствия F - это отображение двух множеств 5' р у в (рис. 3).

В общем случае каждому объекту из 5' может соответствовать произвольное количество объектов из в > и наоборот: каждому объекту из в может соответствовать произвольное количество объектов из 5' ■ Это связано с тем, что в соответствие ставятся не сами объекты, а их свойства (рис. 3).

Одним из примеров реализации описанной модели является использование "портальных технологий", обеспечивающих единую точку входа, знакомый для пользователей и удобный в работе веб-интерфейс (рис. 4).

Кар га прав доступа

Рис. 3. Карта прав доступа пользователя к информационным ресурсам

Рис. 4. Единая точка входа пользователей ЗАКЛЮЧЕНИЕ СПИСОК ЛИТЕРАТУРЫ

В статье представлена математическая модель интегрированной информационной системы основанной на интеграции данных из разных информационных систем. Отталкиваясь от данной системы, построена модель сопоставления данных, используя модифицированный метод п-грамм. Выведена формула среднего коэффициента релевантности сравнения двух наименований и предложено решение для определения однозначного соответствия двух строк.

В качестве примера приведены сравнения двух наименований и вычисления вероятностей их вхождения.

Приведена модель построения единого пользовательского интерфейса на основании матрицы прав доступа сотрудников.

1. LevyA.Y. Logic-Based Techniques in Data Integration. Logic-based Techniques in Data Integration. In: Logic Based Artificial Intelligence. Edited by J. Minker. Kluwer Publishers, 2000.

2. Manolescu I., Florescu D., Kossman D. Answering XML Queries over Heterogeneous Data Sources. Proc. Of the 27th VLDB Conference, Roma, Italy, 2001.

3. Петров В.Н. Информационные системы. СПб.: Питер, 2002. 430 c.

4. Спирли Э. Корпоративные хранилища данных. Планирование, разработка и реализация. Т.1. М.: Вильямс, 2001. 230 с.

5. Ахатов А.Р. Алгоритмы программной системы контроля текстовой информации на основе n-граммной языковой модели // Актуальные проблемы современной науки. 2009. № 3. С. 156-161.

6. Герасименко В.А., Малюк А А. Основы защиты информации. М.: Инкомбук, 1997.

7. ПодобрийАН. Информационная модель безопасности веб-портала на предприятиях. Инноватика-2011: Материалы международной конференции. Махачкала (март 2011).

8. Подобрий А.Н. Модель доступа к веб-порталу на современном предприятии // Известия Самарского научного центра РАН. 2011. Т.13. № 4(2). С. 475-478.

DATA INTEGRATION MODEL IN A COMMON INFORMATION SPACE COMPANIES USING METHOD N-GRAM

© 2012 A.N. Podobriy

Federal Research-and-Production Center 'Research-and-Production Association 'Mars', Ulyanovsk

In the article considers an approach to the implementation of mapping data with the modified method of n-gram and model of an integrated information system, and access to associated data within a corporate network information. Article is intended for professionals involved in the introduction of automated business management systems, as well as for all professionals involved in data integration. Key words: data integration, n-grams, access matrix, enterprise, integration model

Alexandr Podobriy, Leading Engineer- Programmer. E-mail: mars@mv.ru

i Надоели баннеры? Вы всегда можете отключить рекламу.