Научная статья на тему 'ITEM DESCRIPTION ELECTRONIC DOCUMENT AND CONNECTIONS BETWEEN THEM'

ITEM DESCRIPTION ELECTRONIC DOCUMENT AND CONNECTIONS BETWEEN THEM Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
26
6
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
CORPORATE DOCUMENT MANAGEMENT / ELECTRONIC DOCUMENT / LOGICAL STRUCTURE OF DOCUMENT / MATHEMATICAL MODEL OF DOCUMENT / CONTEXT-PROBABILISTIC MODEL OF DOCUMENT

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Osidach Andrii

The article deals with modeling approaches to electronic document describing its elements and relationships between them, allowing you to develop new processing techniques electronic documents in electronic document systems. We offer context-probabilistic model class documents - a set of probabilities to determine the context of the rules of grammar, and over an abstract mathematical model class documents that determined the logical structure of the document and formalized links the physical attributes of the document to its logical structure.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «ITEM DESCRIPTION ELECTRONIC DOCUMENT AND CONNECTIONS BETWEEN THEM»

MATEMATYKA- FIZYKA - ФИЗИКО-МАТЕМАТИЧЕСКИЕ НАУКИ

ОПИС ЕЛЕМЕНТ1В ЕЛЕКТРОННОГО ДОКУМЕНТООБ1ГУ ТА ЗВ'ЯЗК1В М1Ж НИМИ

Опдач Андрш Олегович

Астрант

Нацюнальний ушверситет "ЛbeiecbKa полтехшка"

ITEM DESCRIPTION ELECTRONIC DOCUMENT AND CONNECTIONS BETWEEN THEM

Andrii Osidach, Aspirant National University «Lviv Polytechnic»

АНОТАЦШ

У cmammi розглядаються тдходи до моделювання електронного документа, опис його елементiв та зв'язтв мiж ними, що дозволяв розробляти mei, быьш ефективш методи обробки рiзнокласових електронних документiв в системах електронного документообку. Пропонуються контекстно-ймовiрнiсна модель класу документiв - набiр вiрогiд-mrni для визначення контексту правил граматики, та закшчена абстрактна математична модель класу документiв, де визначаетьсялогiчна структура документа i формалiзуютьсязв'язки фiзичних атрибутiв документу з йогологiчною структурою.

ABSTRACT

The article deals with modeling approaches to electronic document describing its elements and relationships between them, allowing you to develop new processing techniques electronic documents in electronic document systems. We offer context-probabilistic model class documents - a set of probabilities to determine the context of the rules of grammar, and over an abstract mathematical model class documents that determined the logical structure of the document and formalized links the physical attributes of the document to its logical structure.

Ключовi слова: корпоративний документооби, електронний документ, логiчна структура документа, математична модель документа, контекстно-ймовiрнiсна модель документа.

Key words: corporate document management, electronic document, logical structure of document, mathematical model of document, context-probabilistic model of document.

Аналiз останшх дослвджень i публжацш. Базуючись на результатах аналiзу лйератури [1-10] можна зробити висновок, що найбшьш актуальним науково-техшчним завданням для розробниюв сучасних корпоративних ш-формацшних систем тдприемств е забезпечення ефек-тивно! обробки електронних документа в умовах об'ему, що постшно зростае, збшьшення клаав i видiв рiзнорiд-них даних, яю породжуються, збер^аються i використову-ються в корпоративних шформацшних системах.

Постановка задачь Таким чином, перспективною розроб-кою в област корпоративного документооб^у е завдання розробки нових методiв обробки рiзнокласових електронних документа, що дозволять тдвищити ефектившсть функщонування сучасних корпоративних шформацшних систем тдприемств [6-8].

У зв'язку з цим, необхвдно провести моделювання струк-тури електронних до-кумента, а також формалiзувати !х елементи та зв'язки мiж ними.

Метою роботи е розробка пiдходiв щодо моделювання електронного документа, опис його елемента та зв'язюв мiж ними, що дозволяе розробляти нов^ бшьш ефективш методи обробки рiзнокласових електронних документа в системах електронного документооб^у.

Основна частина. Отримана в [1] структура описуе кожен окремо взятий документ, щоб описати загальну структуру деяко! множини однорщних документа, звано! класом документа, вимагаеться використання грама-тик.

Припустимо, що задана деяка множина документа Б = |Б1, Б2, ... Тда кожному з цих документа Б., 1 = 1, .... М можна поставити у вщповвдшсть його структуру 8. що е сукупшстю лопчно! структури 8.ь i фiзичноi структури БЛ

Позначимо множину лопчних структур документiв з класу D через:

S.L = {S^, S2L,..., Snl}, де S.L = (C., R), та С.: Z. Z.*, i R: Z. X Z. ©.,

де Z. - сукупнiсть всшяких логiчних областей документу D., .

Z. - алфави символiв в документi D., i ©. - безлiч роздшь-никiв, можливих в документi D..

Тод! SL = (С, R), де С: Z -> R:'z х Z -> ©;

z = \Jz,- валяю лопчш обласй заданого класу документов D;

S = |__J S - алфави символ1в в клаа документов D;

/

® = U® " множина роздшьниюв в клаа докуменпв D.

Розглянемо тепер ieрaрхiчнi грати Z [5, 9-10]. Задамо на розбиття J, сумiжними класами якого е елементи, що ма-ють загальну точну верхню грань A, де шяка двоелемент-на тдмножина велико! кiлькостi Z, у яке входить хоч би один елемент цього сумiжного класу, не мае тако! точно! верхньо! гран А, що А' z А. 1ншими словами, для усiх LeZ вiрно, що LeZ® тодi i тiльки тодi, коли:

(a) sup (l(u), l»2), ..., l»k)), де Z® = (l(11), F2), ..., l(jk)) - 1-й сумiж-ний клас розбиття J i

(b) для будь-кого meZ i leZ(.) sup (m,l) = A, причому A z A

Описуючи розбиття J в термшах деревоподiбно! структури, можна сказати, що в сумiжнi класи об'еднуються елементи, що мають загальний батькiвський вузол [7].

Розглянемо тепер споаб представлення загально! лопч-но! структури документа iз заданого класу D у виглядi

контекстно-вшьно! граматики [2, 9].

Припустимо, що така граматика Ос = {^ , ТБ , Рс , Ас } ^нуе.

Тут ^ - множина нетермшальних символiв, Тс - мно-жина термшаль-них символiв, Рс - множина продукцш i Ас е^ - початковий символ граматики.

Тщ множина Тс спiвпадаe з множиною X - алфавiтом, що прийнятий в област Б; множина нетермшальних символiв N спiвпадаe з множиною лопчних областей, що стано-влять грати 7. Початковий символ Ас е загальний макси-мальний елемент структур 7., i = 1, ..., N. Нарешп, множина продукцш Рс може бути побудовано з фактор-множини 7/1 i вiдображень С i Я. Дiйсно, фактор-множина 7/1 у су-купностi з вщображенням Я дозволяе отримати правила для нетермшальних елементав; вiдображення С зв'язуе в правилах нетермшальш i термшальш символи. Структура фактор-множини 7/1 гарантуе, що в лiвiй частинi отрима-них правил стоятиме тiльки один нетермшальний символ, а права частина правил може складатися з ланцюжка тер-мiнальних i нетермiнальних символiв. Отже, граматика Ос е контекстно-вшьною.

Таким чином, загальна логiчна структура деякого класу документав може бути описана за допомогою контекст-но-вшьно! граматики Ос . Вiдображення Н дозволяе зв'я-зати фiзичну i логiчну структури шляхом додавання про-дукцiям граматики Ос вiдповiдних фiзичних атрибутiв [10].

Отже, була побудована КВ-граматика Ос [8], що описуе деякий клас документав Б, у якш не накладалися нiякi об-меження на вигляд продукцп. Очевидно, що ця обстави-на на практищ, як правило, призводить до використання недетермiнованих методiв синтаксичного розбору, ко-трi мають надзвичайно низьку ефектившсть. У загальному планi, для опису структури бшьшост документiв, що зу-стрiчаються на практицi, необшдно уявити в моделi ш-формацiю про контекст структурних елементiв [4-6]. Використання контекстно-залежних граматик призводить до неефективних алгоршМв синтаксичного розбору, отже, !х застосування дуже обмежене [5]. Тому доречним буде ввести в модель набiр статистичних вiрогiдностей, що дае можлив^ть побудувати найбiльш вiрогiдну логiчну структуру документа, що дозволяе адекватшше представити важливi на практищ класи документав, а також значно прискорити процес !х побудови [запропоновано автором].

Будь-яка КВ-граматика Ос може бути графiчно описана за допомогою деякого л^у Бс [5], що складаеться з набору дерев {Т^Т^...,^,...}. Тодi кожне правило р;еРБ , 1 = 1, 2, .... к, граматики Ос може бути представлено у виглядi тдде-рева (куща) [5] хоч би одного з дерев Т.еБс , ) = 1, 2, .... N.

Тодi вiдображення Рс ■ Рс в кожнiй продукцп граматики Ос ставить у ввдповщшсть деякий кущ з множини Рс всiх можливих кущiв л^у Бс.

Введемо термiнологiю для опису взаемного розташуван-ня кущiв в дереву подiбну до термшологп для вузлiв дере-

Нехай р1, р2еРс - деякi продукцп граматики О^

у1, у2еРс - вiдповiднi !х кущi. Припустимо також, що продукцп р1,р2 мають наступний вигляд [запропоновано автором]:

рг а ■ р1 р2 - вк, (1)

р2: у ■ 51 52 - 5 Ш,

де а, у, в1, 5jеND Тс , 1 = 1, 2, .... к; . = 1, 2, .... N. Тодi можна ввести наступнi визначення [запропоновано автором].

Визначення 1. Нехай продукцп р1, р2еРБ заданi у видi (1) i 71 = 1(р1),

у2 = |(р2) - кущi, що вiдповiдають цим продукцiям. Тодi у1 е предком для у2, а у2 е нащадком для у1, якщо серед еле-ментав право! частини продукцii р1 знайдеться хоч би один такий, що: у = в. , 1 е[1, к].

Визначення 2. Нехай продукцп р1, р2еРБ заданi у видi (1)

i 71 = 1(р1),

у2 = |(р2) - кущi, що ввдповвдають цим продукцiям. Тодi р1 i р2 е сусiдами, якщо ^нуе така продукцiя р3еРБ : р3: ф ■ ^ ^ 2 — ^ р (2)

де ф, ^е^ ТБ, 1 = 1, 2, .... 1; ) = 1, 2, .... N що серед еле-ментав 11 право! частини знайдуться два елементи ^ i ^ 8, для яких вiрно що: а = уч, в = я,ве[1, 1]. (3)

Визначення 3. Нехай продукцп р1, р2еРБ задаш у видi (1)

i 71 = КрЛ

у2 = |(р2) - кущi, що вiдповiдають цим продукщям. Тодi у1 е лiвим (правим) сусiдом у2, якщо у1 - сусiд у2 i у формул (3) q <8 (8^).

З урахуванням введених вище визначень можна описати пропоновану контекстно-ймовiрнiсну модель класу документ. Щоб прискорити процес синтаксичного аналiзу i побудувати найбшьш вiрогiдне дерево, будемо врахо-вувати контексти окремих кущiв. Щоб отримати повний контекст куща в дереву необхвдно розглянути його лiвих i правих сусiдiв, а також його предюв i нащадкiв.

Пропонований пщхвд нагадуе лiнiйну модель для пред-ставлення слiв природно! мови, що вживаеться в лшгвь стищ, яка дiстала назву п-грами (п-§гаш8) [7]. Вслiд за класичним методом n-грамiв, в якому зазвичай вважаеть-ся п=3, також розглянемо контексти з трьох елементав в кожному з чотирьох напрямiв.

Розглянемо множину РБ . Ця множина в загальному ви-падку може бути нескшченною, оскiльки нескiнченною е множина . Проте, можна видшити кiнцеву пiдмножину Р|еРБ , в яку включимо усi кущi велико! кшькость Проте, можна видiлити кшцеву пiдмножину РБ, вiдповiдну продукщям множини РБ граматики ОБ. Припустимо, що по-тужнiсть велико! кшькосл Р| |Р|| = N. Тодi можна представити безлiч Р| у наступному видi:

Р! P2,— , PN}.

Додавши до множини Р| порожнiй елемент £, отримаемо розширену множину Р'|:

Р'1 = Р1 £ = {£ = Уо, У1, У2,—, YN}. (4)

Введемо ввдношення, що визначають контекст заданого елементу в кожному з чотирьох напрямiв [10]. Нехай Y , Y', Y"е Р'1. Тодк

Вiдношення NT(Y , Y', Y") визначае, що кущ Y - предок куща Y' i кущ Y' - предок куща Y". Аналогiчно вводимо вiдношення для шших напрямiв. Вiдношення NB(Y , Y', Y") визначае, що кущ Y - нащадок куща Y' i кущ Y' - нащадок куща Y".

Вщношення Nl (у , у', у") визначае факт, що кущ у е лiвим сусiд куща у' i кущ у' - правий сусвд куща у". Графiчне сусiдом для куща у', кущ у' е лiвим сусвдом для куща у". представлення введених ввдношенш представлено на рис. Вщношення Nr (у , у', у") визначае, що кущ у - правий 1 [запропоновано автором].

Рисунок 1 - Графiчне представлення вщношень мiж кущами в дерева

а)МТ(у , у', у"), бЖБ(у , у', у"), в)^(у , у', у"), г)Мк(у , у', у") Тодо вiрогiднiсть того, що кущ у е предком для куща у' який, у свою чергу, е предком куща у" можна виразити як: Р((у; ^(у , у', у'')). (5)

Позначимо через Пт(у) - множину будь-яко! вiрогiдностi виду (5), що ввдносяться до куща у. Очевидно, що для кожного куща уеР'| число тако! вiрогiдностi дорiвнюе сумi числа розмiщень з (N+1) елементу по 2 i

(N+1) пари з однакових елеменпв [запропоновано автором]:

|Пт(у)| = А2N+l + (N+1) = (N+^/(N-1)! + (N+1) = N (N+1) + (N+1)= (N+1)2 (6)

Оскшьки, згiдно з формулою (6), потужшсть велико! кшькост Пт(у) дорiвнюе (N+1)2, то сукупшсть отримано!

вiрогiдностi може бути записана у виглядi матрицi:

мг (у) =

г, ] =1, N+1 , (7)

кожен елемент яко! е вiрогiднiсть Р((у| К^у , у', у")), де у' - 1-й елемент i у" - ''-й елемент велико! кiлькостi у'| у формулi (4).

Введемо ще декшька визначень, аналогi!' з теорiею матри-ць [запропоновано автором].

Визначення 4. Називатимемо послвдовшсть з п2 n-мiрних рядкiв кубiчною матрицею, якщо ця послщовшсть може бути помщена всередину куба пхпхп i впорядкована як по горизонталi, так i по вертикалi. Зображення кубiчно! матрицi 2х2х2 наведено на рис. 2.

Рисунок 2 - Кубiчна матриця М розмiром 2x2x2

Визначення 5. Називатимемо квадратну матрицю М=||т1.||, у=1,...,п, вертикальним зрiзом кубiчно! матрищ М=||ц1.,к||, 1,',к=1,...,п, якщо при будь-яких значеннях i i ' вiрно, що:

тч = ' 1'=1,...,п,

при деякому фiксованому значеннi к.

Наприклад, на рис. 2 елементи ц112, ц122, ц212, i ц222, склада-ють вертикальний зрiз матрищ М при к = 2.

Тщ множина Пт* вiрогiдностi того, що деякий кущ у - предок куща у' i кущ у ' - предок куща у" для всшяких значень у , у', у" може бути зведено до кубiчно! матрищ контекстно-ймовiрнiсних залежностей МТ=||ц1.,к||, 1,',к

= 1,...,N+1. При цьому квадратна матриця Мт(у), що введена у формул (7), е вертикальним зрiзом кубiчно! матрищ Мт при деякому к = lnd (у). Тут, згiдно з формулою (4), ш-дексна функщя lnd (у) мае наступний вигляд:

h d(у) = {:-1-ПР-Y = S

i +} -npu-y = yl,i = 1,...,N

(8)

Аналопчно вводяться:

(а)поняття вiрогiдностi того, що у е нащадком, лiвим сусiдом i правим сусщом кущiв у', у": p((Yl NB(y , у', у")),

P((Y I Nl(Y , Y', Y'')),

P((Y I NR(Y , Y', Y'')), Y , Y ', Y"6 P'J;

(Ь)ввдповвдш квадратнi матрицi - вертикальш зрiзи:

(c)кубiчнi матрицi контекстно-ймовiрнiсних залежно-стей:

МВ=||^ ||, у,к=1,...,М+1,

МЬ=||ц!'^||, 1,.,к=1,...,М+1,

МЯ=||ц1'..к||, 1,.,к=1,...,М+1.

Висновки. Таким чином, контекстно-ймовiрнiсна модель класу документiв В е сукупшсть Б =(Р, Н), де Н = (Мт> Мв, Мъ, Мк).

Закiнчена абстрактна математична модель класу документа е кортежем Нс = (Ос, Н, Н), де граматика Ос визна-чае логiчну структуру документа, Н зв'язуе фiзичнi атри-бути документу з його лопчною структурою i Н визначае контекстно-ймовiрнiсну модель - набiр вiрогiдностi для визначення контексту правил граматики, що дозволяе ро-зробляти нов^ бiльш ефективнi методи обробки рiзнокла-сових електронних документiв в системах електронного документо о б^у.

Список лггератури.

1. Осiдач А.О. Математична модель електронного документа / А.О. Освдач - Техшчш науки i технологii. - №1 (1). - Чернтв, 2015. - С. 146-152.

2. Освдач А.О. Опис моделi класу документа за допом-огою граматик / А.О. Освдач - Збiрник матерiалiв науко-

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

во-практично1 конференцiï "НайновШ досягнення евро-пейсько1 науки - 2015". - Софiя: "Бял ГРАД-БГ", 2015. - Т.13

- С. 65-69.

3. ДСТУ 4163-2003. Вимоги до оформлювання документа. - [Чинний ввд 2003-09-01]. - К., 2003. - 46 с.

4. Смирнова Г.Н. Учебное пособие до дисциплине «Электронные системы управления документооборотом». / Г.Н. Смирнова. - М.: Московский международный институт эконометрики, информатики, финансов и права, 2003. -168 с.

5. Структура та компоненти системи електронного доку-ментообпу [Електронний ресурс]. - Режим доступу: http:// nauch.com.ua/geografiya/20401/index.html?page=2 .

6. Електронний документообт сучасш тенденцп та проблеми провадження [Електронний ресурс]. - Режим доступу: http://www.rusnauka.com/34_VPEK_2012/ Philologia/7_121024.doc.htm.

7. Losee R.M. Learning syntactic rules and tags with genetic algorithms for infor-mation retrieval and filtering: an empirical basis for grammatical rules. Univer-sity of North Carolina, USA, 2005. - 20 p.

8. Summers K.M. Automatic discovery of logical document structure. Phd thesis, Cornell University. Cornell, USA. 2008.

- 196 p.

9. Azokly A.S. TJne approche unifomie pour la reconnaissance de la structure phy-sique dc documents composites fondee sur ('analyse des cspaces. Phd thesis. 1'lnstitut d'ln format ique, University de Fribourg. Suisse» 2009.- 155 p.

10. Srihari S.N., Lam S.W., Govindaraju V., Srihari R.K., Hull J J. Document image understanding. Center of Excellence for Document Analysis and Recognition, State University of New York at Buffalo, Buffalo, USA, 2008.

i Надоели баннеры? Вы всегда можете отключить рекламу.