ОЦ1НКА ЕФЕКТИВНОСТ1 ПРАВИЛЬНОСТ1 ВИЗНАЧЕННЯ ЛОГIЧНОÏ
СТРУКТУРИ ДОКУМЕНТА
ОсЬдач А.О.
Астрант
НацюнальнийyHieepcumem "Львiвська полтехтка"
EVALUATION OF CORRECTNESS DETERMINATION DOCUMENT'S LOGICAL STRUCTURE Osidach A., Aspirant National University «Lviv Polytechnic»
АНОТАЦ1Я
В статп пропонуеться методолопя i багатокритерiальна оцшка ефективностi iнформацiйноï системи збереження та пошуку структурованоï шформацп, яка дозволяе бiльш адекватно ощнювати функцiонування реальноï системи. Також в статп запропоновано в якостi критерш для оцiнки якостi розпiзнавання логiчноï структури документiв використовувати 5-дерево, розмiр якого напряму пов'язаний з затратшстю ручного редагування структури документа.
ABSTRACT
The article proposes a methodology and multi-criteria assessment of the effectiveness of information borage and retrieval of Sructured information, which allows for a more adequate assessment of the functioning of the real sy&em. The article proposed as a criterion for assessing the quality of recognition of the logical Sructure of the documents used 5-tree which size is directly related to the time-consuming manual editing of the document Sructure.
Ключовi слова: корпоративний документообщ пошук структурованоï шформацп, 5-дерево, структуроваш документи.
Keywords: corporate document management, electronic document, retrieval of Sructured information, 5-tree, Sructured documents.
Аналiз останшх дослщжень i публтацш. Виходячи з аналiзу лгтератури [1-10], для оцiнки правильностi розшзна-вання структури документа застосовуються pi3Hi методи [5]. Наприклад, оскiльки розтзнавання логiчноi струк-ту-ри полягае в тому, щоб щентифшувати певнi частини тексту як деяк лопчш областi, то можливо провести природну аналогiю з iнформацiйним пошуком [6]. I в цьому випадку щеальш логiчнi областi можна зiставити з релевантними документами, а сформованi лопчш обласп - зi знайденими документами.
Проте, результатившша мiра е мiрою, основаною на порiвняннi двох впорядкованих дерев, одне з яких представ-ляе знайдену логiчну структуру документа, а шше - щеаль-ну лопчну структуру цього ж документа.
Постановка задачг Таким чином, перспективною роз-робкою в областi корпоративного документообщ е завдан-ня оцiнки ефективносп правильностi визначення логiчноi' структури документа та ефективносп шформацшних систем збереження та пошуку структурова^' шформацп.
Метою роботи е розробка пропозицш щодо критерiю оцiнки якостi розшзнавання логiчноi структури документiв та методологи оцшки ефективностi iнформацiйноi системи збереження та пошуку структуровано' шформацп.
Основна частина. Розглянемо деякий документ D е D. Припустимо, що ми маемо два впорядковаш дерева Т1 i Т2, що описують лопчну структуру документа D. При цьому нехай дерево Т1 описуе лопчну структуру, отриману в результат автоматизованого розбору, а дерево Т2 представляе iдеальну логiчну структуру. Визначимо деяким чином ввд-мiнностi мiж деревами Т1 i Т2.
Поставимо у вщповщшсть вузлам обох дерев деякий на-бiр унiкальних iдентифiкаторiв.
Визначення 1. Два вузли tie Т1 i t2e Т2 називаються iзо-морфними, якщо вони розрiзняються тiльки щентифшатора-ми, а 'х значения i контекст рiвнi.
Визначення 2. Два впорядковаш дерева Т1 i Т2 називаються iзоморфними, якщо для кожного вузла в одному де-ревi знайдеться единий iзоморфний вузол в iншому дерев^
V тобто ti еТ1 единий iзоморфний t2e Т2 i V t2 еТ2 единий iзоморфний ti еТ1.
Визначення 3. Назвемо вiдображенням повно' вщповщ-ностi MF:T1^T2 таке бiективне вiдображення, яке кожному вузлу ti Т1 однозначно ставить у ввдповщшсть iзоморфний йому вузол t2 Т2.
Очевидно, що повна вщповвдшсть можлива тiльки в тому випадку, коли дерева Т1 i Т2 iзоморфнi.
Припустимо тепер, що дерева Т1 i Т2 не е iзоморфними.
Тодi видiлимо в деревi Т1 пiдмножину вузлiв Т'1 ^ Т1, що мають iзоморфнi 'м вузли в деревi Т2, аналопчно, вузли дерева Т2, що мають iзоморфнi 'м вузли в деревi Т1 можуть
бути об'еднаиi в шдмножину Т'2 ^ Т2. Тод^ якщо шдмно-жина Т'1 i Т'2 не порожиi, можна дати наступне визначення.
Визначення 4. Назвемо вщображенням частково' вщ-повiдностi Мр': Т'1^Т'2 таке бiективне вiдображення, яке кожному вузлу t1e Т'1 ставить в однозначну вiдповiднiсть iзоморфний йому вузол t2 еТ'2.
Очевидно, що для оцшки вщмшностей мiж двома деревами Т1 i Т2 необхщно спочатку визначити деяку часткову вiдповiднiсть мiж деревами, а попм знайти таку послщов-нiсть елементарних операцш, яка дозволяе перетворити дерево Т1 в дерево Т2.
Визначимо чотири операцii, якi використовуватимуться для редагування дерев:
a. Вставка. Вставка нового вузла t в дерево Т1 .
b. Видалення. Видалення вузла t з дерева Т1. Виконання ше' операцп можливе тiльки у тому випадку, якщо вузол t не мае нащадшв.
c. Модифiкацiя. Модифшащя значення вузла t в деревi
Т1.
d. Перемiщения. Перемiщення шддерева з коренем вузла t в деревi Т1.
Усi вищезгадаиi операцii е стандартними операцiями редагування дерев, за винятком операцп перемiщения. Ця опе-рацiя виконуеться не лише стосовно окремо взятих вузлiв, але i до цiлих пiддерев, яю утворюють нащадки перемiщу-ваного вузла.
Розглянемо тепер послщовшсть операцш редагування, яка перетворюе одне дерево в шше.
Визначення 5. Сценарieм редагування S дерева Т1 ввд-носно дерева Т2 називаеться така кiнцева послiдовнiсть елементарних операцiй (1) - (4), яка переводить дерево Т1 в деяке дерево Т'1 таке, що дерево Т'1 iзоморфно Т2.
Наприклад, для дерев, представлених на рис. 1, сценарiй редагування S для дерева Т1 ввдносно Т2 мае наступний вигляд:
S = {вставка вузла 23 в поддерево з коренем 3 перед вуз-лом 4;
видалення вузла 6;
перемщення пiддерева з коренем 3}. (1)
В результата застосування сценарiю редагування (1) до початкового дерева Т1 отримуемо дерево Т'1, iзоморфне концевому дереву Т2.
Очевидно, що для двох дерев Т1 i Т2 може iснувати бшьш за один сценарiй редагування. Тому необхвдно ввести поняття вартостi редагування. Вартють операцiй редагування залежить вiд типу операцп i вузлiв, залучених в операцiю. В цшях простоти тут усi операци (а)-^) вважаються опера-цiями одинично! вартосп. Проте, вартостi можуть бути ввд-коригованi згвдно з вагою рiзноl ваги змiн в ланцюгах уточ-нення вiдмiнностей мiж ними. Загальна варпсть сценарш редагування е сумою вартостей його окремих операцп.
Рисунок 1. Дерева лопчно! структури Т1 i Т2 документа D
Припустимо тепер, що задано два впорядковаш дерева Т1 i Т2 i безлiч сценарпв редагування S1, S2, ...,Sk, дерева Т1 ввдносно дерева Т2. Припустимо також, що кожен сценариев редагування Si мае варпсть редагуваннi Ci, i = 1, 2, ..., k.
Визначення 6. Сценарш редагування Sopt, що мае мшь
C = min Ci
мальну вартiсть називаеться оптимальним
сценарiем редагування, а мшмальна вартiсть С називаеться ввдстань d (Т1, Т2) мiж впорядкованими деревами Т1 i Т2.
Таким чином, метою порiвняння впорядкованих дерев е отримання оптимального сценарiю редагування i вiдстанi мiж деревами в сена визначення (1). У [7] запропонований алгоритм EditScript для знаходження оптимального сценарш редагування Sopt за час O(n-r), де n - загальна кшь-к1сть вузлiв i r - к1льк1сть невирiвняних вузлiв у редаговано-му деревi (зазвичай n набагато перевищуе r).
У [7] шд невирiвняними вузлами розумшться вузли, для яких вiрно твердження. Нехай для дерев Т1 i Т2 задане вь дображення частково! вiдповiдностi Мр. Тодi якщо вузол t1 Т'1, то t2 = Мр(й) вiдповiдний йому вузол в деревi Т2. Припустимо, що вузли g i h - дгги вузла t1 в деревi Т1 i вузол g - лiвий брат вузла h. Зпдно [7], вузли g i h е невирiвняними, якщо вузли Мр^) i Мр(h) - дiти вузла t2 в деревi Т2, i Мр(g) е правим братом Мр(К).
Вiдстань мiж деревами в даному випадку обчислюеться просто як число операцш в оптимальному сценари редагування:
d (Т1, Т2) = | Sopt |. (2)
1ншим наочним представленням вiдстанi мiж впорядкованими деревами е 5-дерева. Використання 5-дерев дозволяе ввдмовитися вiд iдентифiкаторiв вузлiв, як1 е обов'язковими при побудовi сценарив редагування i можуть пльки усклад-нювати перегляд i пошук.
Окрiм того, 5-дерева е бшьш наглядним представленням сценарпв редагування.
5-дерева е узагальненням на iерархiчнi структури 5-в1д-ношень, що використовуються в реляцiйних СУБД для визначення змш в кортежах, що входять в базу даних ввдно-шень. Для кожного ввдношення R тодi обчислюеться набiр 5-вiдношень, що мютять вiдповiдно кортежi, як1 були встав-ленi i видаленi з ввдношення R, а також старi i новi значення тих кортеж1в, яш були змiненi [7].
Аналогiчно 5-ввдношенням, 5-дерева повиннi представ-ляти iерархiчнi структури обох дерев, а також описувати набiр елементарних операцiй редагування, необхвдних для переведення одного впорядкованого дерева в iнше, що скла-дають сценарiй редагування. Припустимо, що Т1 i Т2 - два впорядкованих дерева, 5-дерево для Т1 по вiдношенню до Т2 - це дерево, в якому вузли о^м власних значень, мають також вщмггку про визначену до цього вузла елементарну операцiю редагування.
Визначення 7. 5-дерево для дерева Т1 вшносно дерева Т2 називаеться правильним, якщо воно мае такий вiдповiдний сценарнiй редагування S, що S трансформуе дерево Т1 до дерева Т2.
Визначення 8. 5-дерево для дерева Т1 ввдносно дерева Т2 називаеться оптимальним, якщо воно е правильним i
вiдповiдний йому сценарiй редагування S е оптимальним, тобто S = Sopt.
На рис.2 показане 5 -дерево, яке е правильним ввдносно сценарш S, представленого формулою (1). Слвд зазначити, що представлене 5-дерево е також оптимальним, а ввдстань м1ж деревами d (Т1, Т2) = 3.
Рисунок 2. 5-дерево сценарш редагування (1)
Для побудови оптимального 5-дерева може бути викори-станий згаданий алгоритм EditScript Для цього необхвдно тшьки додати операцш, яка при кожному додаванш опера-ци редагування до оптимального сценарiю редагування до-даватиме вiдповiдну вершину i мiтку в 5 -дерево.
1снуе безлiч критерив оцiнки iнформацiйних систем збе-реження та пошуку структуровано1 шформаци, проте чоти-ри наступш критери прийнято вважати основними [8]:
a. Зусилля, що витрачаються користувачем при отриман-нi вiдповiдей на запити.
b. Часовий iнтервал, тобто середнш iнтервал часу м1ж за-данням запиту i отриманням ввдповщ.
c. Повнота системи, тобто ввдсоток релевантних доку-ментiв, знайдених у ввдповвдь на пошуковий запит.
d. Точнiсть системи, тобто ввдсоток релевантних доку-ментiв у видачi.
Перший критерш, по сутi, е емтричним i визначае на-ск1льки розроблена мова запипв дозволяе легко i просто формулювати запити, необхiднi користувачевг З iншого боку, витрати зусиль користувача можна виразити через час, необхвдний для формулювання запиту, взаемоди з системою i перегляду видано1 шформаци [6].
Проте, час, що витрачаеться користувачем на виконан-ня усiх згаданих операцiй, безпосередньо залежить вiд квалiфiкацil, мiри знайомства з мовою запипв, точнiстю формулювання запитiв i швидкосп реакцп користувача. При цьому для першого критерiю можуть бути даш тiльки якiснi характеристики.
Iншi три критери мають точнi кiлькiснi оцiнки.
Час реакци системи на запит, що поступив, може бути вимiряний безпосередньо. Попм множину часових штер-валiв необхвдно деяким чином усереднити. Очевидно, що
довжина часового iнтервалу повинна напряму залежати ввд складностi запипв i кiлькостi документiв в базi даних.
Отже, тестова вибiрка запипв на пошук повинна мюти-ти в ^6i запити рiзноl складносп, а усереднення повинне проводитися тшьки для таких груп запитiв, яш виконуються при однаковiй кiлькостi докуменпв у фондi.
Припустимо, що Q = {q1, q2,_, qk} - тестова вибiрка по-шукових запипв i Т = {t1, t2,..., tk} - безлiч часових iнтер-валiв, причому ti е час виконання запиту qi для уах i = 1, 2, .... , k. Тодi усереднене значення часового iнтервалу мае вигляд:
- 1 к
T (n) ^ _ V t (n)
k T '
(3)
де n е фiксованою дiею вах запитiв документiв у фондi. Зпдно з формулою (3) можна обчислити усереднеш ча-совi iнтервали для декшькох значень n i побудувати графiк залежностi часового iнтервалу ввд кiлькостi документiв у фондi.
Розглянемо критери оцшки, як1 вважаються основними, -повноту i точнiсть шформацшно! системи.
Нехай D = {D1, D2, ... DN} - безлiч документiв, що вхо-дять в базу даних i що становлять фонд iнформацiйноl системи. Роздшимо безл1ч D на чотири частини [96]: а - безлiч невиданих нерелевантних документiв; в - безлiч невиданих релевантних документiв; у - безл1ч виданих релевантних документiв; р - безлiч виданих нерелевантних докуменпв. Таке розбиття фонду iнформацiйноl системи представлене на рис.3.
Рисунок 3. Розбиття докуменпв фонду шформацшно!' системи
Якщо icHye подiбне розбиття документiв фонду реле-вантн i нерелевантнi, то стандартн коефiцieнт повноти R i коефщент точноcтi Р визначаються таким чином:
R = ;
т^м (4)
| у | - число знайдених релевантних докyментiв; | у | +| ß | - загальне число релевантних докyментiв у фон-
дi.
P =1
+ p
(5)
= IER =1 E iï il
' kit! 1 ki=1 IßJ + |Yi|
It il
1 k 1k =1 £ Pi =1 ET , , , ' ki=i ki=i pJ + YJ
(6)
(7)
Другий метод орieнтовaний на усереднювання по документах i називаеться мiкрооцiнкою. Суть цього методу по-лягае у вщдшенш релевантних i нерелевантних докyментiв; тсд чим бiльше число релевантних докуменпв мае запит,
тим бiльшого значення вiн набувае. В цьому випадку серед-ня мiкроповнотa i середня мiкроточноcть визначаються так:
£ |y il
_ i_
(8)
| у | - число виданих релевантних документiв;
| у | +| р | -загальне число виданих докуменпв.
Тут величини |у|, |в|, |р| е потужностями безлiчi у, в, р вщповщно. Згiдно з набутих значень коефщентом повноти i точностi, може бути побудований графiк «повнота-точ-шсть», званий також кривою ефективностi.
Хоча теоретично найбшьш бажано е розглядати кожен запит окремо, на практищ зазвичай представляють середнi результати для уае! тестово! вибiрки пошукових запипв [6]. Типова усереднена крива «повнота-точшсть» представлена на рис. 4. Усереднювання може проводитися двома основ-ними методами.
Припустимо, що Q = {q1, q2,..., qk} - тестова вибiрка пошукових запипв i G = ^1, g2,..., gk} - безлiч кривих ефек-тивностi, причому кожна крива gi вiдповiдае запиту qi для усiх i = 1, 2, .... , к.
Нехай також:
a. pi - безлiч небачених релевантних документiв для ьго запиту;
b. у1 - безлiч виданих релевантних докуменпв для ьго запиту;
c. рi - безлiч виданих нерелевантних докуменпв для ьго запиту.
Перший метод, орiентований на усереднення по запитах, називаеться макрооцiнкою i припускае знаходження серед-нiх значень повноти i точностi за даними кожного запиту. Тод^ враховуючи формули (4) i (5), середню макроповноту i середню макроточшсть можна обчислити таким чином:
^ +|yil) 1
k
£|yi|
_ = i_
Pmicro k , ч
£(Pi + Yi ) 1 (9)
На практищ, cереднi значення, отримаш з рiвнянь (6) i (7), не набагато в^^зняються вiд середшх значень, отрима-них з рiвнянь (8) i (9).
Висновок. Запропоновано в якоcтi критерш для оцшки якосп розпiзнaвaння логiчноï структури докуменпв викори-стовувати 5-дерево, розмiр якого напряму пов'язаний з за-тратшстю ручного редагування структури документа.
Запропоновано методологш i розроблено багатокри-терiaльнy оцiнкy ефективноcтi iнформaцiйноï системи збереження та пошуку структуровано1 шформацп, що дозволяе бшьш адекватно ощнювати функцюнування реaльноï систе-ми.
Лiтерaтyрa
1.Оадач А.О. Математична модель електронного документа / А.О. Осщач. - Техшчш науки i технологи. - №1 (1).
- Чершпв, 2015. - С. 146-152.
2. Оадач А.О. Опис елеменпв електронного документо-обiгy та зв'язк1в м1ж ними / А.О. Осщач. - Еай European Scientific Journal. - 2016. - № 3. - Vol. 4 - P. 69-72.
3. Оадач А.О. Методи подання рiзнотипноï шформацп в cиcтемi електронного документообЩ / А.О. Оадач. - Еай European Scientific Journal. - 2016. - № 5. - Vol. 5 - P. 96101.
4. Оадач А.О. Опис моделi класу докуменпв за допо-могою граматик / А.О. Оадач - Збiрник мaтерiaлiв науко-во-прaктичноï конференцiï "Нaйновiшi досягнення европей-сько1* науки - 2015". - Софiя: "Бял ГРАД-БГ", 2015. - Т. 13
- С. 65-69.
5. Гудман С., Хидетмиеми С. Введение в разработку и анализ алгоритмов: Пер. с англ. - М.: Мир, 2010. - 368 с.
6. Ланкастер Ф.У Информационно-поисковые системы: характеристики, ис-пытания и оценка: Пер. с англ. - М.: Мир, 2002. - 308 с.
7. Chawalhe S. Managing change in heterogeneous autonomous databases. Phd thesis, Stanford University, Stanford, USA, 2009. - 308 p.
8. Солтон Дж. Динамические библиотечно-информаци-онные системы: Пер. с англ. - М.: Мир, 2009. - 558 с.
R
p