АЛГОРИТМ іДЕНТИФіКАЦії ПОДіБНОСТі СКЛАДНО-СТРУКТУРОВАНИХ ДАНИХ НА ОСНОВі СЕМАНТИЧНИХ МЕРЕЖ

Тушницький Р.Б.; Макар В.М.

Запропоновано алгоритм пошуку поЫбно-стi складно-структурованих даних iз вико-ристанням семантичних мереж. Дослиджено використання алгоритму для задачi пошуку подiбностi бiблiографiчних опитв в шформацш-но-аналтичнш системi ^ЫепсеЬР". Для ут-версальностi програмног реалiзацii алгоритму запропоновано використати рефлексивно-орi-ентований пiдхiд програмування

Ключовi слова: алгоритм пошуку, бiблiо-графiчний опис, пошук подiбностi, семантичш мережi

□-□

Предложен алгоритм поиска сходства сложно-структурированных данных с использованием семантических сетей. Исследовано использование алгоритма для задачи поиска сходства библиографических описаний в информационно-аналитической системе ^ЫепсеЬР". Для универсальности программной реализации алгоритма предложено использовать рефлексивно-ориентированный подход программирования

Ключевые слова: алгоритм поиска, библиографическое описание, поиск сходства, семантические сети

УДК 004.822+004.912

|DOI: 10.15587/1729-4061.2015.510511

алгоритм 1дентиф1кацп под1бност1 складно-структурованих даних на основ1 семантичних мереж

Р. Б. Тушницький

Кандидат техшчних наук, доцент* E-mail: ruslan.tushnytskyy@gmail.com В. М. Макар

Кандидат техшчних наук, доцент* E-mail: makvm_cad@yahoo.com *Кафедра програмного забезпечення Нацюнальний ушверситет ^bBÍBCb^ пол^ехшка» вул. С. Бандери, 12, м. Львiв, УкраТна, 79013

1. Вступ

Одшею з основних проблем обробки шформацп е и штелектуальний аналiз. Бшьшшть кнуючих методiв в основному забезпечують обробку текстово! шформацп. Поряд з тим слабо дослщжена методика штелек-туального аналiзу складно-структурованих даних. На сьогодш одшею iз важливих задач е визначення подiб-ностi таких даних. Актуальшсть задачi iдентифiкацii подiбностi виражаеться у необхiдностi застосувати щ методи у рiзних сферах дiяльностi: пошук iнформацii; навчання; визначення плапапв; системи колективно! роботи; версiонування даних.

У б^ьшоси областей застосування виршальни-ми критерiями при виборi технологш i алгоритмiв е швидкiсть роботи i гарантп забезпечення якостi. Для забезпечення швидкодп доводиться вiдмовлятися вщ використання систем штучного iнтелекту заснованих на базах знань, так як вони не витримують величезного потоку несистематизовано! шформацп рiзноi тема-тично! спрямованостi. Формування методик i засобiв з оцiнки якостi порiвняння шформацп е вщкритою проблемою для дослщження.

2. Аналiз лiтературних даних та постановка проблеми

На сьогодш icHye ряд пiдходiв до визначення по-дiбноcтi текспв. В методi шинглгв для Bcix ланцюжкiв аналiзованого тексту розраховуеться так звана "сигнатура" - ушкальне число, поставлене у ввдповвдшсть деякому тексту i/або функщя його обчислення [1]. Да-ний метод е досить ресурсоемний i його можна обшти,

незначно змшивши текст, так як, насамперед, шингли залежать вщ вiдстанi мiж словами.

Iснуючi методи обчислення "сигнатур" под^яють-ся на:

- синтаксичт методи - оперують з ланцюжками ^в;

- лексичт методи - оперують 3i словником.

Неважко показати, що за шингли можна з високою

ймовiрнiстю судити про подiбнiсть тексив, 1х вкладе-ностi, плагiатi i т. д. Однак для практичних завдань, в тому чи^ для виявлення масових розсилок, потрiбно занадто велика юльюсть шинглiв, що представляв висок вимоги до ресурсiв для проведення процедури кластеризацп.

Серед лексичних методiв поширеним в Match або метод «Описових слгв» [2]. Побудова контрольних сум для обмеженого числа (40-60 %) ств, якi найбiльш повно описують вмшт тексту. Описовi слова тдбира-ються з урахуванням важливостi слова. Важливкть може визначатися динамiчно або заздалегвдь бути роз-рахована на тестово! вибiрцi для оптимiзацii.

Ыдстань редагування. Вперше була визначена Левенштейном. Визначення можна поширити i для тексив, представляючи абзаци або речення як слова, а слова як символи. Рашше були розроблеш рiзнi реалiзацii алгоритмiв, якi найчастiше використову-валися для побудови систем перевiрки орфографп, всi вони можуть бути адаптоваш для визначення схожостi текстiв.

Ыдстань Левенштейна - це мжмальна юльюсть операцiй вставки одного символу, видалення одного символу та замши одного символу на шший, необхвд-них для перетворення одного рядка в шший. Вщстань

©

Левенштейна та його узагальнення активно застосо-вуеться:

- для виправлення помилок в словi (в пошукових системах, базах даних, при введенш тексту, при автоматичному розтзнаванш ввдсканованого тексту або мовлення);

- для порiвняння текстових файлiв утилiтою diff i 1й подiбними. Тут роль «символ1в» грають рядки, а роль «рядюв» - файли;

- в бюшформатищ для порiвняння генiв хромосом i бiлкiв.

З точки зору додаткiв визначення вiдстанi мiж словами або текстовими полями за алгоритмом Левен-штейна, можна вид^ити наступнi недолiки:

- при перестановщ мiсцями слiв або частин ^в виходять порiвняно велик вiдстанi;

- вiдстанi мiж абсолютно рiзними короткими словами виявляються невеликими, в той час як вщсташ мiж дуже схожими довгими словами виявляються значними.

Вщстань Дамерау-Левенштейна - це мiра рiзницi двох рядюв символiв, обумовлена як мiнiмальна юль-кiсть операцiй вставки, видалення, замши та перестановки сусщшх символiв, необхiдних для перекладу одного рядка в шшу. 6 модифiкацieю вщсташ Левенштейна, вiдрiзняeться вiд нього додаванням операцп перестановки.

Для задачi пошуку також вiдомi спроби поеднання лексичних i структурних мiр подiбностi [3].

Лгнгвгстичнг методи. Суть методiв полягае в побу-довi дерева вмкту документу i його глибокому аналiзi. Для пiдвищення якостi роботи алгоритмiв додатково може здiйснюватися попередня обробка вхщно'! шфор-мацп. Найбiльш ефективними е таю засоби тдвищен-ня якост [4-6]:

- стеммгнг - нормування слова, приведення до единого кореня;

- лгнгвгстичнг бази - бази перекладiв для незалеж-носп вiд мови написання документу та бази синонiмiв;

- розбиття документу на частини, визначення i тдсумовування результату отриманого для пар частин як незалежних докуменпв;

- метод каскаду - оптимiзацiя може використо-вуватися для пошуку схожих докуменпв серед прош-дексованих даних. Полягае в кластеризацп груп доку-ментiв i видiлення центрового документа. Негативний результат порiвняння документу з центром кластера виключае потребу виконувати операцii з документами що входять в кластер.

Основним недолжом будь-якого алгоритму зна-ходження подiбностi е його щльове призначення. Усi алгоритми суто орiентованi на текст як сущльнш елемент структурних даних i не враховують контексту iнформацii, яка представлена в тексть Це уне-можливлюе застосування алгоритмiв для тексту зi специфiчним контекстом. бдине застосування таких алгоритмiв - це тексти, яю можуть бути елементами б^ьш-складного об'екту порiвняння.

У бiблiографiчному опии немае великих текстових елеменпв, отже застосування складних алгоритмiв побудованих на шинглах чи супер-шинглах е недо-цiльним. Для бiблiографiчних описiв найбiльш прак-тичним е застосування алгоритмiв побудованих на метриках. З розглянутих таких алгоритмiв найбшьш

ефективним е алгоритм визначення вщсташ реда-гування Дамерау-Левенштейна. Крiм того, алгоритм можна зробити ушверсальним для будь-яких даних використовуючи тдхщ рефлексивно-орiентованого програмування.

Задача iдентифiкацii подiбностi бiблiографiчних описiв е похiдною вiд задачi класифiкацii текстiв, яка формулюеться наступним чином: нехай е деяка множина прикладiв текспв, кожен з яких належить до одного з к заздалегвдь ввдомих класiв. Потрiбно ство-рити алгоритм, який, будучи навченим на текстах-прикладах, отримуючи на входi новий невiдомий текст, видавав на виходi вектор (рь ..., рк), де р; - ймовiрнiсть того, що даний текст належить класу ;.

Узагальнюючи, можна зробити наступне форму-лювання: для заданого бiблiографiчного опису знайти тдмножину бiблiографiчних описiв, критерiй подiб-ност яких менший за деяке граничне значення [7].

3. Цшь та задачi дослiдження

Проведенi дослiдження ставили за мету розро-блення алгоритму пошуку подiбностi складно-струк-турованих даних, який забезпечуе покращення якостi вдентифжацп подiбностi у вже iснуючих програмних продуктах.

Для досягнення поставлено! мети виршувалися таю задача

- аналiз i побудова семантично! мережi бiблiогра-фiчного опису публiкацii;

- розробка методiв порiвняння окремих вузлiв се-мантично'^ мережi;

- розробка програмного забезпечення, яке реалiзуе розробленi методи порiвняння та побудовану семан-тичну мережу для пошуку подiбностi складно-струк-турованих даних.

4. Матерiали та методи дослiдження використання розробленого алгоритму для задачi пошуку подiбностi бiблiографiчних описiв

В якоси складно-структурованих даних обрано бiблiографiчний опис. Експериментальш дослiдження ефективностi розробленого шдходу проведено для задачi пошуку подiбностi бiблiографiчних описiв у системi звиност про наукову-дослiдну дiяльнiсть На-щонального унiверситету «Львiвська полiтехнiка» -шформацшно-аналггичнш системi "ScienceLP" [8, 9].

Бiблiографiчний опис - це сукупнiсть бiблiогра-фiчних вiдомостей про документ, його складову ча-стину чи групу докуменпв, якi наведенi за певними правилами, необхщш та достатнi, i е результатом ана-лiтичного опрацювання iнформацii. Процес складан-ня бiблiографiчного опису передбачае виявлення та формування за певною методикою множини бiблiогра-фiчних даних про окремий документ або його частину чи групу докуменпв.

Для загального складання бiблiографiчного опису на мiжнародному рiвнi, використовуеться стандарт ДСТУ ГОСТ 7.1:2006 «Бгблюграфгчний запис. Бгблюграфгчний опис. Загальнг вимоги та правила складання», який набув чинноси 1 липня 2007 року. Вш е

базовим для системи стандарпв, правил, методичних поибниюв 3i складання бiблiографiчного опису. Даш для складання опиав беруться безпосередньо з ви-дання. Опис складаеться з обов'язкових елементiв: основний заголовок, автори, повторшсть видання, piK видання, обсяг [10].

Практичними застосуваннями методу пошуку по-дiбностi бiблiогpафiчних описiв в системi звiтностi тдроздШв е такi:

- пошук публжацш в базi даних за ïï бiблiогpафiч-ним описом;

- пошук подiбностi бiблiогpафiчних описiв публь кацш в базi даних.

5. Семантична мережа для бiблiографiчного опису

Семантична мережа - це спрямований граф з по-йменованими вершинами i дугами, причому вузли позначають конкретш об'екти, а дуги - вщносини мiж ними. Семантичну мережу можна побудувати для будь-яко'1 пpедметноï областi i для самих piзноманiт-них об'екпв i вiдносин. Прикладом використання се-мантичних мереж для бiблiогpафiчного опису е робота [11], в якш розроблено систему для P2P обмшу бiблiо-гpафiчними даними мiж науковцями.

Осюльки, бiблiогpафiчний опис можна подати у виглядi структури даних, де кожна його компонента е окремо вид^ена, можна значно тдвищити яюсть пошуку подiбностi, якщо робити спецiалiзований аналiз кожноï його компоненти.

Для pеалiзацiï алгоритму поpiвняння склад-но-структурованих даних потpiбно обробити даш таким чином, щоб можна було щентифжувати кожен елемент, та яку функщю поpiвняння застосувати для нього. Для виршення такоï задачi найкраще тдхо-дить представлення бiблiогpафiчного опису у виглядi семантичноï мереж^ де кожна компонента бiблiогpа-фiчного опису е вузлом, i в залежносп вiд складностi цього компоненту цей вузол може мати дочipнi вузли, як в свою чергу будуть теж д^итися на дочipнi, поки весь опис об'екту в семантичнш меpежi не буде представлений вузлами примггивних типiв.

До кожного такого вузла буде застосовуватися функщя поpiвняння. Також кожен вузол меpежi мае свiй ваговий коефiцiент, який розпод^яеться piв-номipно мiж уйма мерошмами одного холонiма та обчислюеться як вiдношення коефiцiента холонiма до юлькост меpонiмiв.

Для кожного вузла семантичноï меpежi в залежно-CTi вiд типу даних буде застосовуватися своя функщя поpiвняння, яка на вхвд буде отримувати два вузла однакового типу, а повертати '¿хне значення подiбностi. Остаточне значення подiбностi для вузла визначаеться ваговим коефвдентом, на який i множиться значення подiбностi. Шсля чого усi значення вузлiв поточного piвня вкладеностi сумуються i отримане значення представляе подiбнiсть батькiвського вузла. Отрима-не значення не може перевищувати значення вагового коефiцiента.

Для piзних пpимiтивних типiв можуть застосува-тися piзнi функцп поpiвняння.

Числов1 типи даних. Для числових титв даних функщя поpiвняння обчислюватиме ввдношення мен-

шого числа до бшьшого. Таке вiдношення дасть представлення яку частину б^ьшого числа представляе собою менше.

Стргчковг типи даних. Стрiчка представляе собою набiр символiв у виглядi окремих слiв. У даному ви-падку у бiблiографiчному описi стрiчковi данi займа-ють невеликий об'ем. Отже для ефективного порiв-няння доцiльним е знаходження ввдсташ редагування. На даний момент, найб^ьш ефективним алгоритмом знаходження ввдсташ редагування е алгоритм Дамерау-Левенштейна. Ефектившсть полягае у великiй юлько-стi пiдтримуваних операцiй в стрiчцi: вставка, видален-ня, замiна та перестановка.

Тип даних «дата». Для цього типу даних застосову-еться подiбний мехашзм як до числових титв даних, лише з одшею важливою вiдмiннiстю. Основна проблема при порiвняннi дат - це часовi межi. Для даного типу часовi межi повиннi бути вщомими наперед. Для цього обчислюеться найб^ьша рiзниця дат.

Таким чином можна дшти до висновку, що порiв-няння рiзних компонент залежить напряму вщ типу кожно! компоненти. Використовуючи таку специфiку даних, реалiзацiю алгоритму можна зробити ушвер-сальною для будь-яких порiвнюваних об'ектiв.

Унiверсальнiсть обчислювання можна досягнути за допомогою рефлексп. Пiд цим поняттям маеться на уваз^ що побудова семантично! мережi буде вщбува-тися саме на основi елементiв структури та 1хшх типiв, порiвнюваних об'ектiв.

Множини. Окремими випадком е нечггке порiвнян-ня множин будь-яких структур даних з дов^ьним порядком. Основна проблема полягае в обчислювальнш складносп такого алгоритму, осюльки передбачае де-юлька рiзних послiдовних крокiв, що виключае мож-ливiсть використання динамiчного програмування.

Нехай е двi множини: Q{a, ab, abc} та W{b, abc, ba}. Першим кроком е обчислення вектору подiбностi для кожного елементу з множини Q. Тобто, елемент з множини Q порiвнюеться з кожним елементом з множини W i записуються у вектор. Шсля чого цей вектор ввд-сортовуеться у порядку спадання знайдених подiбнос-тей елеменпв.

Далi для елемента множини Q обираеться перший елемент з вщповщного йому вектора, i проводиться пошук такого ж елемента серед перших елеменпв уах векторiв, причому подiбнiсть цих елеменпв може бути рiзною. Далi вщбуваеться наступне:

- Якщо таких елеменпв не знайдено, то результат подiбностi встановлюеться для поточного елемента множини Q i видаляеться весь векто, з якого було об-рано результат, та уа входження знайденого елемента у шших векторах.

- Якщо знайдено таю елементи, це означае, що елемент, який був обраний першим у вектор^ може мати конфлжтш подiбностi для шший елеменпв множини Q. Тому серед знайдених елеменпв серед перших елеменпв векторiв спочатку шукаеться максимальне значення подiбностi. Якщо таке значення знайдено, то результат остаточно записуеться та видаляеться весь вектор знайденого результату та уа входження знайденого елемента у шших векторах. Якщо ж знайдено де-юлька таких максимальних значень подiбностi серед однакових елеменпв вибiрки з перших елеменпв век-торiв, то записуеться поточний результат вибраного

елементу i видаляеться вектор, але уа iншi елементи залишаються у векторах.

Далi знайденi результати подiбностей множаться на внутрiшнiй ваговий коефвдент колекцii, який до-рiвнюе вiдношенню одиницi до кiлькостi елеменпв в множинi, та сумуються.

Для розробки алгоритму порiвняння склад-но-структурованих даних спочатку потрiбно привести вхщш данi до унiверсального вигляду для подальшо' '¿хньо' обробки алгоритмом. Для цього було виршено будувати семантичну мережу на основi структурних елеменив порiвнюваного об'екту, використовуючи рефлексивно-орiентований тдхщ.

6. Проектування семантично! мережi

Кожен вузол мережi представляе собою значення примиивного типу. Для кожного такого типу була розроблена власна функщя порiвняння. Для числових типiв порiвняння вiдбуватиметься на основi вщно-шення меншого до бiльшого числа. Для стрiчкових даних використовуватиметься алгоритм Дамерау-Ле-венштейна для обчислення вiдстанi редагування. Для дат застосовуватиметься тдхщ на основi мiнiмальноi та максимальноi дати.

На рис. 1 подано побудовану семантичну мережу бiблiографiчного опису: вказано назву поля, тип даних та значення вагового коефвдента (ВК).

Рис. 1. Семантична мережа для класифкаци нетишзованого об'екту

У семантичнш мережi визначення подiбностi бiблi-ографiчних опиав кожна вершина найнижчого рiвня представляе певний компонент бiблiографiчного опису, кожна вершина вищих рiвнiв представляе функщю порiвняння, на вхiд яко' подаються вiдповiднi частини двох бiблiографiчних описiв, а на виходi отримуеться коеф^ент '¿х подiбностi. Кожна така функщя мае динамiчний ваговий коефвдент, який визначаеться пiдсистемою пiд час порiвняння бiблiографiчних опи-

сiв i залежить вiд промiжних результатiв. Елементи бiблiографiчного опису можуть одночасно подаватись на вхщ рiзних функцiй порiвняння, наприклад, роки будуть порiвнюватись на рiзницю i на поцифрову рiв-нiсть. Коренева вершина видае результат подiбностi двох бiблiографiчних описiв.

Аналiз подiбностi вiдбуваеться окремо за кожною компонентою бiблiографiчного опису: назва статт^ рiк видання, перелiк авторiв, мкто, видавництво та юль-кiсть сторшок.

Оскiльки рiк та кiлькiсть сторшок е числовими даними, '¿х аналiз вiдбуваеться у двох напрямках: рiз-ниця чисел та поцифрове порiвняння.

Список авторiв аналiзуеться також у двох напрямках: вщбуваеться порiвняння кiлькостi авторiв, ств-ставляються iмена кожного з авторiв.

У семантичнш мережi визначення подiбностi бь блiографiчних описiв кожна вершина найнижчого рiв-ня представляе певний компонент бiблiографiчного опису. Кожен вузол мае свш ваговий коефiцiент, який обчислюеться в залежносп вiд кiлькостi вузлiв на кожному з рiвнiв мережi.

7. Результати експериментальних дослщжень пошуку подiбностi бiблiографiчних описiв

На основi розробленоi семантичноi мережi та ме-тодiв порiвняння окремих ii вузлiв створено про-грамну реал1защю для дослщження процесу обробки iнформацii. Тесту-вання програмного забезпечення про-водилося на складно-структурованих даних типу «Бiблiографiчний опис». Об'ект такого типу налiчуе у собi уа можливi структурнi елементи, якi умiе розпiзнавати семантична мережа. Програмний модуль пошуку подiбно-стi бiблiографiчних опиив публжа-цiй впроваджено у шформацшно-аналiтичну систему "ScienceLP" Нащо-нального ушверситету «Львiвська по-лггехшка» [8]. Осюльки система '^сь enceLP" мктить персональнi данi пра-цiвникiв ушверситету, iз роботою да-ного пошукового модуля можна оз-найомитись iз внутрiшньоi мережi унiверситету, виконавши тдключен-ня до приватноi мережi.

На рис. 2 наведено штерфейс ко-ристувача 1АС "ScienceLP", на яко-му вiдображено приклад результатiв пошуку подiбностi бiблiографiчних описiв публiкацiй. Пошуковий запит вщображаеться першим у результу-ючiй вибiрцi даних. Для кожно' публiкацii вщо-бражаеться И тип та повний бiблiографiчний опис. Результуюча вибiрка даних вiдсортована у порядку спадання знайдених коеф^енив подiбностей бiблi-ографiчних описiв.

Для дослiдження ефективност реалiзованого алгоритму здiйснено ощнку подiбностi для оригшально-го бiблiографiчного опису публiкацii та бiблiографiч-них опиив, якi мiстять внесенi змши.

Доггамога

Над1слати повщомлення ver. 01.10J20is 17:44:47 Кольорова тема: Зелена

Користувач ruslan4yk Вихщ з системи

ScSeneeLP

1нформацшно-анал1тична система

користувачт в систем! - 2

О-ттправа користувача: —власн| права—

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Admin || НДЧ || Аспрантура | Кадри | Звп~и пщроздтв [ НДР студенте МНТС _

Довщники► Публ1кацн> Ihluî результати ► Пошук Штати 3bîth ►

Статистика ► Працюники вщдту

Пошук по публ!кацтм, довщникахта авторах

ДеталЬувати пошук

Новий пошук

Результата пошуку ( всього знайдено 10 запиав )

Показувати записи: 50 j-J

Тип

Опис

пусл11:ац1:п в P.E. Тушницький, F Кожух. Програмна система для дослщження пар ал ельних элгоритм!в з використанням обчислень

первдичному на графпному процесор! // Вюник Нацюнального техннного унтерситету "Харгавський полггекннний ¡нститут". - 20Ï 2. -виданы Na 63(974). — С.115 - 11В. (в межахробочого часу викпавача) (piK aeimy 2013)

пу0л1кац|я в Федасюк Д.В., Макар В.М., Тушницький Р.Б. Структура ¡нформацшно-аналлично! системи oSniKy подготовки наукових

первдичному кадрт унтерситету//BicHHK Нацюнального унтерситету "Львтська псштехика". Сери "1нформатизац1я вищого наЕмального BHflaHHi закладу". - 20 Ï3. - N° 775. - С.99 - 103. (в межах робсного часу викпадача) (pin 3eimy2014)_

^ Нацюнальний уыверситет "Льв1вська полгехшка'

VupaïHa, 7901 3, м. JlbBiE, вул С Бачдери, 1 2 ^ 1нформацшно-анаптична система ScienceLP

BiflOMOCTi

> Про систему

> Допомога

Пп"римка користувачт Розробники

Рис. 2. Вщображення результатiв пошуку подiбностi бiблiографiчних описiв публiкацiй в 1АС "ScienceLP"

В табл. 1 подано обчислений коефвдент под!бно-стi бiблiогpафiчних опиав для такого оpигiнального опису:

Зайченко О. С., Петрушка I. М. "Особливост1 фор-мування тформацшного забезпечення mypucmu4Hoï д1яльност1"/ О. С. Зайченко, I. М. Петрушка // Ысник Нащонального утверситету "Льв1вська полтехтка". Сер1я "Ыформацшт системи та мереж1". - № 783. -2014. - с. 336-345.

Таблиця 1

Коефщieнт подiбностi бiблiографiчних опиав публкацш

Опис змши Змiнений текст бiблiогpафiч-ного опису Коефщент подiбностi, %

Змшено порядок одного слова в назв1 Особливостi шформацшного формування забезпечення туристично!' дiяльностi 90

Змшено порядок двох сшв Особливосп дiяльностi iнфоpмацiйного формування забезпечення туристично'1 88

Внесено помил-ки в авторах Зайчанко Ф. С., Петрушка К. М. 86

Внесено змши в назв1 Особливосп аналiзу програм-ного забезпечення туристично'1 дiяльностi 86

Внесено змши у рш, номер та сторшки № 222. - 2015. - с. 111-222 67

З табл. 1 видно, що розроблений тдхщ пошуку по-дiбностi е стшким до внесення суттевих змш у текстов! значення бiблiогpафiчного опису i чутливим до внесення суттевих змш у числов! значення.

Великою перевагою ушверсальност розробленого р!шення е застосування методу рефлексп. Такий тд-хщ дае змогу розтзнати практично будь-який об'ект, незалежно чи це вбудований, чи користувацький тип даних. Дослщження роботи цього тдходу проводи-

лося на модифжащях типу «Бiблiогpафiчний опис», тд час якого додавалися нов! елементи, модифжува-лися та видалялися кнуюч! Це дозволило побачити процес побудови семантично! меpежi в залежност! вщ структури об'екту. Було виявлено, що в залежност вщ юлькост елементiв, як! характеризують об'ект, по р!зному розпод!ляються коефiцiенти ваги вузл!в. Значення такого коефвденту обчислюеться пропорцшно вщ юлькост! елеменпв об'екта. Але можлива ситуа-щя, коли коефiцiент може представляти значення в перюд^ для прикладу 0.333. Це може дати не суттеву похибку точност при виявленш под!бность На прак-тищ виявлено, що розм!р цiеï похибки не впливае на кшцевий результат.

8. Обговорення результаив експериментальних дослiджень

Пор!вняння кожного вузла семантично! вщбува-лося за заданими правилами, як! встановлюються для кожного примиивного типу даних окремо. Завдяки тому, що кожен складний тип даних представляеться у семантичнш мереж! як наб!р примиивних титв, юльюсть можливих правил е скшченною. Це дае змогу повшстю перев!рити пор!вняння кожного елемента об'екту.

Дослщження швидкост та достов!рност проводи-лося на виб!рщ даних у 1900 елеменпв.

Для числових титв серед уае! виб!рки не було виявлено некоректних результапв. Це очевидно, осюль-ки алгоритм знаходження под!бност для такого типу даних е простим та примиивним i займае всього одну базову операщю.

Для такого типу даних як дата, у ход! дослщження було виявлено, що под!бшсть таких елеменпв сильно залежить вщ перюду дати, в якому повинно вщбувати-ся пор!вняння. Осюльки процес пор!вняння включае у соб! переведення дат у едину числову характеристику

та порiвняння вже цих характеристик як звичайних чисел, то n0Tpi6H0 зауважити, що кожне число nopiB-нюються вiд його початку вiдлiку. Для звичайних чисел це е справедливе правило. Але для шших числових даних, як представляють iншi типи, можуть бути до-даткoвi обмеження. При пopiвняннi дат важливо знати точку вщлжу пopiвняння. Для цього пoтpiбнo знати мiнiмальне та максимальне значення дати у вибipцi пopiвняння. Вiдпoвiднo цi значення i встановлюють лiмiти пopiвняння для досягнення бiльшoï дoстoвip-нoстi пopiвняння. Якщо ж вибipка складаеться усього з одного елементу, то при пopiвняннi це правило не повинно враховуватися, осюльки пopiвнюваний еле-мент та базовий якраз i вщповщають за мжмальне i максимальне значення дати. Але е i недолж при такому тдход^ oскiльки пoтpiбнo знати мiнiмальне та максимальне значення дати, то необхщно проводити попереднш пpoбiг по вибipцi пopiвнюваних даних для '¿х пошуку. А це в свою чергу збшьшуе обчислювальну складнiсть алгоритму, що веде до зб^ьшення часу пошуку пoдiбнoстi.

Як тiльки алгоритм отримуе на вхoдi елемент складного типу, який уже представлений у семантич-нiй меpежi у виглядi елементiв пpимiтивних типiв, вщбуваеться рекурсивний виклик функцп пopiвнян-ня, який застосовуе уже вщому для кожного типу даних власну функщю пopiвняння. Такий рекурсивний виклик е необмеженим в залежносп вщ складнос-тi структури пopiвнюванoгo об'екта. Вщповщно чим бiльша вкладенiсть складних структур тим б^ьше часу необхщно для проведення пopiвняння.

Для вузлiв семантичнoï меpежi, якi представляють колекцп даних, процес пopiвняння ускладнюеться кiлькiстю елементiв пopiвнюваних кoлекцiй та появою кoлiзiй у pезультатi вели^ кiлькoстi однакових еле-ментiв у колекцп. Враховуючи, що пopiвняння колекцш проводиться з врахуванням нечiткoï пoдiбнoстi елемен-тiв, то стае складно визначити найб^ьш дoстoвipний пoдiбний елемент колекцп, маючи при цьому ще таких самих декiлька елементiв. Можна зробити висновок, що проблема таких кoлiзiй обумовлена саме процесом нечеткого пошуку пoдiбнoстi елементiв колекцп.

На тестовш вибipцi не вдалося знайти фактичне тдтвердження iснування такoï проблеми, осюльки iмo-вipнiсть виникнення тако'1 ситуацп е надзвичайно мала, але теоретичне тдгрунтя iснуе у цiеï проблеми i це може бути потенцшним матеpiалoм дoслiдження для покращення роботи алгоритму пopiвняння кoлекцiй.

Отже, можна зробити висновок, що розроблений тдхщ виявлення пoдiбнoстi складно-структурованих даних мштить виражений показник новизни, осюльки

даe змогу проводити пошук подiбностi для об'eктiв невiдомоï структури та типу.

Також явною ознакою новизни e те, що ефектив-шсть та достовiрнiсть результапв подiбностi бiблiо-графiчних описiв e набагато вищою, чим достовiрнiсть результапв, виявлених в iснyючiй системi порiвняння 1АС "ScienceLP" [8, 9].

Але варто також зазначити, що e деюлька недолшв алгоритму, якi можуть порушувати точнiсть резуль-татiв та зб^ьшувати час отримання цих результапв. Цими недолiками e точка ввдлжу при порiвняння дат та проблема колiзiй при отриманнi резyльтатiв подiб-ностi двох колекцiй.

9. Висновки

Пpoведенi дослвдження показали, що iснуе проблема тд час пopiвняння iнфopмацiï. Суть проблеми полягае в тому, що сучасний тдхщ до збереження шформацп все менше стае сумкним iз старими методами пошуку пoдiбнoстi, oскiльки iнтелектуальне по-piвняння шформацп шнуючих систем дае змогу лише оперувати примгтивними типами даних. Тому виникла необхщшсть розробити метод пopiвняння даних, який був би незалежний ввд типу даних. Основна задача методу - базуючись на стpуктуpi пopiвнюванoгo об'екту, пopiвнювати кожну його компоненту в залежност вщ того, якого типу ця компонента е.

В pезультатi дoслiджень проведено аналiз i побу-довано семантичну мережу бiблioгpафiчнoгo опису публiкацiï. Для окремих вузлiв семантичнoï меpежi розроблено свoï методи пopiвняння, якi базуються на тип вузла.

Розроблено програмне забезпечення, яке pеалiзуе poзpoбленi методи пopiвняння та побудовану семантичну мережу для пошуку пoдiбнoстi складно-струк-турованих даних. Для забезпечення ушверсальност запропонованого методу використано рефлексивно-о-piентoваний пiдхiд програмування. Це дае змогу алгоритму бути незалежним вщ типу пopiвнюванoгo об'екту та його внутpiшньoï структури.

Пpoведенi експеpиментальнi дослщження показали дoцiльнiсть використання запропонованого алгоритму вдентифжацп пoдiбнoстi складно-структурова-них даних для системи звгтносп про наукoву-дoслiдну дiяльнiсть Нацioнальнoгo ушверситету «Львiвська полгтехшка».

Пoдальшi дoслiдження включають в себе вдоскона-лення шнуючих та розроблення нових функцiй пopiв-няння вузлiв семантичнoï меpежi.

^ÍTepaTypa

1. Broder, A. Z. On the Resemblance and Containment of Documents [Text] / A. Z. Broder // Proceedings of Compression and Complexity of SEQUENCES 1997, 1997. - P. 21-29. doi: 10.1109/sequen.1997.666900

2. O'Hara ,T. Lexical Acquisition with WordNet and the Mikrokosmos Ontology [Text] / T. O'Hara, K. Mahesh, S. Nirenburg // Proceeding of the COLING/ACL Worskshop on Usage or WordNet in Natural Language Processing Systems, 1998. - P. 94-101.

3. Nguyen, T. Combination of Lexical and Structure-Based Similarity Measures to Match Ontologies Automatically [Text] / T. Nguyen, S. Conrad // Knowledge Discovery, Knowledge Engineering and Knowledge Management. Communications in Computer and Information Science. - 2013. - Vol. 415. - P. 101-112. doi: 10.1007/978-3-642-54105-6_7

4. Metzler, D. Similarity Measures for Short Segments of Text [Text] / D. Metzler, S. Dumais, C. Meek // Advances in Information Retrieval. Lecture Notes in Computer Science. - 2007. - Vol. 4425. - P. 16-27. doi: 10.1007/978-3-540-71496-5_5

5. Metzler, D. Similarity measures for tracking information flow [Text] / D. Metzler, Y. Bernstein, W. B. Croft, A. Moffat, J. Zobel // Proceedings of the 14th ACM international conference on Information and knowledge management - CIKM '05, 2005. -P. 517-524. doi: 10.1145/1099554.1099695

6. Buttler, D. A Short Survey of Document Structure Similarity Algorithms [Text] / D. Buttler // The 5th International Conference on Internet Computing, 2004.

7. 1дентифшащя бiблiографiчних опиав [Електронний ресурс]. - 2015. - Режим доступу: https://uk.wikipedia.org/wiki/Iдеи-тифiкацiя_подiбиостi_бiблiографiчиих_описiв

8. Макар, В. 1нформацшно-анаттична система для автоматизацй тдготовки наукових звтв тдроздтв Львiвськоï пол^ех-шки [Текст]: матер. 6-ï наук.-прак. конф. / В. Макар, Р. Тушницький // 1нновацшш комп'ютерш технологи у вищш шкода. - Льв1в, 2014. - C. 177-182.

9. Федасюк Д. В. Структура шформацшно-анаштично'1 системи облiкy пiдготовки наукових кадр1в yиiверситетy [Текст] / Д. В. Федасюк, В. М. Макар, Р. Б. Тушницький // Вюник Нацюнального ушверситету "Львiвська полiтехиiка". Cерiя "1нфор-матизацiя вищого навчального закладу". - 2013. - № 775. - C. 99-103.

10. Кушнаренко, Н. М. Наукова обробка докуменпв [Текст] / Н. М. Кушнаренко, Б. К. Удалова; 4-те вид., перероб. i доп. - К. : Знання, 2006. - 334 с.

11. Haase, P. A Bibster - A Semantics-Based Bibliographic Peer-to-Peer System [Text] / P. Haase, B. Schnizler, J. Broekstra, M. Ehrig, F. van Harmelen, M. Menken et. al. // Semantic Web and Peer-to-Peer, 2006. - P. 349-363. doi: 10.1007/3-540-28347-1_19

Розроблено тформацшну технологю, що базуеть-ся на знаннях, яка виршуе задачу автоматичног гене-раци тестових запитань з групуванням гх вiдповiдно до iерархiг понять предметног областi. В рамках розробле-ног технологИ створено тструментальний програмний заЫб. Розроблена технологiя дозволить збшьшити кшь-тсть навчальних тестiв, звшьнивши час викладача вiд рутинног роботи на користь гг творчог складовог, при цьому тдвищить ятсний рiвень освти

Ключовi слова: електронне навчання, дистанцшне

навчання, навчальний контент, онтологи, бази знань □-□

Разработана базируемая на знаниях информационная технология, которая решает задачу автоматической генерации тестовых вопросов с группированием их в соответствии с иерархией понятий предметной области. В рамках разработанной технологии создано инструментальное программное средство. Разработанная технология позволит увеличить количество учебных тестов, освободив время преподавателя от рутинной работы в пользу её творческой составляющей, при этом повысит качественный уровень образования

Ключевые слова: электронное обучение, дистанционное образование, контент, онтология, базы знаний_

УДК 004.853

|DOI: 10.15587/1729-4061.2015.513341

рoзрoбка генератора тест1в для "moodle" на баз1 oнтoлoпï

С. В. Сирота

Кандидат техычних наук, доцент* E-mail:sergiy.syrot@gmail.com В. О. Л i с к i н

Астрант* E-mail: lis-580@rambler.ru *Кафедра прикладноТ математики Нацюнальний техшчний ушверситет УкраТни «КиТвський пол^ехшчний шститут» пр. Перемоги, 37, м. КиТв, УкраТна, 03056

1. Вступ

Застосування шформацшних технологш у c^TeMi освгти дозволяе удосконалювати навчальний процес шляхом впровадження нових мeтодiв i пiдходiв не пльки в навчанш, а й в контролi знань.

Стрiмкий розвиток елементно! бази та шформацшних технологш ставить завдання безперервно вдосконалювати, i тримати навчальний контент «up to date». Викладач працюе над сво1ми курсами, вико-ристовуючи 1нтернет, i редагуе матeрiали в реальному чась Завдяки цьому студенти мають можливicть цeнтралiзовано i оперативно отримувати оновлену шформащю.

На сьогоднiшнiй день тестування е однieю з най-бiльш широко використовуваних форм перевiрки знань. Одним з найяскравiших прикладiв е ЗНО для випускникiв середшх шкiл, обов'язкове для вступу у ВНЗ з 2008 року та ДПА в середнш школь

Актуальною задачею е тдвищення якост контролю знань. Аналiз методики роботи з тестовими запи-наннями показав, що у випадку невелико! юлькост банку запитань тести доцiльно використовувати лише для фшального контролю в режимi екзамену. Звiдси випливають двi полярнi задачi. З одного боку тестування мае виконувати навчальну функщю i бути максимально незалежним вщ випадковостi, а з другого - реально вщображати картину знань.

©

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Тушницький Р.Б., Макар В.М.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Тушницький Р.Б., Макар В.М.

Similarity identification algorithm of hard-structured data based on semantic networks

Текст научной работы на тему «АЛГОРИТМ іДЕНТИФіКАЦії ПОДіБНОСТі СКЛАДНО-СТРУКТУРОВАНИХ ДАНИХ НА ОСНОВі СЕМАНТИЧНИХ МЕРЕЖ»