Научная статья на тему 'Оцінювання ефективності інформаційного пошуку в системах консолідованої інформації'

Оцінювання ефективності інформаційного пошуку в системах консолідованої інформації Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
924
67
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
інформаційна система / інформаційний пошук / ефективність / пертинентність / релевантність / information system / information search / efficiency / pertinence / relevance / irrelevance / информационная система / информационный поиск / эффективность / пертинентность / релевантность

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Нич Л. Я., Шаховська Н. Б., Камінський Р. М.

Для оцінювання ефективності інформаційного пошуку запропоновано поділяти знайдені документи на пертинентні, релевантні та нерелевантні. Ефективність пошуку визначати відношенням кількості пертинентних та релевантних документів до кількості нерелевантних документів, а властивості пошукової системи повинні бути подані відповідним коефіцієнтом. Основною метою цього дослідження є розробка інтегрального критерію оцінювання ефективності інформаційного пошуку за результатами видачі в системах консолідованої інформації. Введено поняття консолідованої інформації. Розроблено метод оцінювання ефективності інформаційного пошуку. Він демонструє використання поділу знайдених і виданих документів на пертинентні, релевантні та нерелевантні. Введено інтегральний показник релевантності документу пошуковому запиту, який враховує негативну та позитивну оцінку. Оцінку ефективності подано як сумарне значення різних компонентів. Експеримент виконано на підставі проведення інформаційного пошуку в одному або в кількох інформаційних фондах і на різних пошукових системах за одного набору ключових слів. Розроблений підхід до побудови оцінки інформаційного пошуку має практичне значення, оскільки отримані кількісні значення локальних оцінок дають підстави для оптимізації набору ключових слів, та визначення найбільш відповідних інформаційних фондів і пошукових систем.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

EFFECTIVENESS EVALUATION OF SEARCH IN INFORMATION SYSTEMS WITH CONSOLIDATED INFORMATION

To evaluate the effectiveness of information retrieval there is proposed to share the found documents on pertinent, relevant and irrelevant. Search Performance is ratio to determine the number of pertinent and relevant documents to the number of irrelevant documents and search engine properties have been submitted by the coefficient. The goal of this paper is to develop integrated criterion of evaluating the effectiveness of information retrieval on the results of the issuance of consolidated information systems. The concept of consolidated informationis given. The method of evaluating the effectiveness of information retrieval is built. It demonstrates the usage of the division found and published documents on pertinent, relevant and irrelevant. There is given integral indicator of the relevance of the document search query that takes into account the negative and positive features. Evaluation of effectiveness presented as the total value of the different components. The experiment was performed on the basis of information search in one or several search machines and information on the various search engines for one set of keywords. The approach to building assessment information retrieval is of practical importance because quantitative values obtained local assessments give grounds to optimize the set of keywords and determine the most appropriate information collection and search engines.

Текст научной работы на тему «Оцінювання ефективності інформаційного пошуку в системах консолідованої інформації»

р-К8К 1607-3274. Радюелектронжа, шформатика, управлiння. 2016. № 2 е-ЕЗБЫ 2313-688Х. Каёю Е1еойоп^, Сошриег Баепое, Сопйо1. 2016. № 2

УДК 681.3.06.003.1:004.369.6

Нич Л. Я.1, Шаховська Н. Б.2, Камшський Р. М.3

Асистент, кафедра iнформацiйних систем та мереж, Нацональний унверситет «Львiвська полтехнка», Львiв,

УкраТна

2Д-р техн. наук, професор, кафедра iнформацiйних систем та мереж, Нацональний унверситет «Львiвська

полтехшка», Львiв, УкраТна

3Д-р техн. наук, доцент, кафедра нформаЦйних систем та мереж, Нацональний унверситет «Льввська полтехнка»,

Львiв, УкраТна

ОЦ1НЮВАННЯ ЕФЕКТИВНОСТ1 1НФОРМАЦ1ЙНОГО ПОШУКУ В СИСТЕМАХ КОНСОЛ1ДОВАНО1 1НФОРМАЦП

Для ощнювання ефективност шформацшного пошуку запропоновано под1ляти знайдеш документи на пертинентш, релевантш та нерелевантна Ефектившсть пошуку визначати вщношенням юлькосп пертинентних та релевантних документа до кшькосп нерелевантних документа, а властивост пошуково! системи повинш бути подаш вщповщним коефщентом. Основною метою цього дослщження е розробка штегрального критерто ощнювання ефективност шформацшного пошуку за результатами видач1 в системах консолщовано! шформацп. Введено поняття консолщовано! шформацп.

Розроблено метод ощнювання ефективност шформацшного пошуку. Вш демонструе використання подшу знайдених 1 виданих документа на пертинентш, релевантш та нерелевантна Введено штегральний показник релевантност документу пошуковому запиту, який враховуе негативну та позитивну ощнку. Ощнку ефективност подано як сумарне значення р1зних компонента. Експеримент виконано на пщстав! проведення шформацшного пошуку в одному або в кшькох шформацшних фондах 1 на р1зних пошукових системах за одного набору ключових сл1в.

Розроблений пщхщ до побудови ощнки шформацшного пошуку мае практичне значення, оскшьки отримащ кшьгасщ значення локальних ощнок дають пщстави для оптим!зацп набору ключових сл1в, та визначення найбшьш вщповщних шформацшних фонд1в 1 пошукових систем.

Ключовi слова: шформацшна система, шформацшний пошук, ефектившсть, пертинентшсть, релевантшсть.

НОМЕНКЛАТУРА

Р - клас релевантних докуменпв;

П - клас пертинентних докуменпв;

Н - клас нерелевантних докуменлв;

О - множина шформацшних джерел;

К - користувач, який формуе запит для шформацшного пошуку в джерелах;

N - кшьюсть докуменлв у видачц

/п - вщносна частоту появи пертинентних докуменлв;

/р - вщносна частоту появи релевантних докуменлв;

/Н - в1дносна частоту появи нерелевантних докуменлв;

/р+п - вщносна частоту появи релевантних [ пертинентних докуменлв;

У - в1дношення загально! кшькоста релевантних [ пертинентних докуменпв до кшькосп нерелевантних докуменпв.

ВСТУП

Розвиток комп'ютерно! техшки та шформацшних тех-нологш значною м1рою стимулював створювання [ на-повнення р1зномаштною шформащею як загальш, так [ спещал1зоваш бази даних, забезпечуючи управлшня ними. Проте, з шшо! сторони, величезн обсяги даних практично унеможливлюють безпосередню роботу ко-ристувача з ними, що у свою чергу стимулювало розвиток вщповщних пошукових систем, основною метою яких е своечасне [ повне забезпечення користувача необхщ-ними йому даними. Тому найкритичшшою проблемою, з якою зустр1чаються користувач1, - це забезпечення над-шного, постшного та повнофункцюнального доступу до актуальних даних.

© Нич Л. Я., Шаховська Н. Б., Камшський Р. М., 2016

БОТ 10.15588/1607-3274-2016-2-13

1 ПОСТАНОВКА ЗАДАЧ1

Проблема побудови критерпв ощнювання функцю-нально! ефективност шформацшного пошуку в системах консолщовано! шформацп полягае в тому, що шука-на шформащя збериаеться в р1зних джерелах, створених в р1зний час [ з р1зною метою; вона е складно структуро-ваною, для р1зних задач мае р1зну шформацшну цшшсть, [ р1зними користувачами сприймаеться по-р1зному. Натомить, за високо! надшност [ стабшьност апаратного та програмного забезпечення вся вщповщальшсть за результата пошуку покладена на людський фактор в сени укладання пошукового запиту. В цьому плат, об'ектив-на оцшка ефективност пошуку, а в даному випадку ще й консолщацп знайдених [ виданих докуменпв може бути зроблена саме на пщстав1 виданих докуменпв.

1сторично, а в певному сенс [ пол1тично (з метою захисту шформацп) р1зш джерела шформацп (електронн б1блютеки, загальш та локальн бази, сховища, простори даних) мають сво! особливоста стосовно орган1зац1! форм збереження, пошуку, виявлення, видач1 потр1бно! 1нфор-мацп, як1 в основному полягають у видах [ тонкощах мов запнпв та кодування збережувано! 1нформац1!. Очевидно, що вихщ з тако! ситуацп для користувача е [ йому немае потреби вивчати премудросп мов р1зних запит1в, оск1льки потр1бний пошук зд1йснюють спец1альн1 пошу-ков1 системи. Робота з одн1ею чи навггь дек1лькома базами даних практично полягае у правильному формуванш запиту [ тут 1снуюча пошукова система допомагае знай-ти необхщну 1нформац1ю. Наприклад, локальн1 бази даних навпъ великих п1дприемств досить швидко дають шформащю про виготовлеш вироби, товари, зарплату прац1вник1в тощо. Проте, пошук даних в «чужих» базах

ПРОГРЕСИВН1 ЩФОРМАЦГЙШ ТЕХНОЛОГИ

даних може стати складною проблемою [11]. Тут найк-ращим прикладом е пошукова система Google та ана-логiчнi з нею, яю видають десятки тисяч докуменлв, з яких вибирають лише деюлька, витрачаючи величезну кiлькiсть часу на пошук потрiбних серед наданих пошу-ковою системою.

Не меншою е проблема iнформацiйного пошуку в системах консол^овано! шформацп. Термiн консолда-вана iнформацiя означае одержанi з деюлькох шформа-тивних джерел системно штегроваш рiзнотипнi шфор-мацiйнi ресурси в сукупноста надiленi ознаками повно-ти, цiлiсностi та несуперечностi. Вони фактично подаються у формi адекватно! шформацшно! моделi проблемно! областi для !! аналiзу, опрацювання та ефек-тивного використання в процесах тдтримки прийняття рiшень. Як правило, таю системи е результатом штег-рацп рiзноманiтних джерел шформацп, якi були створеш в рiзний час i за рiзними принципами та мовами запита, а головне за рiзними фаховими ознаками та онтолопя-ми. Досить часто основш технiко-економiчнi дат зосе-редженi в системах, яю реалiзують численнi офiснi, адм-шстративш i технологiчнi процеси, а в результата таю дат не можуть стльно використовуватись в масштабах всьо-го пiдприемства.

2 Л1ТЕРАТУРНИЙ ОГЛЯД

Поняття ефективностi мае широке тлумачення i пе-реважно в екожмчному аспектi. В роботi [1] для оцшки якостi роботи пошуково! системи використовуються такi оцiнки: точнiсть, повнота, акуратшсть, помилка, .Р-мра, якi визначаються як метрики на множинах документа i фактично дають кiлькiсну характеристику самого пошуку. З результатав аналiзу iснуючих пошукових систем в [2] робиться висновок, що для пошуку документа гшер-текстових базах даних ^нукта загальновизнанi оцiнки мають певш обмеження. Запропоновано використову-вати додататда характеристики, до яких вщносять М^зно-вид вибiрки та U-впорядковашсть вибiрки. На цiй пiдставi наводиться коефщент впорядкованостi та коефiцiент по-шукового шуму. Видiлена низка факгс^в, що впливають на успiшнiсть пошуку. Оцшщ ефективностi шформацш-них систем, як однш з проблем шформацшного сустль-ства присвячена стаття [3], в якш на основi аналiзу практичного застосування iнформацiйних систем показано, що в оцшщ ефективноста шформацшних систем можна видiлити три типи ефектав: врахування додатково! шформацп, нормування та врахування оргашзацшних процесiв та планування, оптишзацп, управлшня процесами та ресурсами. Пiдкреслено роль врахування витрат, якi дiлять на двi складовi: капiтальнi (бюджетнi) або прямi витрати i позабюджетнi, пов'язаш з користувачами. Для оцiнки трудовитрат приведена модифiкована формула, яка вра-ховуе модель оцiнки вартостi розробки програмного за-безпечення. Кiлькiснi показники - оцшки функщональ-но! ефективноста iнформацiйно-пошукових систем при-веденi в [4]. До них взнесено таю: повноту, точнiсть, акуратнiсть, помилки. Для ощнювання функщонально! ефективностi iнформацiйно-пошукових систем запропоновано використовувати методи теорп статистичних ршень. Значна увага придшена модифжацп вiдомого

критерiю зважено! комбшацп, та показано його ефек-тивнiсть на прикладi експериментального пошуку в ма-сивi патентiв США. У робота [5] розглянута проблема пошуку шформацп в 1нтернет, И зв'язок з традицшною проблемою пошуку шформацп. Описано жга завдання, вiдрiзняють проблему пошуку в 1нтернет вщ традицшно! проблеми пошуку шформацп, даний огляд ^нуючих методiв пошуку шформацп в 1нтернет. Модель розв'яз-ку задачi iнформацiйного пошуку, яка включае матема-тичний опис послiдовного та бшарного пошукiв приведена в [6]. Змют послiдовного пошуку полягае в прове-деннi порiвнянь запишв. Для бiнарного пошуку використовуеться бшарне дерево. Показано, що ефек-тившсть пошуку визначаеться принаймнi двома основ-ними - точнiстю i повнотою, та чотирма додатковими -специфiчнiстю, вибiрковiстю, коефiцiентом втрати шформацп та коефiцiентом пошукового шуму - показниками. Зазначено, що для оцшки роботи пошуково! системи по^бна репрезентативна юльюсть запита. У [7] форму-люються принципи оцiнки ефективностi функщонуван-ня сучасних iнформацiйно-пошукових систем 1нтерне-ту. Наводяться результати тестування шести шформац-iйно-пошукових систем на основi методу визначення глибини користувацького пошуку.

На пiдставi аналiзу iснуючих пiдходiв до оцiнювання ефективноста iнформацiйного пошуку можна зробити таю висновки.

1. В теоретичному плат ощнювання ефективноста проводиться на пiдставi математичних моделей шфор-мацiйного пошуку. Для цього використовують переваж-но теоретико-множинний апарат, рщше ймовiрнiсний, i розглядають вiдношення множин релевантних та нере-левантних документiв у видачi та iнколи у шформацшно-му фондi.

2. В практичному використанш використовують кри-терп точностi i повноти, рiдше включають i частку нере-левантних документiв у видач^

3. Вiдсутнiсть iнтегрального критерiю ефективноста iнформацiйного пошуку.

Основною метою дослщження е розробка штеграль-ного критерж) оцiнювання ефективностi шформацшно-го пошуку за результатами видачi в системах консолщо-вано! шформацп.

Такий штегральний показник повинен враховувати не лише позитивний результат пошуку, але i негативний -частку нерелевантних документа та частку релевантних, але не виданих документа. Релевантш невиданi документа за одним запитом можуть бути знайдеш i включенi у видачу або за рахунок шшого (нового) запиту або за ра-хунок модифжацп даного запиту. Проте в першу чергу базове ощнювання ефективноста пошуку мае здшсню-ватись виключно на пiдставi видачi першого запиту, а вже далi такий штегральний показник можна уточнюва-ти додатковими ощнками. 3 МАТЕР1АЛИ I МЕТОДИ

Пошук в системi коисо. пдоваиоГ 1мформацГГ. Розгля-немо роботу системи консол^овано! шформацп як дiяльнiсть користувача, пов'язану з вiдбором вщповщно! шформацп стосовно поставлено! задачi. В результата зроб-

р-^Ы 1607-3274. Радюелектронжа, iнформатика, управлiння. 2016. № 2 е-^Ы 2313-688Х. Каёю ЕЬ^гоп^, Coшputer Science, Contro1. 2016. № 2

леного запиту шформацшно-пошукова система здшснюе видачу знайдених документав. Як правило, не вм видан документи в1дпов1дають зробленому запиту [ потребам користувача. З точки зору його задач1 видан документи можуть бути подлен принаймн на три класи: релевантн Р, пертинентн П та не релевантн Н.

Позначимо, через О множину р1зномаитних шформа-цшних джерел О = й2, ..., йп, йг е О, йг п ф ф 0, г, ] = 1, 2, ... , п }, яю можуть мати спшьн фонди шформащйного ресурсу; К - користувач, який формуе запит для шформащйного пошуку в р1знотипних джерелах.

Тод1, процес шформащйного пошуку в системах кон-солщовано! шформацп можна подати у вигляд1 схеми щлеор1ентовано! роботи трьох блоюв - «Опрацювання запитав», «Консолщацп даних» та «Опрацювання даних» зображено! на рис. 1. Перший з цих блоюв функщональ-но забезпечуе переклад мови запиту користувача на мову запитав кожного з шформацшних джерел е О. В результата, кожне таке джерело розучше отриманий запит \ процес пошуку може здшснюватися переважно його власною пошуковою системою.

Функщонально другий блок здшснюе консол1дащю знайдених даних, тобто приводить дат р1зних форматав у формат користувача, тобто виршуе обернену задачу -приведення р1знотипних даних до типу запиту, сформо-ваного користувачем. Консолщоваш дан передаються в блок «Опрацювання даних», робота якого полягае у ран-жуванн даних за частотою використання, часовими характеристиками, важлив1стю, доступшстю, термшом використання тощо. 1ншими словами, знайдена в результата пошуку шформащя мае бути подана користувачев1 у тай самш форм1, у якш вш сформував свш запит або в шшш, зрозумшш для нього форм1. У такш ситуацп кори-

стувач може отримати надзвичайно велику к1льк1сть, випадково перемшаних, як релевантних так \ не релевантных документав. Для зменшення кшькоста нерелевант-них документав у цьому блощ здшснюеться вщповщний лопчний анал1з наявноста збтв виданих документав з виз-наченими в запита. Тут, фактично здшснюеться фшьтра-щя виданих документав, шляхом використання вщповщ-них критерпв, попередньо заданих користувачем. У цьому плаш, шформацшний пошук в системах консолщовано! шформацп суттево вщр1зняеться вщ пошуку в звичайних базах чи сховищах даних. Тому, ощню-вання ефективноста шформащйного пошуку в системах консолщовано! шформацп мае враховувати \ особливоста нормал1зацп р1знотипних даних, тобто приведення !х до форми запиту користувача.

В1дпов1дн1сть видач1 запиту. Найскладншим моментом в ощнюванш ефективноста будь-якого шформацш-ного пошуку е встановлення в1дпов1дноста м1ж знайде-ними \ виданими документами \ документами, а точнше пошуковими ознаками документав, поданих у запита. Справа в тому, що стутнь вщповщноста, тобто чи е реле-вантними видан документи чи ш, е вельми суб'ектив-ним. Кр1м того, якщо можна точно вщпов1сти даний документ е релевантний або нерелевантний, то чгтко вказа-ти, чи даний документ е пертинентним чи н, оскшьки вш може бути пертинентним р1зною м1рою.

З1 зм1сту понять релевантноста та пертинентноста вип-ливае, що ощнювання ефективноста пошуку мае принципов! дв1 складов!. Нагадаемо, що поняття релевантноста означае вщпов1днсть шформащйного пошуку, зробленому користувачем запиту, а пертинентшсть -вщповщшсть шформацшнш потреб1 користувача.

Перша з них це ощнювання, а точшше розумшня пошуковою системою складеного користувачем запиту. В цьому плаш шформацшно-пошукова система вщбирае та документи, ознаки яких вказан у запита. Очевидно, що в такому раз1 семантичний анал1з виявлених документав в баз1 або сховищ1 даних, у файлах чи б1блютеках не проводиться, а лише здшснюеться з1ставлення ознак виявлених документав 1, за умови повного чи часткового збпу, документи подаються у видачу

Друга складова це ощнювання документав у видач1, отриманих користувачем, у результата шформащйного пошуку. Тут користувач роздшяе документи на три гру-пи: релевантн (Р). пертинентн (П) та нерелевантн1 (Н).

Документи у видач1 як правило сортуються 1нформа-ц1йною-пошуковою системою за певними критер1ями: за датою (власна дата документа або остання дата звер-тання до нього), за рейтингом користування (ск1льки раз1в даний документ ф1гурував у запитах р1зних користувач1в загалом чи за певний перюд). Можлив1 \ 1нш1 критерп, наприклад за обсягом. Отримавши видачу, тобто перелж знайдених документ1в користувач послщовно або виб1р-ково ознайомлюеться з документами вщбираючи реле-вантш та пертинентн1 \ в1дкидаючи нерелевантш. По-сл1довн1сть релевантних, пертинентних та нерелевантних документ1в у кожн1й конкретнш видач1 практично завж-ди е випадковою. Перев1рка цього факту здшснена екс-периментально в такий спомб.

Рисунок 1 - Тнформац1йний пошук в р1знотипних системах

Органнацш експеримент1в. В процесi пошуку необ-х^но1 тформацп для проведення наукових дослiджень поряд з вщбором пертинентних документiв також фжсу-валися релевантнi та нерелевантт. Зм^т експерименту поданий планом дослщження.

4ЕКСПЕРИМЕНТИ

B^5ip ключових сл1в. Для цього були сформульо-ванi таю ключовi слова, а точнiше словосполучення: шформацшний пошук; моделi iнформацiйного пошуку; шформацшно-пошукова система; ефективнiсть тформацшно-пошукових систем; оцiнювання ефектив-ностi тформацшного пошуку.

Уточмеммя помять. Пертинентнiсть - документи, яю за змiстом максимально вщповщають потребi користувача i мають усi реквiзити для посилання на них у мапстерськш квалiфiкацiйнiй робот! (тобто документи, що е електронни-ми копями паперових монографiй, статей у наукових журналах та збiрниках праць, тезисах та пращх наукових фо-румiв та статп поданi в енциклопедях та довiдниках).

Релевантнiсть - документи, яю за змютом цшком ввдпо-вiдають потребi користувача, але не мають ре^зигав сво1х паперових оригiналiв i для посилання на них треба вико-ристовувати 1хню електронну адресу, яка в деяких випад-ках е або громiздкою або неточною i для виявлення цього документу необхщно провести додатково ще й окремий спещальний пошук, причому результат не гаранту еться.

Ум iншi документи визнаються як нерелевантнi.

Хвд експерименту. Для експериментальних дослiджень використано iнформацiйно-пошуковi системи Google, Ягйех, Мета, Rambler та Yahoo, як за ключовими словами видають веб-сторiнки знайдених документiв. Шалаштуван-

ня пошуку забезпечило оптимальний варiант видачi результату - 10 електронних документiв на кожнiй сторiнцi. На основi попереднiх результатiв пошуку i з власного дос-вiду, в^омо, що потрiбна iнформацiя стосовно даного питання буде знаходитись на перших п'яти стс^нках. Тому для експеримента вибрано обмеження 5 повних стс^нок, тобто обсяг видачi становив 50 документа.

Для кожно! сторiнки, за результатами перегляду, кож -ному з десяти виданих документа присвоювалися тдек-си Р, П та Н.

У табл. 1 приведет результата одноразово! видачi знайдених документа для вказаних пошукових систем за ключовим словом «Оцтювання ефективностi тформа-цiйного пошуку».

Попередш результати. Задача користувача полягае в тому, щоб серед ще! множини вибрати саме та, якi йому потрiбнi. Очевидно за будь-якого пошуку перегляд отри-маних документiв буде аналопчним. Оскiльки надана вибiрка е сюнчена, можемо оцiнити ефективнiсть пошу-ково! системи вiдношенням сприятливих подш до всiх можливих, тобто вщношенням, наприклад, кiлькостi ре-левантних документав до кiлькостi всiх наданих доку-ментiв, отриманих за даним запитом. Якщо документи класифiкувати як в даному прикладi, то можна отримати три частоти появи документiв кожного класу:

I P

fp =

i=1

fH =

I H} ]=1

N N

де N - кiлькiсть документiв у видачi

Таблиця 1 - Оцшювання ефективност шформацшного пошуку

fn =

IП к

k=1

N

Ключове слово «Оцшювання ефективност шформацшного пошуку»

Google Яndex Мета Rambler Yahoo

1 Р Р Р П Ш Р Р Ш Р Ш Ш Ш Ш Ш Ш Ш Р Ш Р Ш Ш Р Р Ш Ш

2 Р Р П Ш Ш Р Р Ш Ш Ш Ш Р Ш Р Ш Ш Р Р Ш Р Ш Ш Р Ш Ш

3 Р Ш П Р Ш Р П Ш Р Ш Ш Р Р Р Ш Р Р Р Р Ш Р Р Р Р Ш

4 Ш Ш Ш Р Ш Ш Р Ш Р Ш Р Ш Ш Ш Ш Р Р П Р Ш Р Р П Р Ш

5 Ш Ш Р Ш Ш Р Ш Р Ш Ш Р Ш Ш Ш Ш Р Ш Ш Ш Р Р Ш Ш Ш Ш

6 Ш Ш Ш Р Ш Р Р Р Ш Ш Р Ш Р Ш Ш Р Ш Ш Ш Ш Р Ш Р Ш Ш

7 Ш Ш Ш Ш Ш Р Р Ш Ш Ш Ш Ш Р Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Р Ш

8 Ш Р Ш Ш Ш Р Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш

9 Ш П Ш Ш Ш Р Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Р Р Ш Ш Ш Ш Ш Ш

10 Ш Р Ш Р Ш Р Р Р Ш Ш Р Ш Ш Ш Ш Р Р Ш Ш Ш Р Ш Ш Ш Ш

Таблиця 2 - Зведена таблиця експерименлв

Ключов1 слова Google .Hndex Мета Rambler Yahoo

Оц1нка ефективност1 1нформац1йного пошуку П - 4 Р - 13 Ш - 33 П -1 Р -21 Ш - 28 П -0 Р -11 Ш - 39 П -1 Р -19 Ш - 30 П -1 Р -15 Ш - 34

¡нформацшний пошук П - 7 Р -11 Ш - 32 П -2 Р -12 Ш - 36 П -2 Р -14 Ш - 34 П -3 Р -15 Ш - 32 П -4 Р -10 Ш - 36

Модель 1нформац1йного пошуку П -3 Р -11 Ш - 36 П -2 Р -18 Ш - 30 П -1 Р -9 Ш - 40 П -9 Р -20 Ш - 21 П -1 Р -21 Ш - 28

¡нформацшно-пошукова система П - 1 Р -21 Ш - 28 П -0 Р -22 Ш - 28 П -0 Р -5 Ш - 45 П -1 Р -18 Ш - 31 П -1 Р -11 Ш - 38

Ефективн1сть 1нформац1йно-пошукових систем П -1 Р -16 Ш - 33 П -2 Р -22 Ш - 26 П -0 Р -17 Ш - 33 П -1 Р -16 Ш - 33 П -3 Р -21 Ш - 26

p-ISSN 1607-3274. Радюелектронжа, шформатика, управлiння. 2016. № 2 e-ISSN 2313-688X. Radio Electronics, Computer Science, Control. 2016. № 2

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

На практищ як правило шформацшний пошук здшснюеться за р1зними запитами, в залежноста вщ по-ставлених задач.

У свою чергу, задач! можуть стосуватися р1зних пред-метних областей, обсягу !х онтологш, специфжи конк -ретних об'ектав, що потребують !хнього розв'язку. З дру-го! сторони, не можна бути впевненому в тому, що шфор-мацшш джерела мають усю необхщну шформащю з будь-яко! областа знань та д1яльноста людини. А тому кшькоста наданих користувачам документав е р1зними. Зазвичай пошук в джерелах шформацп здшснюеться пошуковою системою, яка працюе за певним алгоритмом [ визначеними формальними критер1ями вщпов1д-носта, а тому, можна припустити, що результати р1зних пошуюв в одному [ тому ж джерел1 шформацп будуть статистично однорщш, тобто матимуть певш статистичш законом1рноста, яю можуть вщбитися, принаймш, на сшввщношенш частоти появи розглянутих вище кламв. 5 РЕЗУЛЬТАТИ

Послщовшсть документав у видач1 можна зобразити граф1чно, у вигляд Гаграми приведено! на рис. 2.

В якоста кшьюсно! оценки використано в1дносну частоту появи того чи шшого виду документов. Для поданого результату пошуку маемо так! ствв1дношення:

. П Р

пертинентних /п ="50, релевантних /р = "50", нерелеван-

тних /н = —, релевантних \ пертинентних (корисних) Р + П

/Р+П =-, а також вщношення загально! к1лькоста реП 50

левантних \ пертинентних документав до кшькоста нере-левантних документав

Р + П

Y = •

Н

Очевидно, що ум щ значення значною м1рою зале-жать вщ обсягу документав в шформацшнш систем! (баз1, сховищ1 даних, папках з файлами, б1блютещ), можливос-тей шформацшно-пошуково! системи, форми запиту, а також в1д шформацшно! потреби користувача - на-сюльки глибоко вш розучше завдання, для виршення яко-го вш здшснюе даний пошук.

Ощнювання ефективноста шформащйного пошуку. Сформоваш, практично на вщповщних пошукових мо-вах, властивих тому чи шшому шформацшному фонду, запити мають досить обмежену юльюсть пошукових оз-нак - ключових сл1в, певного типу розширень та пояс-нень чи обмежень. Алгоритми шформацшно-пошуко-

Докуыенти

вих систем використовуючи щ дан1 в процем скануван-ня-пошуку юнуючого каталогу переважно використо-вують в якоста даних автора, назву та анотащю документав, хоча можливим е \ сканування самого документа. Оскшьки ключов1 слова в залежноста вщ контексту можуть мати деюлька значень у видачу потрапляють абсолютно нерелевантш документи.

У загальному ощнювання ефективноста базуеться на визначенш, як було сказано вище, на ощнках точноста \ повноти. Спроба використати додатков1 показники пошуку вимагае врахування не лише обсягу самого шформащйного фонду, але \ обсягу релевантних та нерелеван-тних стосовно даного запиту документав. Отримати таю дат практично неможливо, оскшьки для одно! задач1 документи можуть бути релевантними, а для друго! вже т. З друго! сторони, якщо знати вм релевантш документи у фонд1 то можна здшснити пошук лише для них \ тод1 у видач1 будуть лише релевантш документи, а це здшснити практично не можливо, принаймш з двох причин: шхто не буде з багатотисячного шформащйного фонду вщби-рати релевантш для дано! задач1 окремого користувача документи, присутшсть конфщенщально! шформацп та вщсутшсть шформацп про сам фонд, за винятком лише загальних його характеристик. Тому найбшьш право-м1рним е ощнювання ефективноста пошуку за його результатами, тобто на основ1 документав, яю е у видач1.

За наявноста трьох тишв документав оцшити ефек-тившсть шформащйного пошуку можна в такий спошб лопчного виведення. Очевидно, що пертинентш документи мають найбшьшу щншсть для користувача.

Очевидним е те, що для свое! задач1 користувач вико-ристовуе лише релевантш та пертинентш документи, тому ефектившсть пошуку у загальному випадку е про-порцшна кшькоста релевантних \ пертинентних документав, що е сприятливою под1ею для користувача, тобто

Еп

Р + П

(1)

П + Р + Н

Наявшсть у видач1 не релевантних документав е обер-нено-пропорцшною под1ею до кшькоста пертинентних i релевантних документав у видач^ а тому, ефектившсть вiдносно не релевантних документiв можна подати як

Е = р + П

Епош = Н ■ (2)

Враховуючи особливостi форми запиту, яка тiсно пов'язана з даною конкретною iнформацiйною системою, тобто з И iнформацiйним фондом та його системою шдексування необхщно ввести деякий коректую -

Кшыастъ

1 10 20 30 40 30

Рисунок 2 - Розподш докуменпв у видачг П - пертинентш, Р - релевантна Н - нерелевантш

чий множник - коефщент пропорцiональностi ß, в результата чого отримаемо

Еп

= ß-

П + P П + Р + Н

(3)

Ощнка ефективностi пошуку у виглядi (3) дае характеристику здшсненого шформащйного пошуку для даного конкретного ключового слова та конкретноï пошуковоï системи за результатами отриманоï видач^ обмеженоï, наприклад, 50 документами.

За юльюстю релевантних документiв стосовно вибраних ключових сл1в та шформацшно-пошукових систем результати пошуку наведенi в табл. 3.

У поданш ощнщ ефективностi, залишаеться невiдомим по-казник ß. Ощнити цей показник можна лише на пiдставi даних про пошуковий алгоритм i саму пошукову систему, яка вико-ристовуеться даним шформащйним фондом.

Якщо припустити, що пошуковий алгоритм шформащй-ноï системи переглядае всi документи шформащйного фонду або, принаймш, ум документи конкретноï рубрики згiдно з шформащею поданою у запитi, тсд можна прийняти значення показника ß = 1. Проте докладну iнформанiю про характеристики цього алгоритму отримати практично неможливо.

Очевидним е той факт, що чим бiльший обсяг шформащйного фонду, тим бiльше релевантних документа буде знайдено. Однак, тут треба мати на увазi i популяртсть чи розвиненiсть даноï тематики, осюльки саме вона, тобто ïï популярнiсть i зат-ребуванiсть визначають обсяг документiв у фондi [9-10].

6 ОБГОВОРЕННЯ

Вирази (2) i (3) дають об'ективну оцiнку ефективноста iнформацiйного пошуку, але в перших (л1вих) варiантах, лише за умови, що у видачi будуть присутшми i не реле-вантш документи - принаймнi, хоча б один. Шевиконан-ня цiеï умови означае дшення на нуль. Тобто, буде не-вiрний результат ощнювання. Така ситуацiя може виник-нути тодi, коли кiлькiсть релевантних документав в iнформацiйному фондi перевищуе обсяг видачi.

У цьому випадку ощнюеться ефективнiсть за вида-чею для одного чи декшькох запита. Якщо такий показник використати для кожного з декшькох запита, але таких, що стосуються конкретжй теми можна ощнити яюсть i самого запиту, точнiше встановити, який з запита чи яю ключовi слова е найбiльш ефективними i вже за ними модифжувати наступнi запити.

ВИСНОВКИ

Ефективнiсть шформащйного пошуку в системах консолъ доважй iнформацiï в сенсi побудови штегрального показника практично не може бути визначена, осюльки кр1м двох показ-никiв - повноти i точноста, усi iншi вимагають знання юлькоста

релевантних та нерелевантних документа у даному шформа-щйному фонд1 стосовно дано! задачг Отримати таю дат для великих за обсягами фонд1в е неможливо, осюльки: по-перше здшснити такий тдрахунок означае перегляд кожного документа, по-друге, у великих базах даних переход вщ нерелевантних документа до релевантних практично за будь-яким запитом е нечетким i розмитим, по-трете - для р1зних задач поняття релевантност документiв рiзняться.

Найпростiшим способом побудови ощнки ефекгивностi пошуку е використання логiчного пiдходу, який подаеться ввдношенням - кiлькостi отриманих потрiбних i замовлених документiв до кiлькостi документа у данш видачi. В цьому плат, на ефектившсть пошуку впливае не лише наявнiсть в шформацшному фондi потрiбних документiв, але й пра-вильнiсть побудови самого запиту зпдно з вимогами дано! пошуково! системи.

Наведений приклад оцшювання ефективноста шформащйного пошуку демонструе використання подшу знайдених i виданих документов на пертинентт, релевантнi та нерелевантт. В результата якого, оцiнку ефективноста можна подати як усе-реднену, або сумарну, на пiдставi проведення iнформацiйного пошуку в одному або в юлькох iнформацiйних фондах i на рiзних пошукових системах за одного набору ключових сл1в.

Розроблений пiдхiд до побудови оцiнки шформащйного пошуку мае практичне значення, осюльки отримат кiлькiснi значення локальних ощнок дають тдстави для оптимiзанi! набору ключових ^в, та визначення найбiльш вiдповiдних iнформанiйних фонд1в i пошукових систем.

ПОДЯКИ

Роботу виконано в рамках держбюджетно! науково-дослщно! теми «Методи та засоби консолщацп баз даних в шформащйних системах електронного урядування», тематика кафедри шформащйних систем та мереж Национального ушверситету «Льв1вська поттехнжа», 2010/2012, № держреестращ! 0110U005022.

СПИСОК Л1ТЕРАТУРИ

1. Агеев М. Официальные метрики РОМИП 2010 / М. Агеев, И. Кураленок, И. Некрестьянов // Российский семинар по Оценке Методов Информационного Поиска. Труды РОМИП 2010, Казань, 15 октября 2010 г - Казань, 2010. - С. 172-187.

2. Целых А.Н. Оценка эффективности информационного поиска / А. Н. Целых, Э. М Котов // Известия ТРТУ. Тематический выпуск «Управление в математических системах». - Таганрог : Изд-во ТРТУ - 2006. - № 10 (65). - С. 43-45.

3. Яхина Е.П. Методы оценки информационных систем / Е. П. Яхина // В мире научных открытий. - 2010. - № 3 (09). -Часть 1. - С. 63-66.

4. Попов С. В. Оценка функциональной эффективности систем текстового поиска на примере поиска патентных документов / С. В. Попов // Патентная информация сегодня. - 2010. -№ 1. - С. 22-25.

5. Козлов Д. Д. Информационно-поисковые системы в Internet: текущее состояние и пути развития / Д. Д. Козлов // Техноло-

Таблиця 3 - Ощнка ефективност шформацшно-пошукових систем за юльюстю релевантних докуменпв

Ключов1 слова Google Я^ех Мета Rambler Yahoo

Ощнка ефективност шформацшного пошуку 0,34 0,44 0,22 0,40 0,32

¡нформащйний пошук 0,36 0,28 0,32 0,36 0,28

Модель шформацшного пошуку 0,28 0,40 0,20 0,58 0,44

¡нформащйно-пошукова система 0,44 0,44 0,10 0,38 0,24

Ефектившсть шформацшно-пошукових систем 0,34 0,48 0,34 0,34 0,48

Усереднений показник ефективносп 0,35 0,40 0,23 0,41 0,35

p-ISSN 1607-3274. Радюелектронжа, шформатика, управлшия. 2016. № 2 e-ISSN 2313-688X. Radio Electronics, Computer Science, Control. 2016. № 2

гический обзор [Электронный ресурс]. - Режим доступа: lvk.cs .msu. su/~ddk/ir_and_ia_review. pdf

Тявкин И. В. Математическая модель информационного поиска и оценка еффективности поисковой системы / И. В. Тявкин, В. М. Тютюнник // Вестник ТГТУ - 2008. - Том 14. -№ 3. - С. 478-481.

Козлов М. В. Метод оценки эффективности функционирования современных информационно-поисковых систем Интернета / М. В. Козлов, В. А. Яцко [Электронный ресурс]. - Режим доступа: http://www.dialog-21 .ru/dialog2006/materials/html/ Kozlov.htm.

Лекции по введению в информатику и информационные системы. - Лекция 13. Эффективность информационных систем.

10

11

[^jeKTpoHHbin pecypc]. - Pe^HM gocTyna: http:// informling.narod.ru/lectures.html

Kirchgassner G. Introduction to Modern Time Series Analysis / G.-Kirchgassner, J. Wolters. - Berlin : Springer, 2007. - 274 p. Hegger R. Practical implementation of nonlinear time series methods: The TISEAN package / R. Hegger, H. Kantz, T. Schreiber // CHAOS 9. - 1999. -P. 413-435.

Kuhlthau, C. C. Seeking Meaning: A Process Approach to Library and Information Services. / C. C Kuhlthauro -. Westport, CT: Libraries Unlimited. - 2004. - 342 p.

CTaTTS Hagmmjia go pega^iï 10.02.2016.

nicjia gopoSKH 15.02.2016.

Ныч Л. Я.1, Шаховска Н. Б.2, Каминский Р. М.3

'Ассистент, кафедра информационных систем и сетей, Национальный университет «Львовская политехника», Львов, Украина

2Д-р техн. наук, профессор, кафедра информационных систем и сетей, Национальный университет «Львовская политехника», Львов, Украина

3Д-р техн. наук, доцент, кафедра информационных систем и сетей, Национальный университет «Львовская политехника», Львов, Украина

ОЦЕНКА ЭФФЕКТИВНОСТИ ИНФОРМАЦИОННОГО ПОИСКА В СИСТЕМАХ КОНСОЛИДИРОВАННОЙ ИНФОРМАЦИИ

Для оценки эффективности информационного поиска предложено разделять найденные документы на пертинентни, релевантные и нерелевантные. Эффективность поиска определяется отношением количества пертинентних и релевантных документов в количестве нежелательных документов, а свойством поисковой системы должно быть возможность учесть соответствующие коэффициенты. Основной целью данного исследования является разработка интегрального критерия оценки эффективности информационного поиска по результатам выдачи в системах консолидированной информации. Введено понятие консолидированной информации.

Разработан метод оценки эффективности информационного поиска. Он демонстрирует использование разделения найденных и выданных документов на пертинентные, релевантные и нерелевантные. Введено интегральный показатель релевантности документа поисковому запросу, который учитывает негативную и положительную оценку. Оценку эффективности определено как суммарное значение различных компонентов. Експеримент выполнен на основании проведения информационного поиска в одном или в нескольких информационных фондах и на разных поисковых системах с одним набором ключевых слов.

Разработанный подход к построению оценки информационного поиска имеет практическое значение, поскольку полученные количественные значения локальных оценок дают основания для оптимизации набора ключевых слов, и определение наиболее подходящих информационных фондов и поисковых систем.

Ключевые слова: информационная система, информационный поиск, эффективность, пертинентность, релевантность.

Nych L. Ya.1, Kaminskyj R. M.2, Shakhovska N. B.3

'Assistant professor, department of information systems and networks, Lviv Polytechnic National University, Lviv, Ukraine

2Dr.Sc., Professor, department of information systems and networks, Lviv Polytechnic National University, Lviv, Ukraine

3Dr.Sc., Professor, department of information systems and networks, Lviv Polytechnic National University, Lviv, Ukraine EFFECTIVENESS EVALUATION OF SEARCH IN INFORMATION SYSTEMS WITH CONSOLIDATED INFORMATION

To evaluate the effectiveness of information retrieval there is proposed to share the found documents on pertinent, relevant and irrelevant. Search Performance is ratio to determine the number of pertinent and relevant documents to the number of irrelevant documents and search engine properties have been submitted by the coefficient. The goal of this paper is to develop integrated criterion of evaluating the effectiveness of information retrieval on the results of the issuance of consolidated information systems. The concept of consolidated informationis given.

The method of evaluating the effectiveness of information retrieval is built. It demonstrates the usage of the division found and published documents on pertinent, relevant and irrelevant. There is given integral indicator of the relevance of the document search query that takes into account the negative and positive features. Evaluation of effectiveness presented as the total value of the different components. The experiment was performed on the basis of information search in one or several search machines and information on the various search engines for one set of keywords.

The approach to building assessment information retrieval is of practical importance because quantitative values obtained local assessments give grounds to optimize the set of keywords and determine the most appropriate information collection and search engines.

Keywords: information system, information search, efficiency, pertinence, relevance, irrelevance.

REFERENCES

Aheev M., Kuralenok Y., Nekrestianov Y.Ofytsyalnye metryky ROMYP 2010, Rossyiskyi semynar po Otsenke Metodov Informatsyonnoho Poiska. Trudy ROMYP 2010. (Kazan, 15 october 2010.) Kazan, 2010, pp. 172-187. Tselykh A. N., Kotov E. M. Otsenka эffektyvnosty ynformatsyonnoho poyska, Yzvestyia TRTU. Tematycheskyi vypusk «Upravlenye v matematycheskykh systemakh». Tahanroh, Yzd-vo TRTU, 2006, No. 10 (65), pp. 43-45. Yakhyna E.P. Metody otsenky ynformatsyonnykh system, V myre nauchnykh otkrytyi, 2010, No. 3 (09), Chast 1, pp. 63-66. Popov S. V. Otsenka funktsyonalnoi effektyvnosty system tekstovoho poyska na prymere poyska patentnykh dokumentov, Patentnaia informatsyia sehodnia, 2010, No. 1, pp. 22-25. Kozlov D. D. Ynformatsyonno-poyskovye systemy v Internet: tekushchee sostoianye i puty razvytyia, Tekhnolohycheskyi obzor. Access mode: lvk.cs.msu.su/~ddk/ir_and_ia_review.pdf

6

Tiavkyn Y. V., Tiutiunnyk V. M. Matematycheskaia model informatsyonnoho poiska i otsenka yeffektyvnosti poyskovoi sistemy, Vestnyk THTU, 2008, Vol 14, № 3, pp. 478-481. Kozlov M. V., Yatsko V. A. Metod otsenky effektyvnosti funktsyonyrovanyia sovremennykh informatsyonno-poyskovykh system Interneta, Access mode: http://www.dialog-21.ru/dialog2006/materials/html/Kozlov.htm. Lektsyy po vvedenyiu v informatyku i informatsyonnbie systemy. Lektsyia 13. Yeffektyvnost ynformatsyonnbikh system. Access mode: http://informling.narod.ru/lectures.html Kirchgassner G., Wolters J. Introduction to Modern Time Series Analysis. Springer Berlin Heidelberg, New York , 2007, 274 p.

10. Hegger R., Kantz H., Schreiber T. Practical implementation of nonlinear time series methods: The TISEAN package. CHAOS 9, 1999, pp. 413-435.

11. Kuhlthau, C. C. Seeking Meaning: A Process Approach to Library and Information Services, 2nd. ed. Westport, CT, Libraries Unlimited, 2004, 342 p.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

7

8.

9.

2

3

4

i Надоели баннеры? Вы всегда можете отключить рекламу.