Научная статья на тему 'Оценка эффективности информационного поиска'

Оценка эффективности информационного поиска Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
4136
290
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Оценка эффективности информационного поиска»

лено вопросам трансформации RDF-данных и семантических отношений между информационными ресурсами. С этой целью предлагается ввести характеристики нечеткой связности и нечеткого равенства нечетких ультраграфов, исследовать метрики и разработать алгоритмы для нахождения семантического расстояния. Предполагается разработать методы оценки степени изоморфизма нечетких ультраграфов и масштабируемые алгоритмы интеллектуального анализа данных.

Как правило, информацию в Интернете можно характеризовать как неточную и неполную. Данные носят качественный характер, порождающий многообразие расплывчатых классификаций, что существенно затрудняет принятие решений. В этой связи является актуальным проведение теоретических исследований в области разработки моделей представления знаний, методов и алгоритмов поиска оптимальных решений, методов оценки эффективности и качества принимаемых решений с использованием аппарата нечетких множеств и нечетких отношений.

В нечетком RDF-утверждении тройка характеризуется функцией принадлежности - действительным числом из интервала [0, 1]. Расширенная нечеткая RDF-модель может естественно работать с лингвистическими оценками, в частности, с метаданными доверия.

Основной задачей на этом этапе исследования является разработка расширенного синтаксиса описания данных на основе аппарата теории нечетких множеств и нечетких отношений, что предполагает определение понятия нечеткого RDF-утверждения, нечеткую интерпретацию словаря, определение понятий и исследование нечеткого домена, нечеткого диапазона, нечеткого подкласса и нечеткого подсвойства. Будут разработаны механизмы дефаззификации и нечеткого логического вывода в системе. Предполагается также разработка инструментария для работы с метаданными доверия.

Разработанные модели, методы и алгоритмы лягут в основу концепции и методики создания адаптивных интеллектуальных информационно-советующих интернет-систем, отличающихся от известных высоким уровнем интеграции семантических знаний и онтологий.

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. Resource Description Framework (RDF) Semantics. W3C Recommendation, February 2004. -http://www. w3. org/TR/rdf-mt/

2. Берштейн Л.С., БоженюкА.В. Нечеткие графы и гиперграфы. - М.: Научный мир, 2005.

3. Целых А.А. Разработка и исследование методов и алгоритмов для моделирования адаптивных веб-ресурсов на основе нечетких ультраграфов: Дис. ... к.т.н. - Таганрог, 2005.

А.Н. Целых, Э.М. Котов ОЦЕНКА ЭФФЕКТИВНОСТИ ИНФОРМАЦИОННОГО ПОИСКА

Необходимость оценки эффективности работы информационно-поисковой системы (ИПС) по сравнению с существующими аналогами можно назвать одной из основных задач, решение которой должно осуществляться на стадии разработки ИПС посредством ведения теоретических оценок эффективности используемых методов поиска и определения классов ситуаций, при которых использование разрабатываемой ИПС целесообразно.

Известия ТРТУ

Тематический выпуск

При оценке эффективности информационного поиска традиционно используется ряд коэффициентов качества, определяющих эффективность ИПС, и её сравнение с существующими аналогами. Согласно [1], к критериям оценки эффективности поиска отнесем такие понятия, как полнота поиска, точность поиска, уровень потери информации, уровень поискового шума, нормализованные коэффициенты точности и полноты.

Рассматриваемые характеристики информационного поиска при проведении процедуры поиска в статичных массивах небольших размеров приводят к адекватным результатам. Но существует некоторая ограниченность применения данных характеристик при рассмотрении в качестве среды поиска массивов гипертекстовой информации больших размеров, что обусловлено, согласно [2]:

1) существующим количеством документов, что вызывает погрешность в определении коэффициента полноты вследствие использования в расчетах формальной релевантности;

2) значительным числом существующих релевантных документов, размещенных в глобальной сети, что, в свою очередь, не требует высокого значения коэффициента полноты, и данный коэффициент перестает являться адекватной характеристикой эффективности информационного поиска;

3) нечеткостью понятия релевантности в связи с возможностью наличия ситуаций либо частичной релевантности документа, либо релевантности запроса всему документу в целом и нерелевантность части документа, либо релевантность запросу совокупности нескольких документов.

Принимая во внимание ограниченность применения основных характеристик качества информационного поиска, целесообразным представляется использование, согласно [2], дополнительных характеристик оценки качества информационного поиска. К данным характеристикам возможно отнести:

М - разнообразие выборки; данный параметр возможно определить как количество существенно различных тематических кластеров документа. Для определения данного параметра существует необходимость задания некоторого метода кластеризации. Причем, если принимать в рассмотрение пару документов Д и Д, и определена их релевантность запросу гД) и гД) а также взаимная релевантность тДД) и тД)>тД)), то документ гД) принадлежит к одному кластеру совместно с документом гД) при выполнении условия гДД-)> г(Д);

и - упорядоченность выборки. Если исключить из рассмотрения вариант строго упорядоченных документов, при котором релевантность монотонно не возрастает, то степень упорядоченности элементов будем рассматривать посредством величины, отражающей число перестановок пары соседних элементов к упорядоченному состоянию от состояния ранжирования по неубыванию релевантности, согласно [2], как:

ётах = а2(а1 + а0) + «1«0 + - + ат (П - ат ) + ат-1(П - - °т-1) ,

где известен набор оценок релевантности аі и ё.

Отсюда коэффициент упорядоченности определим как

ё

и = 1 --

где пI - номер первого релевантного документа;

8 - величина корреляции между определяемой пользователем релевантностью и ее формальной оценкой.

С целью изучения результатов выполнения поиска будем использовать некоторую определенную выборку документов, признаваемых предположительно релевантными. При этом коэффициент точности выборки Р должен учитывать нечеткость понятия релевантности, что может быть реализовано с использованием механизма нечетких множеств на основе аппарата лингвистических переменных.

После определения релевантности рассматриваемых документов и получения соответствующих оценок г, можно отметить, что выборка в целом характери-

п

зуется оценкой Г , и в этом случае точность выборки будет равна р = V г ,

,=1 пт ,= '

где п - число документов в выборке;

т - оценочный балл наиболее релевантного документа.

1 п

Тогда коэффициент поискового шума можно определить как £ = 1_________— V г ■

пт ,=1 '

Возможно выделить несколько групп факторов, влияющих на успешность поиска [3], основываясь на влиянии тех или иных факторов: во-первых, на получаемую в результате поиска коллекцию документов (к данной группе отнесем такие факторы, как особенности ИПС, тематика поиска и точность формулировки поискового запроса); во-вторых, на используемые со стороны пользователя критерии соответствия документа и запроса (с данной группой сопоставим различные психологические и эргономические факторы); и, в третьих, на результаты вычислений параметров эффективности (к данной группе возможно отнести недоступность некоторых документов, выбор критериев релевантности, выбор методов ранжирования результатов поиска и т.д.). Для увеличения качества получаемых результатов при проведении поиска очевидным видится снижение влияния приведенных факторов.

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. Сэлтон Г. Автоматическая обработка, хранение и поиск информации. - М.: Сов. радио, 1973. - 560 с.

2. Дубинский А.Г. Характеристики эффективности информационного поиска в сети Интернет // Научный сервис в сети Интернет: тез. докл. Всерос. науч. конф. - М.: Изд-во МГУ, 2001. - С. 136-138.

3. Дубинский А.Г. Факторы, влияющие на качество информационного поиска // Системний аналіз та інформаційні технології: Зб. тез доп. Міжн. наук.-практ. конф. студ., аспірантів та молод. вчених. - Киев: НТУУ «КПІ». 2001. Ч. 2. С. 43-48.

И.Г. Иванов, Е.Г. Иванова

ЕСТЕСТВЕННО-ЯЗЫКОВЫЕ СРЕДСТВА ЗАДАНИЯ НОРМАТИВНО-РЕГУЛЯТИВНЫХ ФУНКЦИЙ

Вербальная формализация текстов нормативно-правовых документов давно и широко применяется в любых организованных человеческих сообществах как практически единственно возможный способ задания на естественном языке функций регулятивного управления сложными социальными и экономическими системами. Формально-логический анализ применяемых для этих целей естественно-языковых средств задания тех или иных элементов нормативно-правового регулятив-

i Надоели баннеры? Вы всегда можете отключить рекламу.