Научная статья на тему 'Математическая модель информационного поиска и оценка эффективности поисковой системы'

Математическая модель информационного поиска и оценка эффективности поисковой системы Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
1442
171
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
БИНАРНЫЙ ПОИСК / ИНФОРМАЦИОННЫЙ ПОИСК / ЭФФЕКТИВНОСТЬ ПОИСКА / BINARY SEARCH / EFFICIENCY OF SEARCH / INFORMATION SEARCH

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Тявкин И. В., Тютюнник В. М.

Приведена модель решения задачи информационного поиска, включающая математическое описание последовательного и бинарного поиска, и модель оценки эффективности поиска, состоящая из точности, полноты, специфичности, избирательности поиска, а также потери информации и поискового шума.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Mathematical Model of Information Search and Estimation of Search System Efficiency

The paper presents the model of solution to the task of information search including mathematical description of sequential and binary search as well as the model of evaluation of efficiency search including the parameters of accuracy, completeness, specificity and selectivity as well as loss of information and search noise.

Текст научной работы на тему «Математическая модель информационного поиска и оценка эффективности поисковой системы»

УДК 025.4.036

МАТЕМАТИЧЕСКАЯ МОДЕЛЬ ИНФОРМАЦИОННОГО ПОИСКА

И ОЦЕНКА ЭФФЕКТИВНОСТИ ПОИСКОВОЙ СИСТЕМЫ

И.В. Тявкин, В.М. Тютюнник

Кафедра «Конструирование радиоэлектронных и микропроцессорных систем», ГОУ ВПО «ТГТУ»

Представлена членом редколлегии профессором Ю.Л. Муромцевым

Ключевые слова и фразы: бинарный поиск; информационный поиск; эффективность поиска.

Аннотация: Приведена модель решения задачи информационного поиска, включающая математическое описание последовательного и бинарного поиска, и модель оценки эффективности поиска, состоящая из точности, полноты, специфичности, избирательности поиска, а также потери информации и поискового шума.

Для удобства поиска информации в сети Интернет программистами мира разработаны поисковые системы, способные осуществлять два вида поиска: обычный и расширенный [1, 3]. Алгоритмы работы поисковых роботов засекречены [4, 6]. Не менее сложной остается задача поиска в локальных информационных системах с большим количеством баз данных [2, 5].

Модель решения задачи информационного поиска представим в виде картежа

I —< Му, ,р >,

где Му - массив данных (г — 1,п, у — 1,т, п - количество таблиц ву-й базе данных, т - количество баз данных); 2Х - массив запроса (т — 1,Я , Я - общее количество терминов в запросе); р - отношение идентичности, то есть

X р у » X — у.

Рассмотрим последовательный поиск. Количество сравнений записей в сред-

N +1

нем при удачном поиске составляет —^—, где N - количество всех записей во

всех базах данных.

Если поиск окажется неудачным, то количество сравнений будет равно N.

В бинарном поиске используется бинарное дерево. Для выполнения поиска массив Му делится на два, в результате чего получается две ветви. Через тах х

хеМу

обозначим такое хтахеМу, что для любых элементов массива хеМу выполнено х < хтах, а через тт х обозначим такое хт{пеМгу, что для любых хеМу выполнено

хеМу

хтт < х. Тогда

1, если х < y,

2, впротивномслучае,

g<,y (х) = <u __________________’_____________ y 6 Zx;

Г0, если х Ф у,

/—,у(х) — \ у е гт;

[1, если х — у,

°1— к< у(х): у е гт}; р — {д у(х): у е гт};

фып —< р, °г >

где g< у (х) - переключатель вершин бинарного дерева; /_ у (х) - предикат ребра бинарного дерева ведущего в лист с записью у; О1 - множество переключателей

(функций), определенных на множестве запросов и принимающих значения из конечного подмножества натурального ряда; р - множество предикатов, определяемых на множестве запросов гт; ФЬ;п - базовое множество; у - элемент, принадлежащий множеству запросов гт; 2Х - массив запроса (т — 1,Я ).

Эффективность поиска (Э) определяется, по крайней мере, двумя основными -точностью и полнотой - и четырьмя дополнительными - специфичностью, избирательностью, коэффициентом потери информации и коэффициентом поискового шума - показателями и имеет вид

Эк —< Тк,Пк,Ск,Ик,ПИк,Шк >,

/V А'-' А'-'А'-' А'-' Л'-' /V ^

где Тк - точность поиска (к — 1, К); Пк - полнота поиска; Ск - специфичность поиска; Ик - избирательность поиска; ПИк - потери информации; Шк - поисковый шум; к - порядковый номер запроса; К - количество запросов.

Для вычисления этих показателей в случае, когда дескриптор запроса пользователя полностью совпадает с найденными в БД данными, используются стандартные формулы [4, 7, 8]

а а ё а + с

П —-----, Т —------, С —-----, И —--------------, ПИ — 1 - П, Ш — 1 - Т,

а + с а + Ь Ь + ё а + с + Ь + ё

где а - количество выданных релевантных документов; с - количество релевантных документов в массиве БД, не выданных информационно-поисковой системой (ИПС); Ь - количество выданных ИПС не релевантных документов; ё - количество не выданных ИПС не релевантных документов.

Специфичность и избирательность практически применяются при оценке эффективности поиска только в случаях особой необходимости.

Значения а и Ь определяет пользователь, а значения с и ё - эксперт, так как он может выявить как релевантные, так и не релевантные пользовательскому запросу данные в БД. Если поиск выполняется для нахождения идентичных объектов БД, то ИПС всегда выдаст все идентичные записи, соответствующие запросу (то есть П = Т = 1).

В реальных информационных системах полнота поиска по содержанию составляет 60...70 % (0,6...0,7), а точность - 40...50 % (0,4...0,5) [4]. Иногда полнота поиска по содержанию составляет 70.90 % (0,7.0,9), а коэффициент точности обычно находится в пределах 10.100 % (0,1.1,0) [8].

По одному или двум запросам нельзя оценить работу поисковой системы. Для получения более точной оценки проводят К запросов и производят расчет средних значений Тср и Пср по следующим формулам:

где П - полнота поиска для k-го запроса; Тк - точность поиска для k-го запроса.

Данный случай оценки эффективности поиска можно использовать только группой экспертов для оценки работы готовой ИПС.

Список литературы

1. Арутюнян, Р.Э. Автоматизация информационного поиска в сети Интернет /

Р.Э. Арутюнян // Искусственный интеллект. Интеллектуальные и многопроцессорные системы : материалы Междунар. науч.-техн. конф., Таганрог, 20-25 сент. 2004 г. / Таганрог. гос. радиотехн. ун-т. - Таганрог ; Донецк, 2004. - Т. 1. -

С. 353-355.

2. Астанин, С.В. Анализ систем и методов поиска информации в полнотекстовых базах данных / С.В. Астанин // Телекоммуникации и информатизация образования. - 2005. - № 4. - С. 38-45.

3. Воскресенский, А. Л. Формирование запросов к поисковой машине для извлечения знаний из Интернета / А.Л. Воскресенский, Г.К. Хахалин // Компьютерная лингвистика и интеллектуальные технологии : тр. Междунар. конф. «Диалог'2005», Звенигород, 1-6 июня 2005 г. - М., 2005. - С. 86-91.

4. Гусев, В.С. Google : эффективный поиск. Краткое руководство / В.С. Гусев. - М. : Вильямс, 2006. - 240 с.

5. Дикова, Ф.А. Проблема поиска в системе информационного банка данных наукоемких технологий / Ф.А. Дикова, М.В. Куницын // Информация, инновации, инвестиции : материалы междунар. науч.-техн. конф., Уфа, 21-22 нояб. 2007 г. -Уфа, 2007. - С. 47-49.

6. Ефремов, В. Особенности умного поиска / В. Ефремов // Открытые системы. - 2005. - № 11. - С. 48-52.

7. Целых, А.Н. Оценка эффективности информационного поиска / А.Н. Целых, Э.М. Котов // Изв. Таганрог. гос. радиотехн. ун-та. - 2006. - № 10. - С. 43-45.

8. Шемакин, Ю.И. Теоретическая информатика : учеб. пособие / Ю.И. Ше-макин ; под ред. К.И. Курбакова. - М. : Изд-во Рос. экон. акад., 1998. - 132 с.

Department«Designing of Radio Electronic and Microprocessor Systems», TSTU

Key words and phrases: binary search; efficiency of search; information search.

Abstract: The paper presents the model of solution to the task of information search including mathematical description of sequential and binary search as well as the model of evaluation of efficiency search including the parameters of accuracy, completeness, specificity and selectivity as well as loss of information and search noise.

Mathematical Model of Information Search and Estimation of Search System Efficiency

I.V. Tyavkin, V.M. Tyutyunnik

Matematisches Modell des Informationssuchens und Einschatzung der Effektivitat des Suchsystems

Zusammenfassung: Es ist das Modell der Losung der Aufgabe des Informationssuchens angefuhrt. Es schlieBt die mathematische Beschreibung des aufeinanderfolgenden und binaren Suchens ein. Es ist auch das Modell der Einschatzung der Effektivitat des Suchens, das aus der Exaktheit, aus der Fulle, aus der Spezifitat, aus der Selektivitat des Suchens und auch aus dem Verlust der Information und des Suchenlarms besteht, angefuhrt.

Modele mathematique de la recherche informatique et evaluation de l’efficacite du systeme de recherche

Resume: Est cite le modele de la solution du probleme de la recherche informatique comprenant la description mathematique de la recherche sequentielle et binaire et le modele de revaluation de l’efficacite de la recherche qui se compose de la precision, de la totalite, de la specificite, de la selectivite de la recherche ainsi que de la perte de l’information et du bruit de recherche.

i Надоели баннеры? Вы всегда можете отключить рекламу.