Исследование моделей информационного поиска

Котов Эдуард Михайлович; Целых Александр Николаевич

УДК 681.3.06

Э.М. Котов, АЛ. Целых ИССЛЕДОВАНИЕ МОДЕЛЕЙ ИНФОРМАЦИОННОГО ПОИСКА

При рассмотрении моделей информационного поиска возможно говорить о нескольких моделях, начиная с классических, таких как пространственно-векторные, вероятностные и булевы модели. В подобных моделях, моделируются средства поиска, релевантные объекты информационного поиска (главным образом документы, запросы и термины) их связи друг с другом и как они организованы в структуры, используя векторы, вероятности или логические операторы. В статье рассматривают некоторые формальные методы, подчеркнуто их богатство при использовании в качестве модели для информационного .

; .

E.M. Kotov, A.N. Tzelykh RESEARCH OF MODELS FOR INFORMATION RETRIEVAL

By consideration of models of information retrieval probably to speak about several models, since classical, such as Vector Space models, Probabilistic models and Boolean models. In similar models, search means, relevant objects of information retrieval (documents, inquiries and terms) their communications with each other and as they are organised in structures, using vectors, probabilities or logic operators are modelled. In article some formal methods are considered, their riches are underlined at use in quality the general models for information retrieval. It has allowed us to identify components and possible relations.

The information retrieval; models and methods of information retrieval.

Формализация и модель - те термины, которые должны использоваться с осторожностью применительно к системам Информационного поиска (ИП). Возможно говорить о нескольких моделях, начиная с классических, таких как пространственно-векторные предложенные Джеральдом Салтоном [1], вероятностные и булевы модели. В подобных моделях, моделируются средства поиска, релевантные объекты ИП (главным образом документы, запросы и термины) их связи друг с другом и как они организованы в структуры, используя векторы, вероятности или . ,

семантическая индексация [2], нейронные сети [3] или генетические алгоритмы [4], возможно видеть, что они так же часто упоминаются как «модели», хотя их целесообразней назвать поисковыми стратегиями [5]. Формальная модель состоит в представлении, используемом для детализации поисковой стратегии. Таким образом, можно сказать: Формальная модель для информационного поиска есть ма,

информационно-поисковой системе, наряду с любыми отношениями (функциями, картами, бинарными отношениями и т.д.) для использования системой, с целью выполнения поисковой задачи.

Различия между существующими поисковыми стратегиями породили широкое разнообразие моделей. Модель состоит в представлении, используемом для детализации поисковой стратегии. Таким образом, можно сказать, что формальная модель для информационного поиска есть математическое представление, способное отобразить любой релевантный объект в информационно-поисковой системе, наряду с любыми отношениями (функциями, картами, бинарными отношениями и

т.д.) для использования системой, с целью выполнения поисковой задачи. Если модель будет достаточно общая, то это будет полезно только для очень поверхностной концептуализации задачи информационного поиска. С другой стороны, если модель определена достаточно глубоко, чтобы охватить все возможные аспекты , , дальнейшего расширения вместо того, чтобы быть практическим и дорабатывае-.

Можно классифицировать модели, доступные в литературе, в зависимости от выбранной математической основы на логические и алгебраические. В качестве примера, иллюстрирующего общую алгебраическую модель, выберем вариант, предложенный в [5]. Они определяют систему ИП как кортеж:

I = (В, 0,£),

где В - множество документов; Q - множество запросов; 8 - поисковая .

8 : Q ^ 2В, д 8(д) := 8 е 2В,

где 2В - является множеством всех возможных подмножеств Б.

, 8 8 как ответ на вопрос q. е Q. Эта модель может быть легко расширена, чтобы

включить в неё тезаурус или описать распределенный ИП. С тезаурусом мы имеем:

I = (Т, В, Q,8),

где Т - множество различных терминов (управляемый словарь) с отношениями: р с ТхТтаким, чтор(^^,?2) подразумевает, что термины и /2 являются сино-.

Эти отношения дают разделение множества Т на подмножества синонимов, то есть все термины в подмножестве - синонимы.

, , , -даном. Используется кортеж:

(Т, Ф, В; /, #),

где Т - множество возможных терминов в документе; Ф - является множеством

( , - ):

ф:Т ^ Ф, т ф(т) := ф ;

где Б - множество документов: ф: Т ^ В, ГН» й(т) := ,Те Т, ф еФ,

ф - лемматизированная версия термина Т ;

/(Ф, ) =| {те Т |ф(т) = ф А й (т) = }|;

й/(ф) =| е В | 3 те Т : ф(т) = рЫ1 а й(т) = } |.

, , -конченной модель ИП. Эта структура весьма интересна, но отсутствует компонент, который фактически соотносит вопросы с документами, и таким образом нельзя полностью квалифицировать эту структуру как модель для системы ИП. Рассмотрим модель, предложенную Бэйза-Ятес [6]. Эта модель более интересна, чем пред-

ставленные выше, в связи с тем, что использует функцию ранжирования, и, таким , : Информационно-поисковая модель представлена как четверка:

(В, Q, ¥, Я),

где В - является множеством представлений документа; Q - множество запросов; ¥ - структура моделирующая документы, запросы и их отношения; Я - функ:

Я: Q хВ ^ я(Я,,я(,):= гг] е^.

Г ибкость модели заключается в структуре компонентов. Это может быть векторное пространство с его операторами, алгебра для булевой модели, или любая другая структура способная моделировать поисковую стратегию. Данная модель , .

Обширная работа над формализацией моделей ИП проведена Сандором До-миничем [7,8]. Он предлагает приемлемую структуру для любой классической мо-

( , ). Рассмотрим описание этой модели.

, , ,

.

- , документа (термины, индексы, ключевые слова, описатели и т.д.).

- , ,

(текст, изображения, звуковые фрагменты и т.д.). Может быть, конечно, непосред-.

- . , только из полнотекстовых документов, документ содержит только один объект: . .

-

(например: подобие, релевантность, расстояние и т.д.).

- , удовлетворяющих критерию выше порогового значения.

- .

Дадим формальное описание:

1. Т = { t2,..., tk ^ tN } - множество идентификаторов N > 1.

2. О = {о1,02,..., ои,..., ои } - множество объектов и > 1.

3. (В] )л,2,.. м} - множество групп объектов В] е 2ОМ > 1.

4. В = {0J■ | ] е ./} - ряд документов, где нечеткое множество

~ = {(tk,я~ (tk)) | tk е Т,к = 1,2,...,N}, ] = 1,2,...,М,

& : Т ^ Б с [0,1] с Я является представителем группы объектов В..

0] ^

5. А = {а^,а2,...,а,,...,ас} - множество критериев С > 1, где

аг = {((q, ~к(Я ~к )) | 0: е В, ] = 1,2,..., М}, г = 1,2,..., С , является нормализованным нечетким отношением и ц~ : В XВ ^ [0,1] с Я.

6. аа = {о е В | ц~~( д, о) > а,}, г = 1,2,..., С , - Ц - порог критерия , 0 < ^

7. ^: В ^ 2В - является отображением называемым поиском. Классический Информационный поиск (КИП) определяется как система,

сформированная множеством документов и функцией поиска, отображающаяся в

2 :

В *>.

со следующими свойствами:

Свойство 1. д = о =>ц~ (д,о) = 1,Уд,о е В,г = 1,2,...,С - свойство рефлек-

.

Свойство 2. 'К(д) = {о | ц (д,о) = тахк=1 с ц (д,о)} Паа ,

г - выбирается произвольно.

Первая свойство характеризует то, что в случае соответствия документа запросу, любой критерий должен возвратиться со значением 1.

Второе свойство устанавливает один произвольный критерий и поиск будет являться пересечением между двумя множествами: множество документов с весом, установленным в соответствии с критерием по выбранному порогу (а) И множе-, , возвращенный в соответствии с любыми другими критериями.

Графическое представление второго свойства может быть продемонстрировано на рис 1.

А / / \ / Ж V ж \ * Ж \ 4 ж / V N х ''' \ ^ \ N ^ / \ ' критерий ч г' \ / ч / \

\ ' \

\ / 4 / \ порог

критерий

Ь-

документы

Рис. 1. Релевантность в классической ИПС

, , 2, -, ( . 1). -

зуя этот подход, легко определить пространственно-векторные и вероятностные .

1Я = тШО,®,( I ,6)))],

где О - множество объектов (документы); Q - множество запросов; I - пользовательская информация; 6 - является информацией, получаемой из пользовательской информации I, получаемая по определенным правилам; ^ - является отношением между объектами и информационной потребностью.

Информационная потребность, выражается:

т = ^,{ 1,6).

Данная модель формализует, так называемую, пользовательскую информа-, ,

чтобы ввести дополнительную информацию при удовлетворении его информационная потребность. Языковая грамматика используется как средство представления документов и запросов к нормальной форме. Следовательно, и те, и другие могут быть представлены как булево выражение, составленное в соответствии с условиями и логическими операторами (A,V, —) .

В итоге отметим, что были рассмотрены некоторые формальные методы, подчеркнуто их богатство при использовании в качестве модели для ИП. Это позволило нам идентифицировать общие компоненты и возможные отношения.

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. Salton G. A Theory of Indexing, Technical report No. TR74-203, Department of Computer Science, Cornell University, Ithaca, New York, 1974.

2. Bartell Brian T., Cottrell Garrison W., Belew Richard K. Latent Semantic Indexing is an Optimal Special Case of Multidimensional Scaling. In: Proceedings of the Fifteenth Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. P. 161-167, 1992.

3. Belew Richard K. Adaptive Information Retrieval: Using a Connectionist Representation to Retrieve and Learn about Documents. In: Proceedings of the Twelfth Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. P. 11-20, 1989.

4. Chen X. Cold Accretion Disks with Coronae and Advection. Astrophysical Journal v. 448, P. 803, 1995.

5. David A. Grossman, Ophir Frieder, M. Catherine McCabe, Abdur Chowdhury. A unified environment for fusion of information retrieval approaches. Conference on Information and Knowledge Management. Kansas City, Missouri, United States. Pages: 330 - 334, 1999.

6. Baeza-Yates R. Modern Information Retrieval / R. Baeza-Yates, B. Ribeiro-Neto. - New York: ACM Press Series/Addison Wesley, 1999.

7. Sandor Dominich. A unified mathematical definition of classical information retrieval. JASIS 51(7) Pages: 614-624, 2000.

8. Sandor Dominich, Mounia Lalmas, C. J. van Rijsbergen. ACM SIGIR 2000 Workshop on Mathematical/Formal Methods in Information Retrieval. SIGIR Forum 34(1) Pages: 18-23, 2000.

Целых Александр Николаевич

Технологический институт федерального государственного образовательного учреждения высшего профессионального образования «Южный федеральный университет» в г. Таганроге.

E-mail: [email protected].

347928, г. Таганрог, пер. Некрасовский, 44.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

.: 8(8634)371-160.

Заместитель руководителя по информатике.

Котов Эдуард Михайлович

Технологический институт федерального государственного образовательного учреждения высшего профессионального образования «Южный федеральный университет» в г. Таганроге.

E-mail: [email protected].

347928, г. Таганрог, пер. Некрасовский, 44.

Тел.: 8(8634)371-743.

Кафедра прикладной информатики; старший преподаватель.

Tselykh Aleksandr Nikolaevich

Taganrog Institute of Technology - Federal State-Owned Educational Establishment of Higher Vocational Education “Southern Federal University”.

E-mail: [email protected].

44, Nekrasovskiy, Taganrog, 347928, Russia.

Phone: 8(8634)371-160.

Vice Rector for Informatics.

Kotov Eduard Mihailovich

Taganrog Institute of Technology - Federal State-Owned Educational Establishment of

Higher Vocational Education “Southern Federal University”.

E-mail: [email protected].

44, Nekrasovskiy, Taganrog, 347928, Russia.

Phone: 8(8634)371-743.

Department of Applied Information Science; senior instructor.

УДК 621.396

Ю.М. Вишняков, С.Ю. Новиков О ПОДХОДЕ К УПРАВЛЕНИЮ УРОВНЕМ СЕРВИСОВ В ИНФОРМАЦИОННЫХ СИСТЕМАХ

В работе рассматривается задача управления уровнем услуг информационных сис-. , -. -, , . , неизбежно возникающей при управлении реальными объектами, был предложен метод последовательного сокращения промежутка исследуемых данных.

На основе предложенных методов может быть построена модель сервисноориентированной информационной системы и автоматизирован процесс управления информационными системами предприятий.

Уровень сервиса; SLA; алгоритмы управления уровнем сервиса.

Y.M. Vishnyakov, S.Y. Novikov THE APPROACH TO THE MANAGEMENT LEVEL IN INFORMATION

SYSTEMS

In this paper we consider the problem of management of information systems services to businesses. A trivial algorithm, which has guaranteed convergence, was presented. On the basis of trivial algorithm developed algorithms for the rejection, indignation, and the combined algorithm. To reduce errors, has been proposed a method of reducing the gap investigated serial data.

On the basis of the proposed methods can be created a model of service-oriented information system and built automated management of information systems.

Level of service; service level agreement; algorithms for managing service level.

Перед современным промышленным предприятием сегодня стоит задача обеспечения уровня предоставляемых услуг в области информационных техноло-( - ) .

, , в области информационных технологий (ИТ-подраделением) изложены в формализованном виде в специальном документе, называемом соглашением об уровне сервиса (Service Level Agreement - SLA) [1]. Поскольку в настоящее время пользователям предоставляется большое число различных сервисов, то задача обеспечения уровня указанного в SLA представляет собой довольно сложную задачу, не всегда имеющее однозначное решение. Множество контролируемых параметров,

Исследование моделей информационного поиска Текст научной статьи по специальности «Компьютерные и информационные науки»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Котов Эдуард Михайлович, Целых Александр Николаевич

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Котов Эдуард Михайлович, Целых Александр Николаевич

RESEARCH OF MODELS FOR INFORMATION RETRIEVAL

Текст научной работы на тему «Исследование моделей информационного поиска»