Комбинаторный подход к оптимальному представлению текстовых документов информационно-поисковых систем

Занин Дмитрий Евгеньевич

УДК 681.3

КОМБИНАТОРНЫЙ ПОДХОД К ОПТИМАЛЬНОМУ ПРЕДСТАВЛЕНИЮ ТЕКСТОВЫХ ДОКУМЕНТОВ ИНФОРМАЦИОННО -ПОИСКОВЫХ СИСТЕМ

Занин Дмитрий Евгеньевич аспирант

Кубанский государственный технологический университет, Кранодар, Россия

Задача оптимального представления текстовых документов на заключительном этапе функционирования информационно-поисковой системы представлена как целочисленная, комбинаторная задача о назначениях отранжированному месту в итоговом списке -каждого из найденных документов. Решать задачу предлагается с использованием алгоритма Куна в составе автоматических поисковых серверов.

Ключевые слова: ИНФОРМАЦИОННОПОИСКОВАЯ СИСТЕМА, НЕЙРОННАЯ СЕТЬ ХОПФИЛДА, РАНЖИРОВАНИЕ, ОПТИМИЗАЦИЯ.

Основная проблема, с которой сталкивается любая информационнопоисковая система (ИПС) - как предоставлять пользователю только релевантные документы, согласно его (пользователя) информационных требований, при этом не показывать, или минимизировать число показанных нерелевантных документов.

Располагая несколькими оценками соответствия смыслового содержания найденной информации требованиям поискового запроса, несколькими ключами поиска, задача ранжировки массива документов становится задачей комбинаторной оптимизации большой размерности, решать которую необходимо в реальном масштабе времени.

Наличие нескольких критериев поиска равнозначно наличию у каждого найденного документа нескольких параметров релевантности по каждому из критериев запросов. Таким образом, в общей постановке задача оптимального представления текстовых документов на

UDC 681.3

ТНЕ COMBINATORY APPROACH TO OPTIMAL REPRESENTATION OF TEXT DOCUMENTS OF INFORMATION RETRIEVAL SYSTEMS

Zanin Dmitry Eugenievich postgraduate student

Kuban State Technological University, Krasnodar, Russia

The task of optimal representation of text documents at the final stage of operation of an information retrieval system represented as the integer, combinatory task about assigning to the ranked place in the total list -each of the retrieved documents. To solve the task it is offered with usage of algorithm Kuhn in structure of automatic search servers.

Keywords: INFORMATION RETRIEVAL SYSTEM, NEURAL NETWORK OF HOPFIELD, RANGING, OPTIMIZATION.

заключительном этапе функционирования ИПС выглядит следующим образом:

Дано:

1. Множество V критериев значимости (значимости запросов) информационно-поисковой системы при поиске документов, V = (V,}, г=1,...,п, п - общее количество критериев значимости информационнопоисковой системы на одной итерации ранжирования.

2. Множество D документов найденных ИПС ^}, s = 1,...,и, где U-общее количество документов найденных ИПС на одной итерации ранжирования.

3. Каждому элементу vi множества критериев значимости, в результате статистических исследований либо экспертных оценок, сопоставлена функция цены - сг, i=1,...,N, характеризующая степень условного "информационного" убытка владельца информационной системы, в случае оценки документа по г-му критерию.

4. Каждый документ dj обладает некоторой релевантностью gj, )= 1,...Мна множестве критериев запроса (V,} и стоимостью р), j= 1,., М (затратами на его размещение в отранжированном списке результатов поиска ИПС).

Требуется:

Синтезировать алгоритм, позволяющий определить подмножество элементов из множества {) документов, при котором реализуется одно из следующих условий:

- минимум суммарного ущерба, при заданной Р стоимости (ограничениях на стоимость) размещения документов в отранжированном списке ИПС;

- максимум суммарной релевантности О итогового списка отранжированных документов на множестве V критериев значимости, при заданном С ущербе размещения списка.

Задача, представления найденных ИПС документов -многоитерационная задача поиска оптимального состава отранжированных документов носит целочисленный и комбинаторный характер. Динамическое размещение документов в списке требует оперативного решения многопараметрической задачи в реальном масштабе времени. Обозначим через Я = ||Г^|| - ЫхМ матрицу производительностей,

элементы которой Гр представляют собой релевантность документа с номеромр относительно 1-й позиции в итоговом списке (табл.1).

Таблица 1 - Таблица задачи о назначениях

Документ 1 Документ.. Документ і Документ... Документ N

Позиция 1 Г11 ... Пі ... Г1N

Позиция ...

Позиция і і ... Г іі ...

Позиция .

Позиция М ГМ ... ГМ j ... ГМ N

4. Обозначим через X = |Х;| ИхМ матрицу неизвестных, элемент

которой Хц принимает значение 1, если документ с номером і будет находиться в позиции с номером і, и значение 0, в противном случае.

5. Ограничения математической модели представлены системой уравнений:

" М ____

X Хіі < 1 і =1N,

і=1

N ____

•X х,< 1, і = 1,М, (1)

і=1 ____________ _______

Хіі є {0,1}, і = 1, М, і = 1, N

Здесь первое уравнения означает, что каждому документу будет назначено не более чем одна (наиболее эффективная) порядковая позиция в итоговом списке.

Требуется:

Определить матрицу назначений X, при которой имеет место критерий оптимальности:

М N

Р(х) = ЕЕ га Хр ® тах . (2)

р =1 <=1

Задача (1) - (2) называется задачей о назначениях с аддитивным критерием оптимальности.

При рассмотрении задачи о назначениях в стандартной форме предполагается, что количество документов равно количеству позиций итогового списка: M=N. Нетрудно показать, что введением фиктивных документов или фиктивных номеров позиций математическая модель в открытой форме (1) эквивалентна модели (3).

М ___

Е х,,=1,'=,

3 =1

N ___

•Е Хз.= 1. Р = 1, М, (3)

г=1 ___ ___

0 < Хрг £ 1 , р = 1, м, г = 1, N,

N = М.

Исходя из того, что матрица ограничений условий (3) является абсолютно унимодулярной (целочисленная матрица называется абсолютно или вполне унимодулярной, если любой ее минор равен 1, -1 или 0), то любой опорный план математической модели (3) является целочисленным, отсюда вытекает эквивалентность математических моделей (1) и (3) [1]. Кроме того, так как из условий (3) и условий неотрицательности переменных автоматически следует, что переменные не могут быть больше 0, исходная математическая модель (1) эквивалентна (с точки зрения поиска оптимального решения задачи о назначениях) математической модели с ограничениями (3), условиями М = N и ограничениями Хрг, > 0, р=1,2,...М, г=1,2,...,Ж

Рассмотрим постановку задачи о назначениях в открытой форме алгоритма Куна (2)-(3). Двойственная к ней задача имеет вид [2]:

yJ + Zi ^ r ji, j = 1, M, i = 1, N, (4)

M N _ _

Qbiz) = Xyj + X Zi ® min, j =1,M, i =1 N, (5)

j=1 i=1

где M = N.

Не уменьшая общности, будем считать, что коэффициенты rji целые. Пусть у' и z' - допустимое решение задачи (4), (5), т.е.

у'j + z'i ^ r ji, j = 1,M, i = 1 N .

Допустимое решение может быть построено двумя способами. Пусть

yj = max rji, где максимум берется по всем i=1,2,...,N, z'- = 0, i=1,2,...,N.

Обозначим через P множество тех пар (j,i), для которых yj + z'i = j Рассмотрим простейшую задачу о назначениях с матрицей D, элементы которой dji = 1, если j,i) е P и dji = 0 в противном случае.

Способ 1. Простейшая задача о назначениях с матрицей D имеет решение, т.е. каждый документ назначается на свою позицию и каждая позиция занимается своим документом. Пусть X - оптимальное решения простейшей задачи о назначениях, тогда X - будет оптимальным решением и исходной задачи (2)-(3). Действительно, xjt = 1, если (j,i) е P, т.е. уj + z'ji = rji, отсюда

M N M N _ _

SIrjiX'ji = X У j + X Z 'i j = 1, M, i = 1, N, т.е. по теореме о равенстве линейных

j=1 i=1 j=1 i=1

форм прямой и двойственной задач , X' - оптимальное решение исходной

задачи.

Способ 2. Простейшая задача о назначениях с матрицей D не имеет решения. Тогда найдется множество документов K, которые могут назначаться согласно матрице D позициям из множества Q, причем мощности множеств равны, соответственно, к и q и при этом k<q. Рассмотрим новые двойственные переменные:

y"j = y j - 1 , если j е K и y’j- = у)- в противном случае; i = z^’ +1 , если i е Q и i = z^’ в противном случае.

Новые значения двойственных переменных удовлетворяют условиям задач (4), (5) и при этом уменьшают значения критерия двойственной задачи.

Переходим на начало процедуры решения задачи и так до тех пор, пока на очередном шаге не получим решение простейшей задачи о назначениях, которое и определит оптимальное решение исходной задачи.

Конечность алгоритма Куна следует из того, что по теореме о соотношениях линейных форм прямой и двойственной задач

МЫ М N ___

XX£ X у']+Х2 " 1=1М, 11Ы.

1 =1 1=1 ] =1 г=1

Литература

1. Гэри М., Джонсон Д. Вычислительные машины и труднорешаемые задачи.- М.: Мир, 1982. - 416с.

2. Таха Х. Введение в исследование операций. Т. 1. - М.: Мир, 1985.- 282с.

3. Ловас Л., Пламмер М. Прикладные задачи теории графов. Теория паросочетаний в математике, физике, химии. - М.: Мир, 1998.

Комбинаторный подход к оптимальному представлению текстовых документов информационно-поисковых систем Текст научной статьи по специальности «Математика»

Аннотация научной статьи по математике, автор научной работы — Занин Дмитрий Евгеньевич

Похожие темы научных работ по математике , автор научной работы — Занин Дмитрий Евгеньевич

Текст научной работы на тему «Комбинаторный подход к оптимальному представлению текстовых документов информационно-поисковых систем»