серия Студенческая наука
УДК 004.652; 514.743
АДАПТИВНЫЙ РЕЖИМ ПОИСКА В ЭЛЕКТРОННЫХ ИНФОРМОТЕКАХ
Статья представлена доктором технических наук, профессором Кузнецовым В.Л.
Статья подготовлена под руководством доктора технических наук, профессора Кузнецова В.Л.
В данной работе предложена модель адаптивного режима поиска полнотекстовых документов в электронных информотеках. Научная новизна работы состоит в модификации классических моделей поиска в метрических пространствах введением адаптивного режима на основе аппарата римановой геометрии. Рассмотрена возможность применения данной модели в задачах кластеризации полнотекстовых документов.
Отличительной чертой современного этапа развития общества является то, что информационные ресурсы существуют как в традиционной печатной, так и в электронной форме. Созданные в нашей стране и за рубежом телекоммуникационные каналы различного уровня (от Интернета до спутниковых) и разработанные информационные технологии позволяют перейти к широкомасштабному переводу накопленных человечеством знаний в электронную форму и тем самым к созданию распределенных электронных информотек [2,3].
На смену традиционному информационному обслуживанию на печатных носителях приходит обеспечение пользователей, основанное на электронном представлении разнообразной информации, тиражируемой в неограниченном количестве и доступной по глобальным сетям Интернета независимо от времени и местонахождения пользователей.
Обычно под электронной информотекой понимается информационная система, позволяющая интегрированно накапливать, хранить и использовать электронные документы независимо от местонахождения исходного материала, его формата и характера, доступные в удобном для пользователя виде через глобальные сети передачи данных и функционирующие в четких правовых рамках.
Особо остро стоит вопрос эффективного и релевантного поиска документов при большом объеме ЭИ. Существующие модели поиска не позволяют качественно учитывать историю обращений пользователей для улучшения релевантности их ответов на их запросы. Для обеспечения такой системы поиска вводится адаптивный режим функционирования информотеки. Однако история поиска не может дать каких-либо качественных улучшений без построения алгоритмов, которые могли бы эффективно использовать накопленную информацию. Соответственно ставится задача моделирования адаптивного режима функционирования, которая может быть легко алгоритмизирована и использована в качестве базы для построения ЭИ.
В основу системы поиска мы положим модель, основанную на метрических пространствах, и затем определим в этой модели адаптивный режим.
Имея множество слов - словарь из т элементов
П.В. ФИЛОНОВ
Введение
1. Адаптивный режим поиска
(1)
множество документов
и множество ключевых слов для каждого документа
б={ч}”=і; Чг с А, (3)
мы можем построить метрическое да-мерное пространство с единичным базисом Е. При этом каждый элемент из Т представим в виде битового да-мерного вектора следующим образом. Если
для документа *г 7-е слово из словаря А является ключевым ау. є чі , тоу-я координата вектора *г
равна 1, в противном случае 0. Метрику можно представить следующим образом
Р2 (^ *2 ) = (*2 - *1 )\ (4)
т.е. корень из скалярного произведения разности двух векторов.
Поиск на основании ключевых слов в таком пространстве можно осуществлять следующим образом. Каждый поисковый запрос также представим в виде битового вектора по тому же правилу, что и документ. Затем считаются все расстояния от запроса до документов, меньшие чем определенное пороговое значение поиска, и сортируются в порядке возрастания (рис. 1). На основании получившегося списка пользователь получает ответ на свой запрос, отсортированный по релевантности документа запросу.
запрос
Ввести адаптивный режим поиска предлагается путем изменения метрики пространства следующим образом. Введем понятие метрического тензора типа (1,1) как билинейной формы, переводящей Тх Т ® Я, следующим образом: числа на главной диагонали определяют важность вхождения данного термина для пользователя, а остальные числа определяют связь между терминами. В данном случае мы имеем обратную зависимость, т.е. чем больше число, тем меньшую значимость имеет данный термин для пользователя.
Этот тензор можно ассоциировать с квадратной матрицей т х т .
Определим теперь расстояние между элементами Т, воспользовавшись понятием метрического тензора
Р2 Ь , О )=Ь - )' §! \г -11) . (5)
Можно заметить, что прошлое определение есть частный случай при матрице тензора равной единичной. Фактически такая модификация использует аппарат римановой геометрии, частным случаем которой является геометрия Евклида. Это позволяет учитывать историю поиска пользователя при составлении им нового поискового запроса. Более близкие по смыслу документы будут ближе к запросу, чем остальные. При этом можно захватить, не меняя нижнего порога релевантности, больше документов, повысив эффективность поиска (рис. 2).
Если для каждого пользователя определить свой метрический тензор, то, имея единственное представление множества Т, мы получаем совершенно разные результаты для запроса от различных пользователей. При этом нам достаточно хранить в памяти только матрицу тхт, т.е.
2 т(т 1)
т чисел, а с учетом ее симметричности------- --- чисел.
Рис. 2. Переход к адаптивному режиму
Рассмотрим главную диагональ метрического тензора. Формирование метрического тензора стоит проводить на основании выбора пользователем документа на свой запрос.
2. Кластеризация документов
В качестве основы кластеризации предлагается использовать метод Роккио. Данный метод основан на определении наиболее плотных зон пространства, которые потенциально рассматриваются как центроиды будущих кластеров (рис. 3), при этом для документа і устанавливаются следующие два условия:
1. Существуют, по меньшей мере, п1 документов, коэффициент подобия которых по отношению к документу Ц превышает Т1.
2. Существуют, по меньшей мере, п2 документов, коэффициент подобия которых по отношению к документу Ц превышает Т2, п1 < п2, Т1> Т2.
Рис. 3. Схематическое изображение метода Роккио
Согласно принципу построения поиска и вычисление подобия документа и запроса, разработанному в работе [1], будем определять меру подобия документов через метрический тензор g следующим образом
Ъ=(<- •, )■ gi'-( ‘‘) ■ (6)
здесь 8і}- - мера подобия документов і и у , а їг, їу - соответствующие вектора этих документов.
Построим итерационную процедуру кластеризации следующим образом. Для начального шага примем g как единичную матрицу и проведем кластеризацию согласно методу Роккио. Затем на каждом следующем шаге будем изменять метрический тензор для каждого кластера в
зависимости от тех документов, которые были приписаны к данному классу. Продолжать эту процедуру можно до тех пор, пока метрический тензор для каждого из классов не приобретет устойчивый вид.
Такой подход позволит учитывать влияние не только центроида класса на его формирование, но и остальных документов, входящих в него, при этом за счет использования метода Рок-кио на каждом шаге нет необходимости просчитывать весь массив документов на определение связей между ними, что положительно скажется на эффективности алгоритма классификации. Наглядно такой алгоритм классификации можно представить как постепенное сближение документов и их локализация в окрестности центроида (рис. 4).
Рис. 4. Притяжение документов к центроиду кластера Заключение
Изложенная в данной работе модель может быть применена как в задачах поиска, так и в задачах кластеризации документов. Простота ее реализации позволит легко включать адаптивный режим в существующие системы хранения и поиска полнотекстовой документации.
ЛИТЕРАТУРА
1. Солтон Дж. Динамические библиотечно-информационные системы. - М.: Мир, 1979.
2. Котиков В.И. Электронная библиотека: от концепции до реализации // Научный Вестник МГТУ ГА, сер. Информатика, № 45, 2003. С. 53-64.
3. Котиков В.И., Денисова Е.М. Разработка классификационного куба знаний для нового класса информационных систем электронных информотек // Научный Вестник МГТУ ГА, сер. Прикладная математика. Информатика, № 105, 2006. С. 93-102 .
4. Позняк Э.Г., Шикин Е.В. Дифференциальная геометрия: первое знакомство. - М.: Изд-во Московского университета, 1990.
5. Ландау Л.Д., Лифшиц Е.М. Теория поля. - М.: Наука, 1988.
ADAPTIVE SEARCH MODE IN ELECTRONIC INFORMOTEKS
Filonov P.V.
In presented work the model of an adaptive search mode of full-text documents in electronic informoteks is offered. Scientific novelty of work consists in updating classical search models in metric spaces introduction of an adaptive mode on the basis of the device Riemann geometry. The opportunity for application of the given model in problems of clustering full-text documents is considered.
Сведения об авторе
Филонов Павел Владимирович, 1985 г.р., студент 5 курса факультета прикладной математики и вычислительной техники МГТУ ГА, область научных интересов - моделирование задач электродинамики, информационные технологии.