Научная статья на тему 'Применение стохастических фракталов к некоторым задачам информационного поиска'

Применение стохастических фракталов к некоторым задачам информационного поиска Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
169
61
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Седова Яна Анатольевна

В статье рассматриваются особенности применения теории стохастических фракталов к некоторым задачам информационного поиска, требующим анализа Web-пространства. Рассматриваются особенности процесса кластеризации при решении этих задач.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Седова Яна Анатольевна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Применение стохастических фракталов к некоторым задачам информационного поиска»

ПРИМЕНЕНИЕ СТОХАСТИЧЕСКИХ ФРАКТАЛОВ К НЕКОТОРЫМ ЗАДАЧАМ ИНФОРМАЦИОННОГО ПОИСКА

Я.А. Седова (Астраханский государственный технический университет) Научный руководитель - к.т.н., профессор И.Ю. Квятковская (Астраханский государственный технический университет)

В статье рассматриваются особенности применения теории стохастических фракталов к некоторым задачам информационного поиска, требующим анализа Web-пространства. Рассматриваются особенности процесса кластеризации при решении этих задач.

Введение

Информационный поиск - наука, изучающая поиск информации в документах, расположенных в базе данных. При этом база данных может быть как автономной, так и сетевой, такой как «Всемирная паутина» (World Wide Web).

Сущность всех задач информационного поиска сводится к поиску информации по некоторому запросу с дальнейшей обработкой результатов. В настоящее время в связи с широким распространением сети Интернет задачи подобного рода стали особенно актуальными. Самый наглядный пример систем, решающих эти задачи, - информационно-поисковые системы, позволяющие пользователю ввести запрос на естественном языке и получить более или менее релевантные результаты, т.е. документы, семантически связанные с запросом.

Рисунок. Пример работы Touchgraph Google Browser (взято из [4])

Кластеризация в информационном поиске [1] является одним из способов повысить эффективность поиска. Поскольку ни один из существующих алгоритмов семантического анализа текстовой информации не может работать безошибочно, особую важность приобретает возможность распределить результаты поиска по группам (кластерам), чтобы облегчить для пользователя процесс интерпретации результатов. Один из примеров информационно-поисковой системы, реализующей кластеризацию резуль-

татов поиска, - это система Nigma, разработка которой началась в 2005 г. и продолжается до сих пор. Бета-версия данной системы доступна на сайте www.nigma.ru.

Несколько лет назад рядом исследователей было предложено применить для исследования кластерных систем фрактальный подход. В работе [2] была произведена идентификация информационных объектов как фрактальных множеств на примере множества кластеров статей, имеющих общие цитированные статьи. В 2002 г. российский исследователь С. А. Иванов, обобщив результаты опубликованных работ и собственных исследований, предложил теорию стохастических фракталов для кластерных тематических образований в мировой системе периодических и продолжающихся изданий [3]. Совсем недавно Д.В. Ландэ определил некоторые фрактальные свойства информационных потоков из Интернета, используя в качестве базы данных для эксперимента систему мониторинга сетевых новостей InfoStream [4]. Сервис компании Google Touchgraph (www.touchgraph.com), разработанный для визуализации Web-сайтов, позволяет выявить самоподобие сайтов (рисунок).

В данной работе предлагается применить фрактальный подход для решения некоторых задач информационного поиска, таких как определение рейтинга понятия, заданного пользователем.

Постановка задачи

В общем случае задача определения рейтинга понятия заключается в том, чтобы для некоторого понятия найти все его упоминания в коллекции Web-документов, которая может представлять собой каталог сайтов по определенной тематике, и произвести анализ всех отзывов.

Каждый сайт может рассматриваться как виртуальный эксперт, который обладает рядом критериев, позволяющих определить его вес. Примером таких критериев может быть индекс цитируемости (индекс значимости сайта или отдельной страницы сайта для поисковой системы), ранг страницы PageRank, индекс Хирша (для сайта - максимальное количество дней в месяце, в течение которых было зафиксировано не менее h внешних ссылок на данный сайт). Помимо общепринятых критериев, могут быть использованы также критерии популярных поисковых систем: Яндекс тИЦ, Google PR, Webalta WR/WTR.

Пусть имеется множество из n виртуальных экспертов, каждый из которых обладает m критериев. Тогда определим рейтингi -го эксперта аг как

m

а г =Z tj .

j=1

Благодаря этому получаем возможность определить суммарный рейтинг понятия r как

r = Zа • ъ, (i)

i=1

где bi - это оценка, данная понятию i -м сайтом.

Методы исследований

Рассмотрим особенности кластеризации с применением фрактального анализа. В качестве основы будем использовать алгоритм построения иерархической классификации, приведенный в работе [5].

Построим матрицу образов. Теоретически она представляет собой матрицу размерностью р х q , каждая строка которой соответствует наименованию признака

(I = 1,2,...,р), а столбец - наименованию образа (у = 1,2,..., q).

В задачах информационного поиска для определения признаков может быть использована мера ТЕ-ГОБ (интегральная значимость):

tf •idf = log 2

( N ^

( \ \ m л

V nt у

dt

• + — х-V 2 2 md у

где N - общее количество документов, nt - количество документов, в которые входит

термин t, mdt - число вхождений термина t в документ d, md - максимум из mdt. С

помощью меры TF-IDF пространство документов, по которым необходимо произвести поиск, может быть представлено в виде числовых векторов (векторная модель VSM) [6].

По матрице образов могут быть вычислены меры сходства и различия. Например, мера сходства Чекановского-Серенсена определяется с помощью следующей формулы:

2m(S, n Sk )

С (S,, Sk) =--—,

V kJ m(Sj) + m(Sk)'

где m(Sj) - число элементов множества S.

Значения мер сходства документов записываются в матрицу размерностью q х q,

строки и столбцы которой соответствуют наименованиям образов Sj ( j = 1,2,..., q ).

Матрица симметрична относительно главной диагонали. Чем больше мера сходства двух документов, тем ближе они находятся друг к другу в пространстве термов. Это обстоятельство позволяет построить дендрограмму, а затем с помощью формулы (1) определить рейтинг понятия.

Одним из примеров, в котором целесообразно применение вышеописанных алгоритмов, является задача определения добросовестности поставщиков. На ряде предприятий при закупке товаров и услуг объявляется конкурс среди фирм-поставщиков, претендующих на поставку определенного товара. Проблемой является определение добросовестности каждого из поставщиков на основе анализа информации о нем, найденной в Web. В настоящее время эта задача решается иными способами, когда добросовестность поставщика определяется либо документально, либо в результате опроса, когда превалируют случайные или субъективные факторы. В других случаях организатор конкурса берет на себя проверку. Применение фрактального подхода позволит автоматизировать процесс анализа добросовестности поставщика.

Заключение

x

В работе исследованы особенности применения фрактального подхода к некоторым задачам информационного поиска, а также особенности процесса кластеризации в применении к задачам подобного рода.

Результаты работы используются автором статьи при разработке автоматизированной интеллектуально-поисковой системы кластерного и фрактального анализа. Система разрабатывается в среде программирования Microsoft Visual Studio 2005 на языке C# и предоставляет возможность анализировать и производить визуализацию результатов выполнения запроса пользователя.

Литература

1. Berry M.W. Survey of Text Mining. Clustering, Classification, and Retrieval. - SpringerVerlag, 2004. - 244 p.

2. Van Raan A.F.J. Fractal geometry of information space as represented by cocitation clustering // Scientometrics. - 1991. - Vol. 20. - № 3. - P. 439-449.

3. Иванов С.А. Стохастические фракталы в информатике // Научно-техническая информация. - 2002. - Сер. 2. - № 8. - С. 7-18.

4. Ландэ Д.В. Фрактальные свойства тематических информационных потоков из Интернет // Регистрация, сбор и обработка данных. - 2006. - Т 8. - № 2. - С. 93-99.

5. Андрейчиков А.В., Андрейчикова О.Н. Компьютерная поддержка изобретательства (методы, системы, примеры применения). - М.: Машиностроение, 1998. - 476 с.

6. Salton G., Wong A., Yang C.S. A vector space model for automatic indexing // Communications of the ACM. - 1975. - Vol. 18. - № 11. - P. 613-620.

i Надоели баннеры? Вы всегда можете отключить рекламу.