Научная статья на тему 'ТЕХНОЛОГИИ РАБОТЫ В WEB-ПРОСТРАНСТВЕ ИНТЕРНЕТ Часть III. Средства метапоиска'

ТЕХНОЛОГИИ РАБОТЫ В WEB-ПРОСТРАНСТВЕ ИНТЕРНЕТ Часть III. Средства метапоиска Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
98
24
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «ТЕХНОЛОГИИ РАБОТЫ В WEB-ПРОСТРАНСТВЕ ИНТЕРНЕТ Часть III. Средства метапоиска»

Начало данной публикации смотри в http://zhurnal.ape.relarn.ru/articles/2000/042.pdf Продолжение данной публикации смотри в http://zhurnal.ape.relarn.ru/articles/2000/045 .pdf

ТЕХНОЛОГИИ РАБОТЫ В WEB-ПРОСТРАНСТВЕ ИНТЕРНЕТ

Часть III. Средства метапоиска

Адамович И.М. (1), Заикин М.Ю. (1), Заусаев О.В. (2), Пешков А.Н. (1)

(peshkov@amsd.ru)

(1) Институт проблем информатики РАН, (2) ООО "АДВАНСЕД МАЛ-

ТИМЕДИА СИСТЕМ ДИЗАЙН"

Каждая конкретная поисковая машина, даже универсальная, охватывает индексацией, т.е. включает в сферу своего поиска, от нескольких десятков миллионов до 200-300 миллионов из почти миллиарда доступных для индексирования страниц. При этом степень перекрытия адресов для "равновеликих" ПМ, т.е. соизмеримых по количеству проиндексированных страниц, не превышает 60%. Появляется необходимость обращения с данным запросом в целях увеличения охватываемой поиском области WEB-пространства к нескольким поисковым машинам.

Инструменты поиска, реализующие такую возможность, принято называть метапоисковыми средствами. Они подразделяются на порталы (All-In-One Search Pages), метапоисковые машины (Meta Search Engines или Meta-crawlers) и метапоисковые утилиты (Meta Search Utilities).

Порталы, рассматриваемые в качестве метапоискового средства, предоставляют возможность пользователю с одной HTML страницы обращаться посредством ссылок ко многим ПМ, но при этом одновременно только к одной, выбранной им.

Некоторые из таких порталов обеспечивают пользователю предварительный выбор тематической категории, а затем предлагают перечень ПМ, наиболее полно охватывающих выбранную тему.

Пользовательский интерфейс, а также возможности по составлению запроса и формированию результата полностью соответствуют характеристикам той ПМ, к которой обратился пользователь.

В качестве дополнительной возможности отдельные порталы предлагают поле для записи ключевых слов, которые затем автоматически появляются в соответствующем поле агента актуализированной ПМ.

Никаких средств для обработки результатов, полученных от разных ПМ, порталы не предоставляют. Эта функция полностью возлагается на пользователя.

Таким образом, можно сделать вывод о том, что порталы не расширяют функциональности каждой конкретной ПМ. Они обеспечивают экономию ресурсов пользователя, повышая эффективность обращения с одним запросом к нескольким ПМ, когда такие обращения необходимы в силу специфики поиска или расширения охвата информационного пространства Web.

Характеристики наиболее известных порталов приведены в таблице 1.

Таблица 1

Характеристика порталов

№ Наименование и адрес портала Количество главных ПМ Количество МПМ Количество категорий Наличие единого поля ввода запроса Использование фреймов для ПМ

1. Search-It-All http://www.search-it-all.com 18 2 16 +

2. Skwom http://www.skwom.com 6 74 +

3. OneSeek http://www.oneseek.com 7 15 +

4. Proteus http://www.trall.org/proteus.ht m 30 6 10 + -

5. SearchSpaniel http://www.searchspaniel.com 8 23 + +

6. PureSearch http://www.puresearch.com 23 8 +

7. All4oneSearchMachine http://www.all4one.com 4 + +

8. Instantseek http://www.instantseek.8m.co m 15 2 - + -

9. OnePageMultiSearchEngines http://www.biorgul.com 15 24

Метапоисковые машины, в отличие от отдельной ПМ, также работая в режиме on-line и являясь поисковыми серверами, сами не просматривают Web-пространство и не имеют собственного индекса.

Они обеспечивают пользователю через предоставляемый ими интерфейс возможность формировать единый запрос на поиск и передавать его на обработку нескольким поисковым машинам одновременно. При этом возможности языка формирования поискового выражения у МПМ, как правило, шире, чем у конкретной ПМ.

Если текущее поисковое выражение не превосходит возможностей той ПМ, которой оно направляется, оно только переводится в понятную ей форму. Если возможности ПМ не позволяют реализовать поисковое выражение, оно предварительно адаптируется с заменой или исключением некоторых

операций или операндов. Например, если ПМ не реализует операцию NEAR, она заменяется на операцию AND. Если ПМ не понимает операцию NOT, она исключается из поискового выражения. Возможны другие варианты преобразования поискового выражения.

Естественно, что при этом степень соответствия получаемых от ПМ результатов поисковому запросу, сформулированному пользователем, уменьшается.

Полученные от каждой из запрошенных поисковых машин результаты могут быть представлены или в виде единого списка, или в разрезе ПМ. Единый список сортируется в соответствии с пожеланиями пользователя по доменам, сайтам, релевантности и ряду других характеристик. Также удаляются дубликаты адресов документов (если страница найдена несколькими ПМ), и могут быть исключены «умершие» ссылки, т.е. ссылки на те документы, которые внутри периода индексации поискового пространства WEB, покрытого нашедшей их ПМ, перестали существовать. Эту последнюю операцию не реализует ни одна из проанализированных нами поисковых машин.

Необходимо сказать, что при создании единого списка результатов, отсортированного по релевантности, т.е. по степени семантического соответствия результата запросу, возникает проблема неоднозначности оценки релевантности различными ПМ. Каждая из них реализует свой алгоритм оценки и опирается при этом на собственные критерии. Корректно решить проблему можно только посредством проверки содержания страниц, представленных в списке результатов, на соответствие поисковому выражению с использованием единого алгоритма и критериев оценки релевантности. Это позволяют делать метапоисковые утилиты, обеспечивающие выполнение такой обработки на компьютере пользователя.

Дополнительной возможностью, предоставляемой рядом МПМ, является предварительный выбор тематической категории поиска и выдача перечня рекомендуемых по этой теме ПМ. Список рекомендуемых поисковых машин может быть отредактирован пользователем.

Следует заметить, что при использовании МПМ теряется целый ряд опциональных функций, которыми располагают поисковые машины. Например, актуализация по датам, поиск по содержанию ссылок и типу файлов, на которые имеются указания в тексте документа, наличию изображений в странице и т. д.

Характеристики наиболее популярных метапоисковых машин приведены в таблице 2.

Метапоисковые утилиты, подобно метапоисковым машинам, одновременно посылают запрос пользователя более чем к одной ПМ. Однако, в отличие от них, эти инструменты работают непосредственно на компьютере пользователя.

Результаты выполняемых поисковыми машинами запросов также поступают на компьютер пользователя, где могут быть подвергнуты дополнительной обработке - сортировке, исключению «мертвых» ссылок и дублей, актуализации по указанному временному интервалу. Могут быть получены и

запомнены в локальной базе данных страницы, адреса которых получены в качестве результата. Это дает возможность разработчику метапоисковой утилиты обеспечить дополнительную локальную обработку содержания страниц с использованием значительно более мощного, чем у существующих поисковых и метапоисковых машин, языка запросов. При этом появляется возможность реализации в МПУ опциональных функций поисковых машин, которые нереализуемы в МПМ.

Таблица 2

№ Наименование и адрес МПМ ПМ (главные) Количество категорий Управление Проверка актуальности ссылок

Количество Выбор Время ответа Количество ответов

ПМ Страница МПМ

1. Go2Net/Meta Crawler http: //www.go2net.com 12 + + +

2. SavvySearch http: //www. savvysearch. com 11 + 27

3. Dogpile http ://www.dogpile.com 9 + 6

4. InferenceFind http: //www.infind.com 6 +

5. Profusion http ://www.profusion.com 8 + 6 + +

6. Mamma http: //www.mamma. com 7 + 4 + +

7. BigHub http: //www.thebighub.com 7 + 19 +

8. C4 http: //www.c4.com 12 + + + +

Продолжение таблицы 2

№ Наименование и адрес МПМ Операторы Буля Phrase îî a Any All

AND OR NOT NEAR ( )

1. Go2Net/Meta Crawler http://www.go2net.com - - - - + + +

2. SavvySearch http://www.savvysearch.com + +

3. Dogpile http://www.dogpile.com + + + +

4. InferenceFind http://www.infind.com + + +

5. Profusion http://www.profusion.com + + + + + + + +

6. Mamma http://www.mamma.com + - + (-) - - + - -

7. BigHub http://www.thebighub.com + +

8. C4 http://www.c4.com + + + +

В целях ускорения поиска в локальной базе данных она может быть проиндексирована.

Таким образом, МПУ позволяют обеспечить самую высокую степень соответствия результатов поиска целям поиска и обеспечить его высокую эффективность, перейдя от поиска в Web-пространстве к поиску в локальной базе данных и отображению найденных результатов в режиме off-line.

Однако, за все эти преимущества пользователю приходится расплачиваться ресурсами своей вычислительной установки и, прежде всего, расходом оперативной и внешней памяти.

Нами рассмотрены около двадцати различных МПУ. Наиболее популярными и используемыми из них являются BullsEye (http://www.intelliseek.com), Copernic (http://www.copernic.com), MataHari (http://www.thewebtools.com), SearchWolf (http://www.trellian.net/search), WebFerret (http://www.ferretsoft.com/ netferret) и BeeLine (http://www.transcomsoft.com/beelme).

Достаточно полный перечень метапоисковых утилит можно найти в Интернете по адресу

http://www.searchenginewatch.com/links/Search_Utilities/Meta_Search_Utilities/i ndex.html.

Как показывает проведенный анализ существующих в Интернете поисковых инструментов (поисковых машин и средств метапоиска), все они имеют свои достоинства и недостатки.

Каждая из основных универсальных поисковых машин покрывает ограниченное Web-пространство Интернет. По различным оценкам, покрытие не превышает 30-40% доступных Web-страниц. При этом языковые возможности для записи поискового выражения также ограничены. Они не выходят за пределы ключевых слов и фраз, связанных операторами Буля (AND, OR, NOT) и иногда дополнительными операторами взаимного расположения операндов (NEAR, FAR, BEFORE и т.п.).

Метапоисковые средства позволяют расширить область поиска практически на всё Web-пространство Интернет, используя одновременно 6-12 основных универсальных поисковых машин. Однако, выразительные средства языка формирования поискового выражения остаются теми же.

Наиболее совершенными поисковыми инструментами на сегодняшний день являются поисковые утилиты, так как они позволяют получить результаты поиска непосредственно на компьютер пользователя и самому пользователю выполнять их дополнительный анализ в режиме off-line. При этом возможно применение более мощного языка формирования поискового выражения.

Мы предлагаем в метапоисковой утилите для вторичного анализа найденных поисковыми машинами документов использовать разработанный нами топосемантический язык для записи поискового выражения. В этом языке конкретные логические выражения, составленные из ключевых слов и фраз, связанных расширенными операторами Буля, разрешаются на указанных областях WEB-страницы. По нашему мнению, это позволит значительно увеличить точность поиска, сведя к минимуму "поисковые шумы".

Другим существенным недостатком средств метапоиска является то, что каждый раз при отработке конкретного поискового запроса приходится выполнять настройку поискового инструмента - определять набор используемых поисковых машин, формировать поисковое выражение, указывать другие условия поиска.

Для преодоления этого недостатка нами разработан специальный язык, позволяющий записывать программу поиска по различным запросам различными (включёнными в утилиту) поисковыми машинами и обработки полученных результатов.

Такая заранее подготовленная программа может быть запущена в любое удобное для пользователя или им установленное время.

Практически все лучшие свойства МПМ и МПУ реализуются в интегрированной Web-машине, рассматриваемой в заключительной части настоящей статьи.

i Надоели баннеры? Вы всегда можете отключить рекламу.