Научная статья на тему 'ТЕХНОЛОГИИ РАБОТЫ В WEB-ПРОСТРАНСТВЕ ИНТЕРНЕТ Часть II. Поисковые машины и их языковые возможности'

ТЕХНОЛОГИИ РАБОТЫ В WEB-ПРОСТРАНСТВЕ ИНТЕРНЕТ Часть II. Поисковые машины и их языковые возможности Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
165
28
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «ТЕХНОЛОГИИ РАБОТЫ В WEB-ПРОСТРАНСТВЕ ИНТЕРНЕТ Часть II. Поисковые машины и их языковые возможности»

Начало данной публикации смотри в http://zhurna1.ape.re1arn.ru/artic1es/2000/042.pdf Продолжение данной публикации смотри в http://zhurna1.ape.re1arn.ru/artic1es/2000/044.pdf

ТЕХНОЛОГИИ РАБОТЫ В WEB-ПРОСТРАНСТВЕ ИНТЕРНЕТ Часть II. Поисковые машины и их языковые возможности

Адамович И.М., Заикин М.Ю. , Пешков А.Н. (peshkov@amsd.ru) Институт проблем информатики РАН

Еще каких-нибудь десять лет назад у нас в стране только специалисты и отдельные энтузиасты практически сталкивались с Интернет, а сегодня уже никому не надо объяснять, какую огромную роль приобретает эта новая технология в любой отрасли нашего хозяйства.

Интернет представляет собой всемирную сеть передачи данных, абонентами которой являются пользователи компьютеров. Основными свойствами этой сети являются:

- доступность для потенциальных пользователей (практически каждый владелец компьютера имеет возможность подключиться к Интернет, и в настоящее время в мире насчитывается порядка 200 млн. пользователей Интернет);

- возможность каждого абонента сети сделать свою информацию доступной любому другому пользователю;

- децентрализованность (отсутствие единого центра управления и единой адресной базы данных). Первые два обстоятельства определяют огромную роль Интернет практически во всех сферах человеческой деятельности, третье - определяет потребность в достаточно эффективных средствах навигации в Интернет.

В настоящее время по разным оценкам в Интернете находится от 800 млн. до 1 млрд. страниц [1], а это означает, что любому пользователю ПЭВМ, подключившемуся к Интернет, практически мгновенно доступна информация на любую тему, которую посчитали необходимым предоставить всем желающим миллионы людей и тысячи организаций, разбросанных по всему миру. Но как ориентироваться в этом океане? Очевидно, что без эффективных средств поиска нужных данных этот огромный объем информации не имел бы практической ценности.

Существуют два основных способа поиска информации в Web-пространстве Интернет [2].

Первый - это поиск по ключевым словам с использованием поисковых машин (ПМ), а второй - с использованием иерархических классификаторов (директорий). Директории предоставляют пользователям Интернет иерархические тематические рубрикаторы (выбрав подходящую рубрику, пользова-

тель получает список страниц на заданную тему). Недостатком этого способа является большая трудоемкость наполнения директорий (производится экспертами вручную), в результате чего по количеству охваченных страниц способ создания директорий на два порядка отстает от ПМ.

При поиске по ключевым словам ПМ позволяют отыскать подходящие страницы по поисковому запросу, основу которого составляют ключевые слова, отражающие тему. Можно считать, что всей совокупностью существующих ПМ сегодня покрыто практически все Web-пространство, однако ни одна ПМ не охватывает его целиком. Сегодня известно около двух десятков основных универсальных ПМ (работающих по всему Web-пространству и независимо от тематики) и порядка двух тысяч специализированных: тематических, региональных, корпоративных и прочих ПМ.

Существующие ПМ, имея, в основном, общие принципы построения, значительно отличаются друг от друга как по охвату Web-пространства, так и по возможностям языка запроса.

Попытки исправить главный недостаток существующих ПМ - неполное покрытие Web-пространства - привели к созданию так называемых метапо-исковых средств (метапоисковых машин и метапоисковых утилит) [3]. Суть этих средств заключается в том, что они позволяют один запрос пользователя адресовать нескольким ПМ и получить обобщенный результат, вероятность содержания полезной информации в котором больше, чем при обращении к одной, даже самой мощной ПМ. Однако эти средства сохранили и во многих случаях усугубили другие недостатки ПМ, главными из которых являются:

- различия в синтаксисе и оснащенности языков запроса;

- невысокая точность результатов;

- неполная выдача списка результатов (ограничения по максимальной длине списков найденных страниц);

- погрешности в ранжировании результатов по релевантности;

- потери актуальности результатов (по наличию, по содержанию, по дате).

В данной статье делается попытка обобщить и систематизировать возможности, которые ПМ предоставляют пользователю для достижения главной цели - найти в Web-пространстве документы, которые его интересуют.

I. Общие принципы работы ПМ

Для облегчения понимания языков запроса кратко расскажем о принципах работы ПМ.

ПМ представляет собой, с одной стороны Web-сервер, главная страница которого обеспечивает пользователю возможность формирования запроса, а также доступ к опциям и руководству по использованию данной ПМ (помощи). С другой стороны, ПМ обеспечивает создание и ведение каталога Web-страниц, который позволяет выбрать адреса нужных страниц по данным, содержащимся в запросе. В англоязычной литературе БД каталогов со средствами поиска в них чаще всего называют Index, а средства поиска адресов но-

вых страниц и записи в каталог информации, необходимой для последующей подготовки ответа на запросы пользователей, называют Spider (реже Crawler, Robot).

Схема, поясняющая организацию работы типичной ПМ, представлена на рис. 1.

Основу ПМ составляет БД - каталог Web-страниц (Индекс). Суть поиска заключается в отборе адресов необходимых Web-страниц из БД-каталога по

критериям, содержащимся в поисковом запросе. Поэтому в индексе хранится компактное отображение содержания страниц в такой форме, которая наиболее удобна для реализации алгоритма отбора.

Пополнение и обновление индекса

Пополнение индекса происходит за счет страниц, адреса которых специальная программа - кроулер получает из двух источников. Во-первых, это ссылки, которые содержатся в уже проиндексированных страницах, а во-вторых, это адреса, которые сообщают владельцы вновь созданных страниц. В связи с ограниченностью технических и временных ресурсов создатели некоторых ПМ выбирают стратегию т.н. поверхностного индексирования, т.е. ограничения выборки страниц для индексирования по "глубине" вплоть до индексирования только главных страниц.

Это позволяет, жертвуя возможностью индексировать страницы внутри сайта, шире охватить Web-пространство.

Обновление индекса также постоянно выполняемая процедура. Необходимость ее обусловлена тем, что достаточно часто страницы либо прекращают существование, либо изменяются их содержание или адрес. Период обновления индекса является важной его характеристикой и колеблется в пределах от 1 дня до двух недель и более. Некоторые ПМ варьируют период индексации в зависимости от частоты изменения содержания страницы.

Основу БД индекса составляет индексная структура, записями в которой являются наборы Интернет-адресов (URL) Web-страниц, а ключами - слова, встречающиеся в текстах проиндексированных страниц. В каждой записи содержатся адреса страниц, в которых встречается данное ключевое слово. В общем случае для каждого слова по каждой странице в индексной БД содержатся порядковые номера мест слова в тексте (в количестве слов) с учетом некоторых зон (элементов) страницы, определяемых HTML форматом. Кроме того, для каждой страницы могут содержаться следующие данные:

- информация о типах и форматах данных, содержащихся в Web-странице;

- язык, на котором написан основной текст страницы;

- дата создания или последнего изменения страницы;

- текст заголовка;

- краткое содержание;

- фрагмент содержания.

№Ь

Web-страницы

Рис. 1. Схема функционирования ПМ

Кроме создания индекса, некоторые ПМ сохраняют копии проиндексированных страниц (кэширование страниц). Эти копии используются, когда доступ к самой странице по какой-нибудь причине невозможен.

Следует отметить еще одно обстоятельство. Владельцы сайтов имеют возможность размещать на своих страницах платную рекламу, поэтому они заинтересованы в увеличении количества обращений к своим страницам. С этой целью недобросовестные создатели страниц включают в скрытом виде слова, на самом деле не нужные в документе, или пользуются другими приемами для увеличения популярности своих страниц. Для защиты от подобных действий некоторые ПМ при индексировании используют механизмы распознавания таких приемов и принимают меры вплоть до отказа от индексирования таких страниц.

Формирование запроса на поиск информации

Для начала работы с ПМ пользователь обращается к ней как к любой Web-странице, т.е. с помощью своего браузера. Обычно по адресу ПМ лежит ее главная страница, которая является (в терминах системы клиент-сервер) агентом ПМ, обеспечивающим пользовательский интерфейс ПМ. Эта страница содержит окна ввода запроса (обычно в главном окне представлен самый простой вариант синтаксиса запроса), а также ссылки для вызова страниц с окнами для ввода более сложных запросов, помощи и пр. Запрос представляет собой совокупность критериев, которым должны удовлетворять искомые страницы. В простейшем случае это просто ключевые слова, в более сложных - ключевые слова, связанные определенными соотношениями, например операторами булевой алгебры, и, кроме того, различные ограничители поиска и опции. Запрос отправляется в ПМ также через браузер в виде URL, который содержит, кроме адреса точки входа в программу ПМ, еще и все данные запроса.

Поиск и выдача результатов

Запрос, принятый ПМ, поступает в блок обработки запроса и формирования списка результатов, т.е. списка адресов страниц, соответствующих данному запросу. Кроме адресов, для каждой страницы могут выдаваться заголовок документа, краткое содержание и другие сведения. Совокупность сведений по каждой странице, которые предоставляются в списке результатов, будем называть результатом. В процессе выборки из индекса подходящих страниц, для каждой страницы вычисляется ее показатель релевантности (score), который является численным выражением степени соответствия страницы запросу. Пользователь получает список результатов, отсортированный по значениям показателей релевантности [4]. Результаты поиска предоставляются в виде Web-страниц, на которых располагается по 10 - 50 результатов. Пользователю предоставляется возможность последовательно просматривать страницы результатов. Некоторые ПМ позволяют вызывать страницы результатов по номерам этих страниц (прямой доступ).

II. Язык запроса

Под языком запроса ПМ будем понимать морфологию и синтаксис всех сведений, которые пользователь сообщает ПМ прежде, чем начнется процесс поиска.

С морфологической точки зрения данные, содержащиеся в запросе, можно разделить на следующие группы:

- критерии отбора страниц;

- технология выполнения поиска;

- параметры формы представления результатов.

Если обобщить и структурировать сведения, которые могут содержаться в запросах известных ПМ, то получим структуру "обобщенного" языка запросов, которая приведена на рис. 2.

Рис. 2. Структура "обобщенного" языка запросов.

Критерии отбора страниц Критерии семантического отбора

Поисковое выражение

Основным критерием семантического отбора является набор ключевых слов, связанных операторами булевой алгебры и модифицированными (задающими взаимное расположение ключевых слов) операторами булевой алгебры.

Ключевые слова и операторы составляют основу поискового выражения (в состав поискового выражения в существующих языках запроса могут входить еще и мета-слова, см. далее главу "Мета-слова"). Интерфейсы ПМ предоставляют следующие способы формирования поискового выражения и, соответственно, четыре типа синтаксиса языка поискового выражения.

1-й тип. В поле для ввода поискового выражения вписываются только ключевые слова. При этом разные ПМ могут трактовать их связанными операторами булевой алгебры И или ИЛИ.

2-й тип. Ключевые слова вписываются в поле для ввода поискового выражения. При этом в большинстве ПМ могут использоваться символы "+" и "-" для выражения необходимости присутствия или отсутствия слова в тексте. Перед словом

помещается знак "+", если присутствие этого слова в текстах искомых документов обязательно. Перед словом помещается знак "-", если этого слова в текстах искомых документов не должно быть. Если перед словом нет ни "+", ни "-" это означает для ПМ, что присутствие этого слова желательно, т.е. в результатах будут присутствовать, как страницы, в текстах которых это слово присутствует, так и страницы без этого слова. Однако, при этом релевантность страниц, содержащих данное слово, будет оценена выше, чем страниц, в которых это слово не встречается. Т.е. страницы, содержащие данное слово, будут расположены ближе к началу списка, чем страницы, в которых это слово не встречается. В некоторых ПМ отсутствие знака равнозначно оператору И булевой алгебры.

Следут отметить, что среди операторов булевой алгебры прямого эквивалента оператора "отсутствие знака". Выражение, в котором присутствуют ключевые слова без знака, может быть записано в терминах булевой алгебры, но более сложной конструкцией. Например выражение +а b может быть записано в терминах булевой алгебры в виде (а И b) ИЛИ b.

3-й тип. Меню.

Предлагается поле для ввода группы ключевых слов, а также меню, из которого можно выбрать признак необходимости присутствия слов этой группы в тексте документа:

- обязательно (must contain) с признаком "все слова" или "хотя бы одно слово";

- исключить (must not contain).

Таких групп, содержащих поле ввода слов и меню, может быть несколько. Таким образом, запрос может содержать несколько групп слов, причем

слова одной группы могут быть связаны одним соотношением (например, И), а слова другой - другим (например, ИЛИ).

Или другой вариант:

- обязательно (must contain);

- желательно (should contain);

- исключить (must not contain),

что, по существу, является аналогом синтаксиса типа 2.

Группы между собой связаны оператором И.

4-й тип. Запись поискового выражения с булевыми операторами.

В поле для ввода поискового выражения вписываются ключевые слова и операторы булевой алгебры И (AND), ИЛИ (OR), НЕ (AND NOT). Используются скобки для образования приоритетных групп. Кроме упомянутых операторов часто используются и другие, которые можно назвать модифицированными операторами И, т.к. по сути, они выполняют функцию операторов И с некоторыми дополнительными условиями. Все эти операторы определяют требуемое взаимное расположение слов в искомом тексте. К ним относятся следующие операторы:

- РЯДОМ (ADJ) - равносилен И, но слова в любом порядке должны следовать одно за другим;

- ПЕРЕД (BEFORE) - равносилен И, но слова должны располагаться в заданном порядке;

- НЕ ДАЛЬШЕ (NEAR) - равносилен И, но слова должны находиться друг от друга не дальше определенного расстояния; это расстояние (в словах или символах) фиксировано для данной ПМ или может задаваться пользователем;

- НЕ БЛИЖЕ (FAR) - аналогичен оператору НЕ ДАЛЬШЕ, но слова должны находиться друг от друга не ближе заданного расстояния;

Синтаксис языка ПМ Lycos поддерживает такие модификации операторов РЯДОМ, НЕ ДАЛЬШЕ и НЕ БЛИЖЕ, при которых последовательность ключевых слов (операндов) этих операторов в поисковом выражении предполагает аналогичную последовательность этих слов в тексте, как условие поиска.

Кроме отдельных слов, операндами поискового выражения могут выступать и целые словосочетания, т.н. фразы. В синтаксисе ПМ словосочетание, которое должно выступать как фраза, заключается в кавычки. В некоторых ПМ при поиске фразы в тексте учитывается точное соответствие символьной последовательности фразы с фрагментом анализируемого текста, в других - допускаются некоторые отклонения (например, две фразы, в которых у подлежащего в одной из них присутствует, а в другой отсутствует определение, могут считаться эквивалентными).

Следует заметить, что в известных нам ПМ + и - не могут использоваться совместно с операторами булевой алгебры.

Стоп-слова

Большинство ПМ не учитывают при поиске т.н. стоп-слова, т.е. слова, часто встречающиеся и обычно не несущие семантической нагрузки. Это, в первую очередь, артикли, предлоги, союзы и т.п. Этот принцип, обычно, не распространяется на фразы. Некоторые ПМ, тем не менее, позволяют пользователю включать стоп-слова в поиск путем помещения перед ними знака "+" в поисковом выражении.

Шаблон

Для тех случаев, когда неизвестно, как может быть написано ключевое слово в тексте страницы, или пользователя удовлетворяет любая форма ключевого слова (например, любой ее падеж), а также когда ПМ не поддерживает функцию "искать все формы слова", большинство ПМ предлагают возможность усечения слов (шаблон).

Известны три формы шаблонов, используемых для ключевых слов в ПМ:

- замена одной или нескольких букв - на месте специального символа (обычно это звездочка - *) может быть одна или несколько любых букв;

- замена одной буквы - на месте специального символа (обычно это ? или %) может быть одна любая буква;

- заменяющие буквы - в квадратных скобках приводятся буквы, которые могут быть на месте буквы предшествующей скобкам.

Все формы слов

Эта функция, для которой при индексировании выделяются грамматические основы слов, позволяет осуществлять поиск слов, встречающихся в документах, независимо от их грамматической формы (падежа, числа, спряжения и т. п.)

Ограничения по тематике

Некоторые ПМ предоставляют пользователю возможность пользоваться еще одним критерием семантического отбора. Это - ограничение результатов путем исключения из результатов документов определенной тематики, например, порнографии, или по признаку категорий пользователей (для детей).

Указатели элементов страниц

Многие ПМ позволяют производить поиск ключевых слов как во всем содержимом HTML-страницы, так и в отдельных ее структурных элементах, которые определяются форматом HTML. Чаще всего предлагаются следующие элементы, которыми можно ограничить область поиска внутри страницы:

- тег title - заголовок;

- метатег keywords - ключевые слова;

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

- метатег description - описание;

- параметр Alt - текст, заменяющий рисунок;

- название изображения;

- текст ссылки.

Некоторые ПМ позволяют вводить аналогичные ограничения с помощью мета-слов (см. далее главу "Мета-слова").

Указатели типов и форматов данных

Цель введения указателей типов и форматов данных - ограничить результирующий список страниц, только теми страницами, которые содержат данные заданного типа или формата. Например, можно указать типы: audio, video, images, VB script и т.п., или впрямую указать расширение файла встроенных данных.

Ограничения по дате

Для ограничения результирующего списка страниц по времени их создания (или последнего изменения) вводится диапазон дат. Некоторые ПМ предлагают только открытые диапазоны по принципу "не позже" или "не раньше".

Указатели области web-пространства

Для ограничения области поиска в Web-пространстве в язык запроса вводятся следующие указатели:

- указатель домена (com, edu, org и т.п.) - в результаты включаются только страницы, принадлежащие указанному домену;

- указатель кода страны (ru, us, uk, fr и т.п.) - в результаты включаются только страницы, содержащие в адресе указанный код страны;

- указатель адреса сайта или его подкатолога - в результаты включаются только страницы, принадлежащие указанному сайту или подкатологу;

- указатель "только главные страницы" - в результаты включаются только главные страницы сайтов (home pages).

Мета-слова

Кроме ключевых слов, в качестве операндов поискового выражения в некоторых ПМ могут использоваться мета-слова (управляющие слова). По сути, это другая форма задания ограничений, которая позволяет отнести ограничения не ко всему запросу, а к отдельным операндам поискового выражения.

Обычно термин, в составе которого используется мета-слово, представляет собой конструкцию [мета-слово][символ - разделитель][параметр]. Символом - разделителем может служить двоеточие, знак равенства и др. Параметром может служить ключевое слово или выражение, дата, домен или код страны, тип данных и т.п. Пример: управляющее слово title обеспечивает поиск в заголовке, т.е. запрос, содержащий title:president приведет к получению документов со словом president в их заголовках.

Параметры процедур выполнения запроса

Управление параметрами сортировки результатов

Некоторые ПМ позволяют в запросе задавать параметры расчета показателей релевантности. Пользователю может быть предоставлена возможность

управлять следующими параметрами, которые учитываются при вычислении показателя релевантности страниц:

- перечень слов, которые должны быть определяющими при определении показателя релевантности страниц;

- веса ключевого слова.

AltaVista предлагает, кроме ключевых слов, которые составляют поисковое выражение, ввести еще и перечень слов, присутствие которых в страницах существенным образом влияет на ранжирование результатов.

Число, поставленное в конце ключевого слова ^ndex) - есть весовой коэффициент, который учитывается при определении релевантности страницы. Больший показатель релевантности будет иметь страница, в которой (при прочих равных условиях) встречается слово с большим весовым коэффициентом. В других случаях вес отдельных слов может быть увеличен или уменьшен знаками "+" и "-"

Кроме этого, некоторые ПМ предоставляют возможность заказать сортировку результатов по одному из критериев: по датам создания или последнего изменения страниц, по заголовкам, по принадлежности к сайтам (группировка по сайтам), и по глубине вложенности в дереве сайта.

Повторный поиск

После получения результатов многие ПМ могут выполнить повторный поиск с учетом предварительно полученных результатов:

- поиск в найденном - поиск по новому запросу, но только в страницах из списка результатов, полученных в результате исполнения предыдущего запроса;

- поиск "похожих" страниц - "похожесть" на выбранную пользователем страницу из списка результатов определяется ПМ по специальным алгоритмам;

- "связанный" поиск - после выполнения поиска ПМ предлагает пользователю несколько запросов, которые ПМ составляет по специальным алгоритмам, опираясь на ключевые слова исполненного запроса.

Параметры формы представления результатов

При формировании запроса многие ПМ позволяют устанавливать следующие параметры и опции формы представления результатов:

- количество результатов, которые предоставляются одновременно на одной странице результатов (обычно это 1 0, 20, 50, 1 00);

- максимальный объем заголовка в символах;

- максимальный объем краткого описания страницы в символах;

- варианты представления характеристики страницы: обычное описание, краткое описание, только адрес, только заголовки, показывать найденный документ целиком;

- показывать даты создания или последнего изменения документа;

- показать только количество результатов;

- группировка результатов - включение в ответ не более одной страницы от сайта;

- показать первую страницу из списка найденных.

В таблице приведены сведения о функциональных возможностях языков запроса 21-ой из наиболее известных ПМ, в т.ч. 4-х отечественных.

Анализ существующих ПМ показывает, что несмотря на существенный и качественный рост этого инструмента Интернет-технологии, наблюдаемый в последнее время, пользователи Интернет не должны переоценивать потенциальную эффективность их использования.

Во-первых, метод поиска на основе ключевых слов имеет существенные ограничения из-за низкой семантической сислы языков запроса, построенных на ключевых словах. Недаром существует много высказываний, относящих поиск в Web в большей степени к искусству, нежели к науке.

Во-вторых, эффективное использование метапоисковых средств, в принципе повышающих охват Web-пространства при поиске, существенно ограничено большим разнообразием языковых средств первичных ПМ и сравнительно небольшим их "пересечением".

По мнению авторов, дальнейшее развитие инструментов поиска в Web-пространстве Bynthytn должно идти по двум основным направлениям:

- создания унифицированного языка запросов к поисковым машинам, обобщающего поисковые возможности современных ПМ;

- интеграции отдельных технологий, применяемых при при поиске информации в Web-пространстве Интернет, в единую систему как на концептуальном уровне, так и на уровне практической реализации этого подхода.

В следующих статьях этой серии авторы попытаются изложить свои позиции по реализации этих направлений.

Таблица

Функциональные возможности языков поисковых машин [6 - 28'_

Характеристика AltaVista Anzwers M О и о < Direct Hit Excite Fast Google! HotBot Infoseek Inktomi Lycos Magellan msn Northern ! Light Snap Web Crawler Yahoo! Апорт! Rambler TELA-ПОИСК x e ■а я «

Способы формирования поискового выражения

Запись поискового выражения + + + + + + + + + + + + + + + + + + +

Меню + + + + + + + + + + + +

Интерпретация ключевых слов

Распознавание регистров + + + +

Все формы слова Opt + + + Opt + +

Стоп-слова + + + + + + + + + + + + *1

Шаблон:

- одна или несколько букв * + + + + + + + + + +

- одна буква ? или % + + % +

- заменяющие знаки []

+ для стоп-слов +

Операторы поискового выражения

Базовые +,- + + + *2 + + + + + + + + + + *3 + + AND *4

Булевы AND, OR, NOT, () + + + *5 AND OR + + + + + + + + +

Расположения:

- фраза + + + + + + + ADJ + + + + + + *6 +

- в одном предложении + +

- рядом + + *l +

- перед + слов *8

- не дальше *9 + *10

- не ближе *10

- модификатор порядка + +

Указатели элементов страницы

- в заголовке м м + +м + +м + м +м +м +м

- в URL м + + + + м +м +м +

Характеристика AltaVista Anzwers M О и О < Direct Hit Excite Fast Google! HotBot Infoseek Inktomi Lycos Magellan msn Northern Light Snap Web Crawler Yahoo! Апорт! Rambler TELA-ПОИСК x e ■а я «

- в тексте, заменяющем рис. + м +

- в начале документа +

- в поле META KEYWORDS + +м м

- в ссылках (href) + + + +м

- в адресе +

- в описании + +м м +м

- поиск ссылок м м М + + + + +

- поиск ссылок на страницу из результатов + +

"Для взрослых" + *11 + + *12 + Opt +

Указатели типов и форматов данных + м *13м + + + + +

Поиск страницы с файлом изображения +м м + + +м

Язык + + + + + + + + + +м *14

Ограничения по времени + +м *15м + + + *16 + + +

Указатели области Web-пространства:

- регион + +

- страна + + + +

- домен или код страны +м + м + +м + + + + +

- сайт + М + + *17м + +м

- только Home страницы + + + + + +

- по одной страницы от сайта +

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

- глубина + + *18

Другие опции

Разрешить все формы слова + + *19 + +м

Управляющие слова

Управляющие слова (мета-слова) представлены в отдельной таблице + + + + + + + + + +

Шаблон в управляющих словах +

Параметры сортировки

Характеристика AltaVista Anzwers M О и О < Direct Hit Excite Fast Google! HotBot Infoseek Inktomi Lycos Magellan msn Northern Light Snap Web Crawler Yahoo! Апорт! Rambler TELA-ПОИСК x e ■a я «

Сортировать по дате + + + + +м +

Сортировать по заголовкам +

Сортировать по глубине +

Установка веса слова + + - i *20

Ключ. слова для ранжирования *21

Повторный поиск

Поиск "похожих" страниц + + + + + + + +

Связанный поиск + + + +

Предложение слов для включения в запрос +

Искать в найденном + *22 + +

Параметры формы представления результата

Группировка результатов + +/- +/- + + + + +

Вызов первых страниц + +

Показывать даты + + +

Размер заголовка

Размер описания

Весь документ +

Описание : полное (1), краткое (2); только URL (3), только заголовки (3) 1,2 4 1,3 3,4 2 1-3 1,4 3,4

Показать только кол. результов +

*- примечания к таблице:

0pt - по усмотрению пользователя;

м - задается управляющим (мета-) словом;

1 - не в строгом;

2 - отсутствие плюса или минуса эквивалентно оператору И;

3 - отсутствие плюса или минуса эквивалентно оператору ИЛИ;

4 - запятая эквивалентна операторам ИЛИ; значок ~ эквивалентен оператору

И в пределах предложения;

5 - оператор И реализуется не строго;

6 - не требуется точного совпадения;

7 - все слова в выражении;

8 - в количестве слов, предложений;

9 - 10-ти слов;

10 - по умолчанию 25 слов;

11 - нагота, насилие;

12 - порнография;

13 - тип данных и расширение;

14 - русский - не русский;

15 - только после указанной даты;

16 - последних п лет;

17 - сайт и каталог сервера;

18 - от 1 до 5 или все;

19 - для всех слов или знак @ - для каждого слова в отдельности;

20 - число или знак минус;

21 - эти же слова через оператор И участвуют в запросе, если их нет в поиско-

вом выражении;

22 - можно выбрать из найденного страницы, содержащие рисунки, аудио и ви-

део.

Список литературы.

1. http://www.searchenginewatch.com/reports/sizes.html

2. http ://www.searchenginewatch. com/webmaster/work.html

3. http://www.searchenginewatch.com/links/Metacrawlers.html

4. http ://www.searchenginewatch. com/webmaster/rank. html

5. Ч. Мидоу. Анализ информационно-поисковых систем. Издательство "МИР" Москва 1970. Стр. 39, 74.

Разделы Help поисковых машин:

6. http://doc.altavista.com/help/search/adv_help.shtml

7. http: //doc. altavista. com/adv_search/ast_toc. shtml

8. http://www.excite.com/info/

9. http://hotbot.lycos.com/help/

10. http://www.snap.com/LM0ID/resource/0,566,-137,00.html

11. http://www.northernlight.com/docs/search_help_power.html

12. http://www.webcrawler.com/Info/

13. http://www.lyco s. com/help/lycospro-help.html

14.

http://www.go.com/Help/help.html?key=HELP_T00011_ADVSRCH&ud9= ad-vanced_www

15. http://search.yahoo.com/search/help?

16. http://search.yahoo.com/search/syntax?

17. http://www.google.com/help.html

18. http://magellan. excite.com/magellan/Info/advancedtips.html

19. http://search.aol.com/help/index.adp

20. http://www.anzwers. com/cgi-bin/print_help.pl?

21. http://www.directhit.com/help/

22. http://search.msn.com/help_contents.asp?q=&RS=CHECKED&co=15

23. http://www.ussc.alltheweb .com/help. html

24. http://www.comptek. ru/yandex/alta_help.html

Разделы "Помощь " поисковых машин:

25. http://www.rambler.ru/new/help. shtml

26. http://www.aport.ru/WINP/help.htm 2 7. http://tel a.dux .ru/tela_help. html

28. http://www.aport.ru/WINP/help.htm Раздел "Справка".

i Надоели баннеры? Вы всегда можете отключить рекламу.