Начало данной публикации смотри в http://zhumal.ape.relarn.ru/articles/2000/042.pdf
ТЕХНОЛОГИИ РАБОТЫ В WEB-ПРОСТРАНСТВЕ ИНТЕРНЕТ Часть IV. Поисковые машины. Глоссарий
Адамович И.М., Пешков А.Н. ([email protected]) Институт проблем информатики РАН
В этой части статьи приводится толкование терминов, использованных при описании языков поисковых машин (ПМ). Кроме этого, мы сочли полезным включить в глоссарий также и толкования других наиболее употребительных характеристик ПМ, а также привести выдержки из описаний (help) поисковых машин.
Понятие Значение Пример использования
Общие характеристики ПМ
Дата начала работы Established date Дата объявления о начале работы ПМ
Встроенная директория Embedded Directory Наличие директорий, встроенных в сайт ПМ Embedded Directory - Does the Search Engine contain an embedded directory in their site
Индекс Index Индекс, на котором базируется ПМ. ПМ может иметь собственный индекс или пользоваться индексом другой ПМ. Из рассмотренных нами ПМ 6 полностью или частично пользуются индексом Inktomi.
Время поиска Search time Время поиска страниц, соответствующих запросу и подготовки результатов поиска
Зеркальные сайты Наличие дублирующих сайтов, позволяющих сократить время реакции системы
Функция портала для других ПМ Возможность обратиться к другим ПМ со страницы данной ПМ
Максимальное количество результатов Максимальное количество результатов (найденных страниц), которое можно получить по одному запросу
Подписка на запрос Почтовая подписка на получение сведений о появлении новых страниц по заданной тематике или обновлении старых Вы хотите узнавать, когда в Сети появляется новая информация на интересующую Вас тему? Яndex предлагает Вам новую услугу - почтовую подписку на поисковый запрос. Если Вы занимаетесь маркетин-
Понятие Значение Пример использования
гом, то подписка на запрос, состоящий из названия Вашей компании (торговой марки, продукта, фамилии директора) поможет решить для Вас задачу пресс-клиппинга - подборку опубликованных материалов, касающихся деятельности компании. Но в нашем случае поиск будет идти не по бумажной прессе, а по всему русскому Интернету (где, кстати, зачастую размещают электронные копии изданий). Если Вы фанат поп-группы или футбольной команды, то Вы сможете узнавать, когда в Интернете появятся обновленные или новые страницы о предмете Вашей страсти.
Характеристики "индекса"
Глубина индексирования Spider Class Глубокое индексирование -индексирование всех страниц сайта независимо от количества уровней по ссылкам, которые необходимо пройти. Мелкое (поверхностное) индексирование - или индексирование данной страницы, или еще страниц, найденных на один уровень ниже по ссылкам. A deep spider will take a url and spider all of the pages within the site, no matter how many levels of directories it needs to traverse. A shallow spider can do one of two things, it can either spider the url given and stop, or only spider those urls it finds within a single level of directories.
Количество страниц в индексе URL's number Количество страниц, которые проиндексированы данной ПМ
Период обновления Index build time Период времени, закоторый полностью обновляется индекс
Немедленная индексация Instant Indexing Ограниченный и достаточно короткий промежуток времени, в течение которого индексируется страница по заявлению ее хозяина At an instant indexing search engine, usually any page you submit will appear within a day or two after submission.
Дифференцированный период обновления индекса Learns Frequency Изменение периода обновления индекса страницы в зависимости от частоты обращения к ней A number of search engines can learn how often pages change. Pages that change often may be visited more frequently.
Защита от обманных приемов повышения рейтинга страницы (spoof, spam) Некоторые недобросовестные владельцы сайтов с целью увеличения рейтинга используют искусственные приемы увеличения вероятности попадания страниц своего сайта в результаты поиска, например, вставляют популярные слова невидимым Some people like to make documents that maliciously "spoof" search engines into returning documents that are irrelevant to the search at hand or that rank higher than they should. They may do this by duplicating words thousands of times in comments or keywords, or
Понятие Значение Пример использования
текстом или используют приемы автоматической отсылки к другим страницам сайта (используя тег Meta Refresh). Некоторые ПМ распознают такие приемы и снижают показатель релевантности таких страниц. by including large numbers of "invisible" words in a tiny font or in the same color as the background of the document. If ANZWERS recognizes a common spoofing technique it will rank that document lower. Spoofing also lowers a document's ranking in ANZWERS by making the document longer. Meta Refresh Some site owners create target pages that automatically take visitors to different pages within a web site. See the What Is A Bridge Page article for more information about this. The meta refresh tag is one typical way of doing this. Some search engines will refuse to index a page with a high meta refresh rate.
Кэширование страниц Web pages cache Хранение копий страниц в памяти ПМ на случай, когда сервер сайта временно недоступен. "Cached link" - вызов содержания страницы из кэша, пользователь получает текст страницы по состоянию на момент индексации The "Cached" link After the URL is a cached link. If you click on this you will see the contents of the web page as of the time we indexed it. For websites with fast-changing content, such as news sites, the current contents of a web page may not be a good match for your query. The cached content is the content Google used to judge this page a good match for your query. The cached link will be missing for sites that have not been indexed, as well as for sites whose owners have asked us to remove the cached content. If you click on the cached link, the resulting page will have some HTTP header information at the top. The information may be interesting in itself -- the dates can tell you how old the cached content is -- but more importantly it reminds you that this is a cached version of the page and not the page itself.
Страница заявки на индексирование Submission URL Страница, предназначенная для ввода данных заявки, на индексирование новой страницы Submission URL - This will be the url you need to submit your url to this search engine.
Язык запроса
Способы формирования поискового выражения
Запись поискового Запись поискового выражения
Понятие Значение Пример использования
выражения в одном окне в виде строки, содержащей операнды (ключевые слова, фразы и мета-слова), связанные операторами булевой алгебры или их модификациями
Меню Advanced Search page, Boxes Поисковое выражение формируется при помощи диалоговых средств: полей ввода ключевых слов и меню. Пример меню интерпретации наборов ключевых слов. 1-й вариант: All the words Any of the words The exact phrase The page title The person (names?) Links to this URL The Boolean phrase All forms of words 2-й вариант: Must contain Should contain Must not contain 3-й вариант: The words The phrase The person С помощью меню и полей ввода могут формироваться и другие критерии отбора страниц.
Интерпретация ключевых слов
Распознавание регистров Case sensitivity Чувствительность к верхнему регистру: нижний - любой, верхний - как написано.
Все формы слова Stemming Возможность поиска грамматических вариантов ключевого слова (слов с тем же корнем).
Стоп-слова Stop words Слова, не учитываемые при поиске - артикли, предлоги и т.п. Conjunctions, prepositions and articles and other words such as AND, TO and A that appear often in documents yet alone may contain little meaning. Northern Light will look for all sites in our database that contain all of your search terms. Common words in the search, such as is, a, for, in, and the, will not affect the number of results returned for your search, but they will affect the relevance of those results.
Понятие Значение Пример использования
Шаблон Truncation: Для тех случаев, когда неизвестно, как может быть написано ключевое слово в тексте страницы, или пользователя удовлетворяет любая форма ключевого слова (например, любой ее падеж) используется усечение слов
* - одна или несколько букв На месте звездочки может быть одна или несколько любых букв
? или % - одна буква На месте знака может быть одна любая буква
[a,b,...] - заменяющие знаки [] - в скобках знаки (символы, буквы), которые могут быть на месте предшествующего знака
+ для стоп-слов + перед стоп-словом означает, что это слово не надо игнорировать при поиске
Шаблон в управляющих словах Возможность использования шаблона в управляющих словах По запросу иг1=*.а§аша.сош будут выданы все документы, проиндексированные Апортом на серверах www.agama.com, russia.agama.com и т.д.
Операторы поискового выражения
Базовые +,-Basic search + - присутствие слова в искомом тексте обязательно, - - слова не должно быть в искомом тексте
Булевы Boolean operators Операторы булевой алгебры: И (AND), ИЛИ (OR), НЕ (AND NOT), () - скобки для образования приоритетных групп
Булевы модифицированные: Модифицированные операторы булевой алгебры (операторы расположения)
- Фраза (словосочетание) Phrase Последовательность слов, заключенная в кавычки. Искомый текст должен содержать точную (в некоторых случаях допускаются определенные отклонения) копию этой последовательности слов. Внутри фазы операторы не распознаются
-В ОДНОМ ПРЕДЛОЖЕНИИ Равносильно AND, но искомые слова должны находиться в одном предложении
Понятие Значение Пример использования
- РЯДОМ (ADJ) Рядом в любом порядке ADJ - to find documents in which the terms appear right next to each other, in any order
- ПЕРЕД (BEFORE) Равносильно AND, но слова должны располагаться в определенном порядке BEFORE works like the familiar AND, the only difference being that the terms must appear in the order you specify
- НЕ ДАЛЬШЕ (NEAR) Расстояние максимальное, задается в фиксированном количестве слов (или символов) (2, 10, 25) или количество задается пользователем NEAR (or concatenation) - the terms must appear within 25 words of each other. (Lycos) By default, the NEAR and FAR operators use a word count of 25 to ensure that search terms appear the proper distance from one another. You can modify this behavior by appending a slash ("/") to either operator, followed by some number you choose as the maximum or minimum word count between search terms - search terms appear 25 words or more in at least one instance. Yahoo! Deja.com: Syntax: <keyword1> A<distance> <keyword2> The <distance> value specifies how many characters away the second keyword should be from the first in order for the search engine to return a match. If <distance> is unspecified, as in <key-word1 > A <keyword2>, a default distance of 5 characters is assumed. By default, the NEAR and FAR operators use a word count of 25 to ensure that search terms appear the proper distance from one another. You can modify this behavior by appending a slash ("/") to either operator, followed by some number you choose as the maximum or minimum word count between search terms.
- НЕ БЛИЖЕ (FAR) Расстояние минимальное, задается в фиксированном количестве слов (или символов) (2, 10, 25) или количество задается пользователем FAR (см. не дальше)
- модификатор порядка Указывает на то, что слова, связанные операторам РЯДОМ, НЕ ДАЛЬШЕ и НЕ БЛИЖЕ в тексте должны располагаться в "O" Brings Some Order to ADJ, NEAR and FAR Of the operators that reveal the relationship between terms by
Понятие Значение Пример использования
том же порядке, что и в поисковом выражении evaluating their positions in a document, only BEFORE is concerned with the order in which they appear. But you can add BE-FORE's ordering capabilities to ADJ, NEAR and FAR by pre-pending those operators with the letter "O" -- for ordered. So, race OADJ car will match only race car and not car race. (Note that this would not exclude documents containing the phrase car race if they also contained the phrase you seek.) Similarly, ONEAR and OFAR work like their NEAR/FAR cousins but result in matches only when search terms appear in the same order you type them.
Указатели элементов страницы Fields Критерии поиска, показывающие в каком структурном элементе страницы должны находиться ключевые слова
- в заголовке Будут найдены страницы, содержащие заданное слово или выражение в заголовках (Тег Title).
- в URL URL Searching Будут найдены страницы, содержащие заданные слова в текстах ссылок Ограничение поиска одним или несколькими серверами, или даже частью сервера. Вот несколько примеров. Пример 1 . Запрос: url=www.intel.ru По этому запросу будут выданы все документы, проиндексированные Апортом на сервере www.intel.ru. В этом случае документы пока выдаются в случайном порядке. Пример 2. Запрос: url=www.intel.ru & IPI & условия По этому запросу будут выданы все документы, сервера www.intel.ru, содержащие слова "IPI" и "условия". Пример 3. Запрос: url=www.intel.ru/IPINet/* По этому запросу будут выданы все документы, проиндексированные Апортом на сервере www.intel.ru в каталоге IPINet и его подкаталогах. Пример 4. Запрос:
Понятие Значение Пример использования
url=*.agama.com По этому запросу будут выданы все документы, проиндексированные Апортом на серверах www.agama.com, rus-sia.agama.com и т.д.
- в тексте, заменяющем рисунок Будут найдены страницы, содержащие заданное слово или выражение в полях ALT (комментарии к картинкам)
- в начале документа Будут найдены страницы, содержащие заданное слово или выражение в некотором начальном отрезке текста документа
- в поле META KEYWORDS Будут найдены страницы, содержащие заданное слово или выражение в поле META KEYWORDS
- в ссылках href Будут найдены страницы, содержащие заданные слова в текстах гиперссылок (на ресурс Internet, файл на локальном диске или метку внутри страницы)
- в адресе Будут найдены страницы, содержащие заданное слово или выражене в поле META ADDRESS Можно искать информацию в " зонах" - ... и адресе (имя " зоны": Address)
- в описании Будут найдены страницы, содержащие заданное слово или выражение в поле META ABSTRACT или META DESCRIPTION
- поиск ссылок Link search Поиск страниц, содержащих ссылки на страницу с заданным URL Google: The query link: <url> shows you all the backlinks for a given URL - that is, what pages point to that URL. For example, link:www.google.com will show you all the pages that point to Google's home page.
- поиск ссылок на страницу из результатов Поиск страниц, содержащих ссылки на страницу, указанную в списке результатов
"Для взрослых" ... Возможность запрета включать в ответы страницы, содержащие не рекомендованные для детей сведения
Указатели типов и форматов данных Ограничивают область поиска страницами, содержащими определенный тип данных. Тип данных можно задать с помощью меню или радиокнопок: Image, Audio, MP3, Video, Return only pages containing the specified media types or technologies. Image, audio, MP3, video, Shockwave, Java, JavaScript, ActiveX, VRML, Acrobat, VB
Понятие Значение Пример использования
Shockwave, Java, JavaScript, ActiveX, VRML, Acrobat, VB Script, Win Media, RealAudio/Video. Другой способ задания типа данных - указание расширения встроенного файла данных Script, Win Media, RealAudio/Video. Extension: (exs. (.gif))
Поиск страницы с файлом изображения Поиск документов, содержащих изображения, в именах файлов которых встречается заданное слово Поиск документов, содержащих картинку с определенным названием. Файл картинки может называться, например, ap-plegreen.jpg. Тогда найти такие файлы можно запросом: apple. Запрос аналогичен apple*.*.
Язык Ограничивает область поиска страницами, написанными на указанном языке Viewing your search results in your native language: Using the Language pull-down menu in the search box, you can find all the documents on the Web about a given topic, originally written in a specific language. This type of search excludes Web sites written in other languages so that you can make your search even more exact. NOTE: this feature is only available for web page searches.
Ограничения по времени Ограничивает поиск страницами, созданными или измененными в указанный промежуток времени
Указатели области Web-пространства Placement:
- регион Центральная Америка, ближний восток, Азия и т.п. Central America, Europe, Middle East
- страна
- домен или код страны Ограничивает поиск заданным именем домена или кодом страны Ограничивает поиск домашними страницами, персональными или задает глубину поиска в сайтах
- в сайте Site search Ограничивает поиск заданным сайтом
Только главные страницы Home pages Ограничивает поиск только главными (домашними) страницами Control what types of pages are searched within each Web site: Any Page, Top Page, Personal Page, Page Depth.
По одной странице от сайта В результаты включаются не более одной страницы от каждого сайта Clustering allows only one page per site to be represented in the top results.
Понятие Значение Пример использования
This means that you get more variety and a better chance of quickly finding something of interest.
Глубина Ограничение поиска заданным количеством вложений в поддиректории сайта, считая от корневой To avoid repetitive search results, you can use the Document directory depth option to limit the number of subdirectories that are searched in each domain. When you enter a search query, sites are searched from their root directory (domain) to the number of subdirectories defined in the document directory depth option. You can select up to four subdirectories.
Другие опции
Разрешить все формы слова Поиск грамматических вариантов ключевого слова (слов с тем же корнем) Search for grammatical variations of your search term. Ex: Searches for "thought" will also find "think" and "thinking." The process of removing prefixes and suffixes from words in a document or query in the formation of terms in the system's internal model. This is done to group words that have the same conceptual meaning, such as WALK, WALKED, WALKER, and WALKING. Hence the user doesn't have to be so specific in a query. The Porter stemmer is a well-known algorithm for this task.
Управляющие слова Meta words Форма задания ограничений, которая позволяет отнести ограничения к отдельным операндам поискового выражения. Управляющие слово - это пара: ключевое слово: параметр, разделенная двоеточием без пробелов. Например, управляющее слово title обеспечивает поиск в заголовке, т.е. запрос, содержащий title:president приведет к получению документов со словом president в их заголовках. Управляющие слова могут определять домен, глубину поиска страниц относительно Home page в сайтах, форматы данных, имена и расширения файлов, новости, Java или VBS скрипты, заго- Meta words are short cuts that allow experienced searchers to use HotBot's non-text search features from the main text box. A Meta word is a keyword:value pair, separated by a colon (with no spaces). For example: the title keyword finds values in the titles of Web pages, so a search containing the meta word title:president will return documents with the word president in their titles. It is important to understand that HotBot treats Meta words as words, not as commands that effect the entire search. So the search title: president Nixon will return documents with the "president" in the title and "Nixon" in
Понятие Значение Пример использования
ловок, временной период. the body of the document. Furthermore, all of the advanced search modifiers can be used with meta words. For example: -feature:image +title:president Nixon will return pages that must not contain images, do have "president" in their title and may have the word "Nixon" in them. Infoseec: author:Twain
Управление представлением результатов
Форма представления результата
Макс. кол. описаний на странице Results At A Time Количество результатов, которые предоставляются одновременно (в одной странице результатов) Обычно предлагается набор вариантов, например: 10, 20, 50, 100
Группировка результатов Results Clustering Группировка результатов обеспечивает включение в ответ не более одной страницы от сайта
Вызов первой страницы Включение этой опции приводит к тому, что на экран сразу выводится первая страница из списка найденных Google's "I'm Feeling Lucky"
Показывать даты Вывод даты создания или последнего изменения документа Along with the page description, some search engines show the date when a web page was created or modified.
Размер заголовка Title Size Максимальный объем заголовка в символах (60 - 115)
Размер описания Summary Size Максимальный объем краткого содержания в символах (150 -395)
Весь документ Показывать каждый найденный документ целиком.
Показать только количество результатов Показать только общее количество найденных страниц
Параметры сортировки
Сортировать по дате Sort By Date По умолчанию пользователю представляется список результатов, отсортированный по релевантности. Опция "Сортировать по дате" позволяет получить список результатов, отсортированный по дате создания или последнего изменения страницы
Понятие Значение Пример использования
Сортировать по заголовкам Эта опция позволяет получить список результатов, отсортированный по заголовкам в алфавитном порядке
Сортировать по глубине Сортировать по положению страниц в поддиректориях сайта Depth ascending sorts results by directory hierarchy. Those results that are closest to the root or domain are first. Results that are located several directories deep within a domain are displayed last.
Установка веса слова Число, поставленное в конце ключевого слова, трактуется ПМ, как весовой коэффициент, который учитывается при вычислении показателя релевантности страницы. Больший показатель релевантности будет иметь страница, в которой (при прочих равных условиях) встречается слово с большим весовым коэффициентом. Задание веса слова или выражения применяется для того, чтобы увеличить релевантность документов, ^держащих "взвешенное" выражение. Синтаксис: слово:число или (поисковое выражение):число По запросу 'поисковые механизмы:5' будут найдены те же документы, что и по запросу 'поисковые механизмы'. Разница состоит в том, что наверху списка найденного окажутся документы, где чаще встречается именно слово 'механизмы'. Запрос 'поисковые (механизмы | машины 1 аппараты):5 'равнозначен запросу 'поисковые (механизмы.:5 1 машины:5 | аппараты:5)'
Ключевые слова для сортировки Перечень слов, которые при вычислении показателя релевантности будут иметь больший вес, чем остальные
Содержание страницы результатов
Время поиска Search time Время, затраченное ПМ на на обработку запроса
Количество найденных страниц Number of found matches, Number of results Число, показывающее, сколько всего страниц, соответствующих запросу, нашла ПМ
Количество серверов Количество серверов, в которых найдены страницы, соответствующие запросу
Непосредственно до- На странице результатов
Понятие Значение Пример использования
кументы представляются сами найденные страницы
Таблица "список серверов" Список адресов сайтов в порядке их появления в списке результатов. Поддерживаются функции: исключить из результатов поиска - все документы указанного сервера; - открыть заглавную страницу сайта, на котором был найден один из наиболее соответствующих запросу документов; - индикация количества найденных документов, принадлежащих каждому сайту. В этом списке приведены адреса сайтов (не более десяти) в порядке их появления в списке найденного. Если Вы нажмете на крестик слева от имени сервера, все документы этого сервера будут исключены из результатов поиска. Нажав на значок О, Вы откроете в новом окне заглавную страницу сайта, на котором был найден один из наиболее соответствующих Вашему запросу документов. Число красного цвета показывает количество найденных документов, принадлежащих данному сайту
Подсвечивание слов запроса, которых нет в индексе Слова запроса, которые ПМ не нашла в индексе, после возвращения результата выделяются другим шрифтом или цветом
Статистика слов Для каждого слова поискового выражения приводится число раз его присутствия в проиндексированных данной ПМ страницах
Разделы списков результатов: Результаты группируются в следующих разделах
- популярные страницы Страницы, к которым чаще обращаются For our most popular search terms and topics, we have put together a group of links designed to give you the content you want in a quick and efficient manner. You'll see this at the top of the search results page under the heading Popular, and we think you'll find it to be a great resource for speedy answers. This section will not come up for every search, but the Lycos search team will review our search records on a daily basis and gather the most popular links to meet the needs of our customers.
- "строгие" результаты Документы, точно соответствующие поисковому выражению Статистика документов состоит из общего числа найденных документов и числа документов, соответствующих строгому запросу (имеется в язык запросов Yandex.Ru). При этом "строгие" документы в списке найденного
Понятие Значение Пример использования
идут всегда сверху. Если не был найден ни один документ, полностью соответствующий строгому запросу, выдается предупреждение.
- "нестрогие" результаты Документы, соответствующие поисковому выражению приблизительно
- Web directory Страницы, найденные ПМ в собственной директории
- Web directory sites Сайты, найденные ПМ в собственной директории
- Web Pages (Sites) Страницы, найденные ПМ в Web
Содержание описаний страниц
Дата Date Displayed Дата создания или последнего изменения страницы
Показатель релевантности Core Relevancy level Число, показывающее степень релевантности документа, чаще выражается в % или от 0 до 1000
Заголовок Заголовок документа. При отсутствии заголовка приводится его реконструкция по различным правилам
Краткое содержание Brief summaries Обычно это содержимое мета тегов description и abstract
Фрагмент документа Иногда приводится фрагмент, содержащий ключевые слова
Реконструкция текста По информации, содержащейся в индексе, приблизительно восстанавливается часть документа, дающая близкое к истине представление о содержании документа
Подсвечивание найденных слов Highlighting Выделение цветом, фоном или шрифтом поисковых терминов в тексте документа или его фрагменте
Адрес URL Адрес страницы во всемирной паутине (WWW). Первая часть, до двоеточия - протокол доступа к странице; вторая часть -после двух слешей - имя сервера, обеспечивающего доступ к странице; третья - после первого слеша - путь к странице внутри сервера Uniform Resource Locator (URL) The address of a page on the World Wide Web. A URL has this form: "http://www.nlsearch.com/search.h tml" The first part, before the colon, indicates which protocol to use when retrieving the page. The second part, after the two slashes, is the name of the server that is providing the page. The last part is the
Понятие Значение Пример использования
path for the page itself.
Тип данных Рисунок, аудио, видео и т. п.
Ссылка "Facts about..." Вызывает страницу с данными о компании - хозяине сайта и карта, на которой показано ее географическое положение
Формирование ответа
Включение не проиндексированных страниц В список результатов включаются адреса непроиндексиро-ванных страниц, на которые имеются ссылки в найденных страницах The first line of the result is the page title. Sometimes, instead of a title there will be a URL. This means that we have not yet indexed the web page we're returning, so we don't know its title. It may also mean that the page's author has not given the page a title. We still know it's a good match because of other web pages -- which we have indexed -- that have links to the returned page. If the text associated with these links matches your query, we may return the page as a result even though it has not been indexed.
Способы интерпретации запроса
Обычная Ключевые слова ищутся в документах с учетом операторов поискового выражения и значений мета-слов
Как фраза Набор слов без операторов интерпретируется как фраза Слова, которые часто встречаются в предложениях вместе, интерпретируются некоторыми ПМ, как "фраза", даже если они не были заключены в кавычки Today, the software behind Main Search tries to anticipate what you want and get you there as quickly and easily as possible, including generating phrases automatically. If you enter several words in the query box which often appear together as a phrase, the software presumes that you meant them as a phrase, even though you did not put quotation marks around them.
"Концепция запроса" Concept-based search mechanism, Intelligent Concept Extraction Ищет в соответствии с идеями и представлениями, построенными в результате анализа сочетаний слов в запросе. Например, Magellan использует Intelligent Concept Extraction для нахождения связи между словами и идеями, т.о. результат содержит слова, имеющие отно- Search for ideas and concepts instead of just keywords, using more than one word in your search. Magellan uses Intelligent Concept Extraction (ICE) to find relationships that exist between words and ideas, so the results of a search will contain words related to the concepts you're searching for.
Понятие Значение Пример использования
шение к искомому представлению.
"Нестрогое" выполнение операторов Для того чтобы повысить вероятность попадания в ответ действительно нужных документов, некоторые ПМ к результатам, точно соответствующим поисковому выражению, добавляют и результаты им соответствующие частично. Например, при выполнении запроса слово1 AND слово2 в конец ответа добавят и страницы, соответствующие выражению слово1 OR слово2
Факторы релевантности Факторы, используемые при вычислении показателя релевантности
В первых словах First few words Искомые слова найдены в нескольких первых словах страницы The query terms are found in the first few words
Слова рядом Close proximity Искомые слова в тексте документа расположены рядом The query terms are found in close proximity
Слова близко Если слова из поискового выражения находятся близко друг к другу, это повысит значение показателя релевантности в сравнении со случаем, когда они расположены далеко. Not only do Google's results contain all of your search terms, but Google also analyzes the proximity of those terms within a page. Unlike many other search engines, Google prioritizes results according to the proximity of search terms. We favor results with your search terms in close proximity, so you spend less time sifting through irrelevant results.
Больше найдено слов More of the search terms Документ содержит больше искомых слов, чем другие The document contains more of the search terms than other documents
Ключевые слова для сортировки Результаты сортируются в первую очередь по наличию этих слов Type tango waltz in the Search box. This step orders the cooking documents so that tango and waltz appear at the top of your results
Установленные веса слов Число, поставленное в конце ключевого слова, есть весовой коэффициент, который учитывается при определении релевантности страницы. Больший показатель релевантности будет иметь страница, в которой (при прочих равных условиях) встречается слово с большим весовым коэффициентом. Задание веса слова или выражения применяется для того, чтобы увеличить релевантность документов, ^держащих "взвешенное" выражение. Синтаксис: слово:число или (поисковое выражение):число По запросу 'поисковые механизмы:5' будут найдены те же документы, что и по запросу
Понятие Значение Пример использования
'поисковыемеханизмы'. Разница состоит в том, что наверху списка найденного окажутся документы, где чаще встречается именно слово 'механизмы'. Запрос 'поисковые (механизмы | машины | аппараты):5 ' равнозначен запросу 'поисковые (механизмы,:5 1 машины:5 | аппараты:5)'
Частота искомых слов в языке Word frequency Чем чаще слово встречается в индексе, тем меньше его вес при определении релевантности In general, the more often a query word occurs in the document, the higher the score. However, the obscurity of the word also has an impact. Common words like "the" contribute less to the score than rare and distinctive words like "tiki."
Частота искомых слов в тексте Отношение количества найденных слов к общему количеству в документе. Частота повторения искомых слов в документе увеличивает показатель релевантности. Редкие слова больше увеличивают показатель релевантности, чем простые, часто встречающиеся.
Слово в заголовке Words in title Слово, найденное в заголовке, придает больше релевантности, чем слово в тексте
Слово в поле META KEYWORDS Words in keywords META tag Слово, найденное в поле META KEYWORDS, придает больше релевантности, чем слово в другой части текста
В том же порядке Искомые слова расположены в тексте в том же порядке, что и в запросе
Длина документа Document length Короткий документ будет ранжирован выше, чем длинный с такой же частотой появления слов A short document that repeats your search words frequently will be ranked higher than a long document that repeats the words just as frequently.
Обманные приемы повышения рейтинга страницы Spoofing, Spam Обнаружение таких приемов резко снижает показатель релевантности
Представление в директории Reviewed Status Сайты, представленные во встроенной директории, могут иметь больший показатель реле-
Понятие Значение Пример использования
вантности
Кол-во ссылок на страницу Link Popularity Чем больше ссылок на страницу, тем больше ее показатель релевантности. Ссылки от более "важных" страниц также его увеличивают All search engines can determine the popularity of a page by analyzing how many links there are to it from other pages. Some engines give pages with lots of links, or links from important web sites, a relevancy boost
Количество обращений Чем чаще пользователи обращаются к информации о данной странице в результатах поиска, и чем он больше времени проводит в том сайте, тем больше ее показатель релевантности. Direct Hit is a system which monitors the search engine users' selections from search engine results, counting which results are clicked on most, and how long visitors spend at that site, so as to improve relevancy. (Used by HotBot and as a plug-in to Apple's new innovative Sherlock search system).
Продолжение поиска и обработка результата
Поиск "похожих" страниц Find Similar Pages, More Like This, Scout link Обычно рекомендуется выбрать наиболее подходящую страницу из найденных и запустить эту функцию. ПМ подбирает страницы близкие по тематике, "похожие", "имеющие отношение" к теме указанной страницы уже вне формальной зависимости от поискового выражения. If you find that one of the many returned results better describes what you're looking for, click on the words "More Like This" next to the title of the article. AOL NetFind will then use that document as an example of what else to look for, to find more sites similar to the one you liked. This particularly powerful feature finds the most relevant Web sites for you. Если один из найденных документов ближе к искомой теме, чем остальные, нажмите на ссылку "найти похожие документы" (она расположена под кратким описанием этого документа). Яndex проанализирует страницу и найдет документы, похожие на указанный Вами.
Связанный поиск Related Search После выполнения поиска пользователю предлагается нескольких новых сформированных автоматически поисковых выражений. Эти поисковые выражения составлены с использованием слов, включенных в выполненный запрос, и слов "связанных" с ними Launch a new search, using the terms you click on Related Searches are additional topics that are related to your original search request. You can research these additional topics simply by clicking on them. The Related Searches allow you to quickly broaden or narrow your search request in ways that other
Понятие Значение Пример использования
searchers have found useful. We generate the Related Searches by analyzing the search requests submitted by millions of previous searchers. Each of the Related Searches is a topic that has proven popular with other searchers and useful in locating relevant information.
Use a Related Search used by Many Other People with Similar Needs Near the bottom of your AOL Search results page you probably find a list of related searches. These are popular searches done by other searchers that share some of your search terms. Its great for figuring out which aspect of a subject you are interested in. For example, if you searched on the single word baseball, you might see the following: People who searched for baseball also searched for:_Baseball Hall of Fame | Major League Baseball | fantasy baseball | college baseball |ncaa baseball | baseball
Предложение слов для включения в запрос После получения результатов поиска ПМ предлагает список слов, "имеющих отношение" к тем, которые были включены в поисковое выражение
Искать в найденном Search within Искать по новому запросу в результатах предыдущего Search within one set of results for another keyword
Открыть первые пять ссылок Показать первые пять документов
По одной странице от сайта В список результатов включается по одной странице от каждого сайта
Группировка по сайтам View grouped search results После выполнения этой функции результаты будут расположены не в порядке значений показателей релевантности, как первоначально, а сгруппированы по принадлежности к сайтам When several pages from the same Web site match your search, the Web Search Results area groups the pages under a single title and description. Grouping Web pages makes sure the Web Search Results area displays a wider variety of listings from many sources instead of from just one Web site. You can tell which re-
Понятие Значение Пример использования
sults contain grouped results; a result that contains grouped results has a link at the end of it that looks like this:
More results from abcdefg.com You can explore the grouped Web pages in more detail by ungrouping the results. You can either ungroup all of the results in your current search, or you can ungroup the results from a single Web site. To ungroup all of the results in your current search, click the Un-group Results link in the Web Search Results area. To see all the results from a single Web site, click the More Results link in the result.
Перевод результатов на другой язык Предлагается на выбор несколько языков, на которые может быть переведена страница результатов
Перевод запроса на другой язык Предлагается на выбор несколько языков, на которые может быть переведен текст запроса
Сортировать по дате После выполнения этой функции результаты будут расположены не в порядке значений показателей релевантности, как первоначально, а по порядку дат создания или последнего изменения
Спрятать краткие описания Краткие описания не будут показаны на странице результатов
Показать результаты только этого сайта На странице результатов будет показан список найденных страниц, принадлежащих только сайту, указанному пользователем в списке результатов
Сохранение результатов Возможность сохранения запроса и результатов для дальнейшего использования If you are using Internet Explorer 5, you can save both the results of a search and the search text for later use. 1. In the search results list, click the disk icon Hnext to the site that you want to save. Once you save at least one site in a search, you can link to the saved site or repeat the search by clicking Saved Results in the top
Понятие Значение Пример использования
navigation bar.
Функции интерфейса для других ПМ
Морфологическая обработка запроса Функция, реализующая поиск всех форм слова путем автоматического добавления к каждому ключевому слову в поисковом выражении всех грамматических форм этого слова через операнд OR Вы можете искать необходимую информацию в Internet с помощью поискового сервера AltaVista и с учётом морфологии русского языка , обращаясь к нашему словарному серверу Яndex.Dict. Например, если задан запрос "идти", то в результате поиска будут найдены ссылки на документы, содержащие слова "идти", "идет", "шел", "шла" и т. д. На запрос "окно" будет выдана информация, содержащая и слово "окон", а на запрос "отзывали" - документы, содержащие слово "отозвали". ^ndex).
Учет словосочетаний Сокращение вариантов грамматических форм при реализации поиска всех форм слова путем автоматического учета возможных сочетаний слов в языке В этом режиме поисковый запрос трактуется как фраза на на естественном языке. При этом поиск становится более релевантным, поскольку находится гораздо меньше "мусора", так как учитываются синтаксические связи между словами запроса. Также происходит частичное снятие омонимии: например, в случае задания поисковой фразы после бала предлог после не будет считаться формой слова посол и последнее не будет дано для поиска во всех формах. ^ndex).
Морфологический разбор запроса Выдача протокола морфологического анализа всех ключевых слов поискового выражения. Для каждого слова приводятся все варианты его морфологического разбора. Если выбран режим "разбор запроса", то при нажатии на кнопку "ПОИСК!" на экран выдаётся протокол морфологического анализа всех слов запроса (из поля "Запрос"). Для каждого слова приводятся все варианты его морфологического разбора. Для каждого варианта разбора указаны все его грамматические характеристики. Если слово отсутствует в словарях системы, то она генерирует гипотетическую модель словоизменения этого слова. (flndex).