Научная статья на тему 'Обзор современных поисковых систем: архитектура, инструменты поиска'

Обзор современных поисковых систем: архитектура, инструменты поиска Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
4153
347
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ПОИСКОВЫЕ СИСТЕМЫ / АРХИТЕКТУРА ПОИСКОВЫХ СИСТЕМ / ИНСТРУМЕНТЫ ПОИСКА / МЕТА-ПОИСК / ПОИСКОВЫЕ КАТАЛОГИ / ПОИСКОВЫЙ АГЕНТ / ПОИСКОВЫЕ УТИЛИТЫ / SEARCH ENGINES / THE ARCHITECTURE OF SEARCH ENGINES / SEARCHING TOOLS / META-SEARCH / RETRIEVAL DIRECTORIES / THE RETRIEVAL AGENT / RETRIEVAL UTILITIES

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Липкин Ю. Г.

В статье рассматриваются современные средства поиска информации, представленные в сети Internet. Принципиально излагается архитектура и особенности работы поисковых ресурсов. Акцентируется внимание на мета-поисковые системы, необходимость использования языка запросов и учета стилистических особенностей языка разыскиваемого информационного контента

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The browse of modern search engines: the architecture, searching tools

The modern means of information search presented to networks Internet are considered. Feature of work and architecture of search resources is essentially stated. The attention to meta-search systems, necessity of use of language of inquiries and the account of stylistic features of language of searched information content is paid

Текст научной работы на тему «Обзор современных поисковых систем: архитектура, инструменты поиска»

Поисковые системы

и информационные

технологии

ь

>

ю.г. липкин,

к.м.н., доцент кафедры медицинской кибернетики и информатики РГМУ им. Н.И. Пирогова, г. Москва, mc7@rsmu.ru

ОБЗОР СОВРЕМЕННЫХ ПОИСКОВЫХ СИСТЕМ: АРХИТЕКТУРА, ИНСТРУМЕНТЫ ПОИСКА

УДК 025.4.03

Липкин Ю.Г. Обзор современных поисковых систем: архитектура, инструменты поиска (Кафедра медицинской кибернетики и информатики РГМУ им. Н.И. Пирогова)

Аннотация: В статье рассматриваются современные средства поиска информации, представленные в сети Internet. Принципиально излагается архитектура и особенности работы поисковых ресурсов. Акцентируется внимание на мета-поисковые системы, необходимость использования языка запросов и учета стилистических особенностей языка разыскиваемого информационного контента

Ключевые слова: поисковые системы, архитектура поисковых систем, инструменты поиска, мета-поиск, поисковые каталоги, поисковый агент, поисковые утилиты UDC 025.4.03

Lipkin Yury G. The browse of modern search engines: the architecture, searching tools (Chair of medical cybernetics and computer science of Pirogov Russian State Medical University)

Abstract: The modern means of information search presented to networks Internet are considered. Feature of work and architecture of search resources is essentially stated. The attention to meta-search systems, necessity of use of language of inquiries and the account of stylistic features of language of searched information content is paid Keywords: search engines, the architecture of search engines, searching tools, meta-search, retrieval directories, the retrieval agent, retrieval utilities

Непрерывно растущие объемы доступной в сети Internet информации, в том числе оперативной, делают задачу поиска необходимых сведений весьма актуальной. Оперативный поиск востребован наиболее остро. Профессионализм современного врача-исследователя все больше зависит от скорости поиска нужной информации. Для облегчения процедуры поиска требуемых данных существуют многочисленные, как зарубежные, так и отечественные, системы поиска, представляющие собой специализированные WEB-серверы. Однако, несмотря на наличие

многочисленных средств автоматизации поиска, эта задача остается достаточно трудоемкой, требующей от пользователя опреде-

I

I

ленного опыта, интуиции, знания терминологии, используемой в его предметной области. Дополнительной трудностью для поиска может стать и тот факт, что современные поисковые ресурсы пока не обладают возможностью уточнения поставленных запросов и вынуждены довольствоваться только той информацией, которая предоставлена в вопросе. При использовании любого поискового Internet-ресурса следует достаточно точно формулировать свои вопросы, иначе системы вернут неадекватные ответы.

Основой любого поискового Internet-ресурса является взаимодействие между запросом пользователя (ключевым словом или словосочетанием) и некоторой библиотекой знаний или базой данных. Зачастую информационное хранилище может располагаться не только на

© Ю.Г. Липкин, 2009 г.

40 ■ ■ ■ ■ ■■ ■ ■ ■ ■■■ ■ ■ ■ ■■ ■ ■ ■■■ ■ ■ ■ ■ ■

Поисковые системы

данном поисковом ресурсе, но и на многих других серверах и поисковых системах. По способу организации поиска и по предоставляемым возможностям все средства поиска могут быть условно разбиты на следующие группы:

1. Поисковые системы (поисковые машины, поисковые серверы, поисковые роботы).

2. Каталоги (могут называться поисковыми директориями или поисковыми базами данных).

3. Мета-поисковые системы (или метакраулеры, мультипоточные поисковые системы).

I. Классические поисковые системы обычно состоят из трех компонентов:

— агент (паук или краулер), специализированное программное обеспечение, которое анализирует содержимое Internet-сайтов и собирает информацию;

— база данных, которая содержит всю информацию, собираемую поисковым агентом;

— поисковый механизм, который используется как интерфейс для взаимодействия с базой данных поисковой системы.

Принципиально механизм работы поисковой системы можно представить в виде циклического алгоритма собственного поиска информации, накопления информации в базе данных и предоставления ее пользователю по мере запросов. Поисковые агенты в рамках определенного диапазона адресов поиска, исходя из предоставляемых прав, просматривают гипертекстовое содержимое сайтов, извлекают гипертекстовые ссылки на этих страницах и автоматически индексируют информацию. Алгоритм просмотра, как и само разрешение на просмотр, лимитируется исключительно администраторами этих сайтов. В качестве альтернативы описанному алгоритму заполнения базы данных может служить активная индексация своего сайта путем заполнения соответствующих регистрационных форм. Когда пользователь хочет найти информацию, доступную в Internet, он посещает страницу поисковой системы (интерфейс пользователя поисковой системы) и заполняет форму (строку поиска). В качест-

www.idmz.ru S009, №5

ве поискового запроса могут использоваться ключевые слова, даты и другие критерии. База данных отыскивает предмет запроса, основанный на информации, указанной в заполненной форме, и выводит соответствующие документы, подготовленные базой данных. Чтобы определить порядок, в котором список документов будет показан, база данных применяет алгоритм ранжирования. В идеальном случае документы, наиболее релевантные пользовательскому запросу, будут помещены первыми в списке. Различные поисковые системы используют различные алгоритмы ранжирования, однако основные принципы определения релевантности (степень соответствия ответа вопросу) зависят от количества, местоположения и удельного веса слов запроса в найденных документах, как долго хранятся в базе данных возвращенные запросу страницы, как много ссылок на данные страницы ведут с других страниц, зарегистрированных в базе поисковика. Когда пользователь кликает мышкой на ссылке к одному из документов, который его интересует, этот документ запрашивается с того сервера, на котором он физически находится.

II. Поисковые каталоги представляют собой совокупность ссылок на сайты по тематическим рубрикам.

Принципиальное отличие поисковых каталогов от поисковых систем заключается в том, что база данных формируется администратором, а не поисковым агентом. Для регистрации в базе данных поискового каталога необходимо подать соответствующую заявку, где определенным образом описывается индексируемый сайт: наименование, ключевые слова, содержание, рубрика, в которую желательно попасть, URL и т.д.

Работа с поисковой страницей каталога схожа с обычным поисковым сайтом, но поиск здесь ведется по базе данных ключевых слов и описаниям, которые предоставили их владельцы.

■ ■ ■ ■ ■ ■■ ■ ■ ■ ■■■ ■ ■ ■ ■ ■ ■■■ ■ !5 ■■ ■ ■ ■■■ ■■ ■■ ■ ■ ■ ■■■ ■■ ■ ■ ■ ■ ■ ■ ■■ ■■ ■ ■

Поисковые системы

технологии

Рис. 1. Архитектура мета-поисковой системы

Принимая во внимание очевидные достоинства и недостатки обоих подходов в формировании базы данных, в настоящее время разработчики поисковых сайтов (в широком понимании этого термина) используют обе идеологии одновременно. Пользователю предоставляется возможность сразу найти ответ или сузить область разведки средствами каталогизирования, а затем вести «классический» поиск. Могут быть и иные варианты содружества этих подходов.

В настоящее время растет количество поисковых систем и каталогов. Так как разные поисковики используют разные алгоритмы поиска и уделяют «особое» внимание разным участкам сети Internet, в то же время увеличивается и доля непроиндексированного для каждой поисковой системы. Логично во многих случаях искать сразу несколькими поисковыми машинами. Сколько существует поисковых систем (каталогов) в современной мировой паутине? На этот вопрос затруднительно ответить даже специалисту. На слуху обычного пользователя Internet не больше десятка поисковых сайтов (например, Google, Япс^х,

AltaVista, Yahoo!, Lycos, Рамблер, Апорт, а из медицинских — MEDLINE, PubMeC). Поиск информации настолько важен, что логически закономерным стало возникновение так называемых мета-поисковых систем.

III. Мета -поисковые системы — это поисковый инструмент, посылающий запрос пользователя одновременно на несколько поисковых Internet-ресурсов.

В отличие от поисковых систем, мета-по-исковые системы не имеют ни своих роботов-пауков, ни базы данных. Они берут результаты поиска исключительно от нескольких других поисковых серверов.

В основу работы мета-поисковой системы заложен следующий принцип: из запроса пользователя генерируются запросы, отформатированные в синтаксисе и логических конструкциях каждого конкретного поискового ресурса. В качестве поисковых ресурсов для мета-поисковых систем могут служить поисковые системы, каталоги и даже некоторая информация, не проиндексированная традиционными поисковыми системами. Таким образом, из одного запроса мета-поисковая

42 ■ ■ ■ ■ ■■ ■ ■ ■ ■■■ ■ ■ ■ ■■ ■ ■ ■■■ ■ ■ ■ ■ ■

Поисковые системы

машина делает множество запросов, которые затем рассылаются широкому кругу поисковых машин и/или каталогов. Собрав результаты, мета-поисковая система удаляет дублированные ссылки и, в соответствии со своим алгоритмом, ранжирует результаты.

Схематически архитектуру мета-поисковой системы можно представить на рис. 1.

Пользователь, исходя из своей информационной потребности и предлагаемых стратегий, генерирует запрос. В соответствии с принятыми на каждой поисковой системе требованиями мета-поисковая система преобразовывает запрос и ретранслирует его мета-по-исковым агентом соответствующей поисковой системе или каталогу. После обработки полученного запроса каждая система возвращает мета-поисковому агенту множество описаний и ссылок на документы, которые считает релевантными данному запросу. Дождавшись ответа от поисковых систем, мета-поисковый агент передает результаты в саму мета-по-исковую систему для анализа. В соответствии с различными подходами к анализу переданных данных мета-поисковые системы бывают четырех типов.

1. Классические мета-поисковые системы, которые ранжируют результаты на одной странице.

2. «Псевдо»-мета-поисковые системы первого типа, которые группируют результаты по поисковым системам на одной странице.

3. «Псевдо»-мета-поисковые системы второго типа, которые открывают для каждой используемой поисковой системы свое окно в браузере.

4. Поисковые утилиты — программные поисковые средства (также называемые поисковыми приложениями рабочего стола).

Отдельно необходимо несколько слов уделить поисковым утилитам. Это программное обеспечение, которое устанавливается на персональный компьютер самого пользователя. Такие поисковые утилиты несут в себе всю технологию, свойственную мета-поисковым

www.idmz.ru S009, №5

системам. Помимо этого, они интегрируются в браузеры и превращают их в мощные поисковые средства, преобразовывают результаты в широко известные форматы MS Office и MS Outlook, осуществляют поиск в более чем тысяча поисковых систем и каталогах по тематике, региону и т.п. Для наглядной аналогии можно отметить, что на сколько какая-либо профессиональная издательская система отличается от MS Office, на столько отличаются «настольные» мета-поисковые системы от их «он-лайн-собратьев». В качестве примера профессиональной поисковой утилиты можно привести программный пакет Copernic Agent Pro (http://www.copernic.com).

Определившись с поисковыми системами, пользователи зачастую недостаточно времени уделяют инструментам поиска: языку запросов поисковиков, лингвистическим особенностям языка разыскиваемых документов. Каждый поисковый ресурс имеет свои синтаксические особенности запросов, которые решаются в обязательном порядке мета-по-исковыми системами. Разбирать все варианты в данном обзоре не представляется возможным. Необходимо пояснить некоторые схожие моменты для большинства систем «вопрос о ответ».

1. Обычная фраза воспринимается как набор слов, в котором символ «пробел» = логическому «ИЛИ». Поисковая система будет искать документы, в которых встречаются эти слова: от точной фразы до одного из слов.

2. Для каждого отдельного слова поисковая система возвратит результаты со всеми словарными формами этого слова с учетом индивидуальных словарей поисковых систем.

3. Игнорируются союзы, предлоги.

4. Учитывается регистр букв, то есть если пользователь начнет запрос с прописной буквы, то разыскиваться вначале будут документы со схожим начертанием.

Конечно, среди всех найденных документов будут и те, которые содержат необходимую фразу, но будет много и других. Но как

■ ■ ■ ■ ■ ■■ ■ ■ ■ ■■■ ■ ■ ■ ■■ ■ ■ ■■■ ■ ■ ■ ■ 43 ■

Поисковые системы

и информационные

технологии

>быть, если нужны документы именно с такой фразой и больше никакие? Как добиться, чтобы поисковые системы находили документы в наибольшей степени, соответствующие исследовательской необходимости? На эти вопросы отвечают правила составления запросов или, иначе говоря, синтаксис запросов. Синтаксис запросов — это набор правил, по которым поисковые системы трактуют все, что записано в поле ввода текста. Для составления запросов с учетом синтаксиса можно воспользоваться операторами языка или формой расширенного поиска, специфичного для каждого поискового ресурса. Примеры некоторых наиболее часто встречающихся операторов:

1. Восклицательный знак (!) — игнорирование иных словарных форм слова (например, запрос !гастрит найдет страницы, где слово гастрит встречается только в такой форме);

2. Кавычки («...») — поиск только точной фразы, заключенной в кавычки (например, «хронический гастрит»);

3. Знак минус (—) — исключение слова из результатов поиска (например, хронический гастрит -язва);

4. Знак (| ) — логическое «ИЛИ»; в результатах будут ссылки на страницы, в которых встречается хотя бы одно из слов запроса (например, хронический гастрит | язва);

5. Оператор (~) — слово встречалось на странице, но нельзя, чтобы оно встретилось в том же предложении;

6. Оператор (~~) — аналогично предыдущему случаю, но в пределах документа.

Воспользовавшись альтернативным способом, то есть формой расширенного поиска, можно отметить, что при этом строка запроса автоматически форматируется с использованием операторов языка запросов.

Наконец, необходимо отметить лингвистические особенности русских поисковых систем.

Большинство языков можно разделить на две большие морфологические подгруппы: синтетические и аналитические. Аналитические языки для выражения падежей используют служебные части речи (предлоги, частицы, союзы), в то время как в синтетических языках принадлежность к определенному падежу передается окончанием. Русский же язык, в котором словоформы образуются с помощью как служебных слов, так и флексий, относят к аналитико-синтетическим. При индексации, например, англоязычной части сети Internet, поисковый агент выделяет основной абзац текста, отбрасывает ненужные ему второстепенные члены предложения и индексирует оставшиеся значимые части речи. В русском же варианте, проиндексировав слово «бронхит», он обязан внести в базу данных и другие формы этого слова: «бронхита», «бронхиту», «бронхитом» и т.д. Не отличается русский язык и строгими правилами порядка слов при образовании предложений. Русские предложения «Врач пациенту выписал рецепт» и «Врач рецепт выписал пациенту» представляют собой, по сути, одинаковые смысловые отрезки, хотя имеют различное логическое ударение. На сегодня достаточно адекватных алгоритмов распознавания типов предложений в русском языке пока не разработано. Приведенные примеры для агента поисковой машины являются набором слов, которые имеют возможность вольно чередоваться внутри предложения. Все перечисленные особенности должны учитываться как администраторами поисковых систем и каталогов, так и пользователями при заполнении строки запроса.

44

i Надоели баннеры? Вы всегда можете отключить рекламу.