УДК 004
М.С. Марина
ПОИСКОВАЯ СИСТЕМА ЯНДЕКС
В 1996 году в Рунет появились поисковые системы Апорт и Рамблер. 23 сентября 1997 года был открыт Яндекс, осенью 1997 года в США для студентов и преподавателей стала доступной поисковая система Google. В связи с бурным ростом Рунет и объемов информации, индексируемой поисковыми системами, необходимо обладать мощными дата-центрами для соответствия современным реалиям. Одним из критериев качества поиска и, соответственно, положительного имиджа, перспективности поисковой системы является частота обновления поискового индекса, которое также требует значительных мощностей.
За последние десятилетие Яндекс прошел путь от единственного сервера, установленного под столом одного из разработчиков Дмитрия Тейбшома, до разветвленной независимой сети дата-центров, которая включает в себя тысячи серверов [1]. Каждый день в эту сеть добавляется по нескольку новых.
Ключевые слова: Яндекс, поисковая система Яндекс, индексатор Яндекс, Яндекс робот.
Поисковая система Яндекс индексирует и осуществляет поиск последующим форматам документов: HTML, PDF, RTF, DOC, XLS. Стоит также отметить параллельный поиск Яндекс, который заключается в одновременном поиске по основной базе и по другим сервисам [2]. В них входят новости, картинки, видео, блоги, карты и маркет (платные рекламные объявления). Результаты параллельного поиска могут располагаться над результатами основного поиска, справа от них и даже внутри. Поисковая система Яндекс имеет не один, а целую группу индексирующих роботов (табл. 1). Распознать их молено через лог-файлы веб-сервера по полю Useragent, IP-адреса роботов постоянно меняются, и осуществлять идентификацию по ним нецелесообразно.
Основной индексирующий робот - индексирует основной объем текстовой информации, размещенной в сети. Индексирует HTML, а также другие типы документов, содержащих текстовые данные.
Робот, определяющий зеркала сайтов, - т.н. «зеркальщик», определяет зеркала вебсайтов, в том числе и как отображать веб-сайт, с «www» или без (к примеру, http://www.edu.ru или http://edu.ru). Апдейт зеркальщика - учет изменений, найденных роботом, происходит довольно редко, 1 раз в 1-2 месяца.
Индексатор Яндекс.Картинок - отвечает за индексацию картинок в Интернет. Индексирует все популярные форматы картинок. Апдейт происходит в среднем раз в неделю, иногда чаще.
Индексатор Яндекс.Видео - отвечает за поиск видео. Ранжирование осуществляет за счет анализа текста, окружающего файл с видео на странице, а также популярности ролика в блогах и т.д.
Робот, индексирующий мультимедийные данные - индексирует документы в формате Adobe Flash (flv-файлы).
Робот поиска по блогам, индексирующий комментарии постов специальный робот, индексирующий посты в блогах. Как правило, сами записи в блогах после опубликования практически никогда не изменяются, в отличие от списка комментариев, который постоянно растет.
© Марина М.С., 2014.
ISSN 2223-4047
Вестник магистратуры. 2014. №4(31). Том I
Видимо, для того чтобы не нагружать основного индексирующего робота, и был создан рассматриваемый. Блоги, как правило, имеют ограниченный список «движков» - платформ, на которых они построены, и с определением, является ли конкретный сайт блогом, проблемы не возникает.
Таблица 1
User-agent Название
Mozilla/5.0 (compatible; YandexBot/3.0) основной индексирующий робот
Mozilla/5.0 (compatible; YandexBot/3.0; MirrorDetector) i робот, определяющий зеркала сайтов
Mozilla/5.0 (compatible; YandexImages/3.0) индексатор Яндекс.Картинок
Mozilla/5.0 (compatible; YandexVideo/3.0) индексатор Яндекс.Видео
Mozilla/5.0 (compatible; YandexMedia/3.0) робот, индексирующий мультимедийные данные
Mozilla/5.0 (compatible; YandexB logs/0.99; robot) робот поиска по блогам, индексирующий комментарии постов
Mozilla/5.0 (compatible; YandexAddurl/2.0) робот, обращающийся к странице при добавлении ее через форму «Добавить URL»
Mozilla/5.0 (compatible; YandexFavicons/1.0) робот, индексирующий пиктограммы сайтов (favicons)
Mozilla/5.0 (compatible; YandexDirect/3.0) робот, индексирующий страницы сайтов, участвующих в Рекламной сети Яндекса
Mozilla/5.0 (compatible; YandexDirect/2.0; Dyatel) «простукивалка» Яндекс. Директа
Mozilla/5.0 (compatible; YandexMetrika/2.0) робот Яндекс.Метрики
Mozilla/5.0 (compatible; YandexCatalog/3.0; Dyatel) «простукивалка» Яндекс. Каталога
Mozilla/5.0 (compatible; YandexNews/3.0) индексатор Яндекс.Новостей
Mozilla/5.0 (compatible; YandexImageResizer/2.0) робот мобильных сервисов
Робот, обращающийся к странице при добавлении ее через форму «Добавить URL» (http://webmaster.yandex.ru/addurl.xmD - при добавлении нового веб-сайта или документа через форму на странице Яндекс, происходит обращение данного робота. Посещение основного индексирующего робота может занять от нескольких дней до нескольких месяцев.
Робот, индексирующий пиктограммы сайтов (favicons) - робот, индексирующий пиктограммы веб-сайтов, которые затем отображаются рядом со ссылкой в результатах поиска.
Робот, индексирующий страницы сайтов, участвующих в Рекламной сети Яндекса - робот, индексирующий веб-сайты на которых показываются
рекламные объявления Яндекс (Яндекс. Директ).
«Простутвалка» Яндекс.Директа - робот, проверяющий работоспособность веб-сайтов, размещающих на своих страницах рекламные объявления Яндекс. Директ, а также веб-сайты, рекламирующиеся в нем.
Робот Яндекс.Метрики — робот, проверяющий работоспособность страниц, на которых установлен код Яндекс.Метрики (позволяет анализировать поведение посетителя на веб-сайте).
«Простукивалка» Яндекс.Каталога - робот, проверяющий на работоспособность вебсайты, размещенные в Яндекс.Каталоге.
Индексатор Яндекс.Новостей - специальный робот, индексирующий часто обновляемые новостные ресурсы, которые участвуют в проекте Яндекс.Новости (http://news.yandex.ru/).
Робот мобильных сервисов - информации об этом роботе на официальном блоге Яндекс нет, но, судя по названию, этот робот индексирует wap-сайты.
Помимо перечисленных, в 2005 году Яндекс запустил «быстрый робот» (далее - быст-роробот), который работает одновременно с основным индексирующим и предназначен для оперативного обнаружения и индексации актуальных страниц. По словам представителей Яндекс [3] быстрый робот использует некую информацию о востребованных пользователями документах и на основании этого находит новые и измененные страницы, делая их доступными в результатах поиска в течение короткого времени. Это время измеряется в минутах, а страницы,
обнаруженные быстророботом, молено определить в результатах поиска по пометке, когда документ был проиндексирован.
Для того чтобы быстроробот посещал веб-сайт, достаточно добавлять по 1 новому, уникальному документу ежедневно.
Результаты работы любого из вышеперечисленных роботов, за исключением быстроро-бота и Индексатора Яндекс.Новостей, можно увидеть лишь после обновления поисковой базы (т.н. «апдейта»). Как правило, апдейты в Яндекс происходят 1-2 раза в неделю. На сегодняшний день они делятся на два типа: текстовые и ссылочные. В первом случае в основную базу, по которой происходит поиск, добавляются новые страницы. При этом, естественно, данные из базы быстроробота удаляются и переходят в основную базу. Т.к. в основной базе обновляются измененные и появляются новые документы, изменяется и число ссылок на веб-сайты. Эти ссылки на данном этапе не учитываются, т.е. не дают вклад в ссылочное ранжирование. В ссылочный апдейт происходит учет найденных ранее ссылок, без добавления в основную базу новых документов.
Библиографический список
1. http ://clubs .ya.ru/company/replies .xml?item_no=10095.
2. International World Wide Web Conference. - 2002.
3. http://citeseer.ist.psu.edu/church95poisson.html.
МАРИНА Максим Сергеевич - магистрант Инженерно-технологической академии, Южный федеральный университет.