Научная статья на тему 'К вопросу об эффективности поиска конкретики в Интернете'

К вопросу об эффективности поиска конкретики в Интернете Текст научной статьи по специальности «Экономика и бизнес»

CC BY
117
45
i Надоели баннеры? Вы всегда можете отключить рекламу.
Журнал
Прикладная информатика
ВАК
RSCI
Область наук

Аннотация научной статьи по экономике и бизнесу, автор научной работы — Семёнов Игорь Алексеевич

Человек постоянно находится в поиске, это свойство его неуемной натуры. Современные технологии предоставляют пользователю огромные возможности для поиска информации, однако из-за несовершенства существующих поисковых инструментов (в первую очередь полнотекстовых поисковых машин) найти что-то подходящее среди сотен тысяч выдаваемых ссылок бывает непросто. Это знает каждый, кто хоть раз искал что-нибудь в Яндексе, Рамблере или Google.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «К вопросу об эффективности поиска конкретики в Интернете»

Нв4(18) 2008

И.А. Семёнов

К вопросу об эффективности поиска конкретики1

в Интернете

Человек постоянно находится в поиске, это свойство его неуемной натуры. Современные технологии предоставляют пользователю огромные возможности для поиска информации, однако из-за несовершенства существующих поисковых инструментов (в первую очередь полнотекстовых поисковых машин) найти что-то подходящее среди сотен тысяч выдаваемых ссылок бывает непросто. Это знает каждый, кто хоть раз искал что-нибудь в Яндексе, Рамблере или Google.

Всемирная паутина (World Wide Web) содержит огромный объем информации. Согласно исследованиям Berkley [1], по состоянию на 2003 год он оценивался в 258,85 терабайта, и это только общедоступные данные. По данным [2], рост аудитории Интернета с 2003 по 2007 год составил 117% (на декабрь 2007 года аудитория оценивалась в 1,3 млрд человек). Если предположить, что объем данных в Интернете линейно зависит от числа пользователей (на самом деле эта зависимость скорее экспоненциальная), то в 2007 году суммарный объем информации в Интернете составлял не менее 561 терабайта. Оценить полный объем информации в Интернете в настоящее время крайне сложно, но можно с уверенностью сказать: он огромен. Кроме того, вся эта информация крайне хаотична, не предусмотрено практически никаких стандартов представления структурированной информации2.

Таким образом, наиболее эффективным методом поиска является полнотекстовый поиск. Полнотекстовые поисковые машины — такие, как Google, Яндекс, Рамблер — собирают информацию в индексные базы, откуда она извлекается по запросу пользо-

вателя. Последовательно обходя все известные ему адреса, поисковый робот скачивает веб-страницы и индексирует их. При этом сама структура информации почти не учитывается, для поисковой машины нет разницы между страницей онлайн-энциклопедии и домашней страничкой. Правда, большинство поисковых машин умеют различать заголовки и подзаголовки, а также учитывают «ссылочный вес» страницы (количество ссылок на нее с других сайтов), но такая оценка далеко не всегда бывает эффективной.

Имея минимальное представление об алгоритмах работы поисковых роботов, можно оптимизировать веб-страницу таким образом, что ссылка на нее будет всплывать на первых местах по запросам, к которым она не имеет никакого отношения. Эта технология называется SEO (Search Engine Optimization). Основная идея SEO состоит в том, чтобы обмануть поискового робота, подсунув ему определенную информацию, отличную от той, которую видят посетители страницы. Из-за большого количества таких «оптимизированных» сайтов поиск по-настоящему релевантной информации становится непростым. В настоящий момент SEO не считается противозаконной технологией (в отличие от

1 В английском языке слово concrete обозначает как бетон, так и нечто конкретное, основанное исключительно на фактах, а не на верованиях или догадках. — Прим. ред.

2 На сегодняшний день World Wide Web Consortium (или W3C) постоянно ведет разработки в области подобных технологий и стандартов. В качестве примеров разработок, связанных со структурированием информации в Web, можно привести Common Web Language (CWL) или SKOS Simple Knowledge Organization System Reference. Однако, как верно отмечает автор статьи, ни одна из них не получила широкого распространения. — Прим. ред.

89

N94(16)2008

спама), однако поисковые сервисы активно борются с «оптимизированными» сайтами, удаляя их из поисковых баз.

Помимо перечисленных проблем, у полнотекстовых поисковых сервисов есть еще один серьезный недостаток: ни одна поисковая машина не обеспечивает обратной связи с пользователем. Невозможно найти что-то, чего еще нет, но что может появиться. Информация в Интернете обновляется ежеминутно, в то время как полнотекстовые поисковые машины могут обновлять свою базу раз в месяц, а то и реже. Основная цель поисковой машины — в ответ на запрос пользователя как можно быстрее выдать релевантный (соответствующий запросу) результат. Назовем такой вид поиска активным. Его достоинства очевидны: если нам нужно что-то прямо сейчас, и это что-то существует, поисковая машина найдет это.

Представим себе, что результат нужен не сию секунду, а, скажем, в течение некоторого промежутка времени. Такая ситуация часто возникает при поиске конкретных товаров или услуг. Например, коллекционер ищет в продаже редкую монету. Или человек ждет выхода в продажу новой книги. Еще один удачный пример — человек, ищущий работу. Й В этом случае пользователь вынужден будет регулярно выполнять одни и те же по-§ исковые запросы, отсеивая нерелевантные ^ результаты, которые неизбежны в совре-| менных неструктурированных поисковых <5 сервисах.

| Процесс непрерывного слежения за по* явлением новых сведений по заданным ин-| формационным индикаторам называется ин-§ формационным мониторингом. Полноценный <3 информационный мониторинг — довольно ;§ трудоемкий процесс, который занимает не-5; мало времени и зачастую приводит к результатам, близким к нулевым. Кроме того, « часто процесс этот непрерывный. Сущест-® вуют сложные системы информационного <| мониторинга (СИМ), призванные облегчить

мониторинг, однако они довольно дороги, что ограничивает их применение сферой среднего и крупного бизнеса.

Все большую популярность приобретает технология RSS (эта аббревиатура со временем меняла свою расшифровку: изначально — Rich Site Summary, теперь — Really Simple Syndication3). Эта технология предлагает единый формат, позволяющий эффективно экспортировать информацию с вебсайта. В настоящее время технология RSS применяется в новостных лентах и службах блогов. Специальные сервисы RSS-агрега-торов (например, Google Reader [3]) позволяют собирать несколько RSS-потоков и выдавать обобщенную информационную ленту. Технология RSS избавляет пользователей от регулярного посещения одних и тех же сайтов, однако она не решает проблему поиска подходящей информации. Кроме того, информация по-прежнему не структурирована, что нисколько не облегчает ее анализ.

Вернемся к простому пользователю, который хочет получать интересующую его информацию, притом недорого, а лучше всего — бесплатно. С его точки зрения, было бы удобнее оставлять запрос с конкретными параметрами поиска и получать уведомления о результатах асинхронно. Например: «Хочу купить новую книгу Пелевина, как только она появится в продаже» или «Хочу найти тур на Канарские острова, в пятизвездочный отель, не дороже 50 000 рублей». При этом пользователь желает иметь возможность выбирать способ уведомления о новых результатах. Назовем такой вид поиска ленивым. Соответственно запрос на ленивый поиск назовем тоже ленивым.

Ленивый запрос включает параметры искомой информации, а также время, в течение которого результат будет актуален (будет интересовать пользователя). При поступлении подходящей (релевантной запросу) информации пользователь уведомляется об этом удобным для него способом. Соот-

3 В версии RSS 1.0 варианты расшифровки также включали RDF Site Summary — сводка сайта с применением инфраструктуры описания ресурсов. — Прим. ред.

90

ветственно результат ленивого запроса может быть отозван, если информация утратила актуальность на стороне поставщика.

Подобная технология может найти применение в самых разных отраслях — например, поиск работы, товаров, услуг, информационный мониторинг, слежение за курсами валюты и ценных бумаг и т.д. и т.п. Рассмотрим эти примеры подробнее.

Предположим, человек хочет найти работу лучше той, на которой трудится в настоящий момент. Он может, разумеется, регулярно просматривать несколько популярных сайтов по поиску работы, вводя каждый раз одни и те же запросы и просматривая одни и те же вакансии, пока наконец не найдет то, что нужно (если вообще найдет). Многие сайты по поиску работы предлагают соискателям размещать свои резюме, чтобы работодатели сами могли выходить с ними на контакт, однако такой вариант может скомпрометировать работника перед начальством, если его резюме будет обнаружено. Наилучшим вариантом была бы возможность разместить ленивый запрос на вакансию и получать уведомления о новых предложениях в удобное время удобным способом. С точки зрения работодателя, также было бы удобно иметь возможность отзывать предложения, если вакансия уже закрыта.

Не менее удобно применение ленивых технологий для поиска товаров и услуг. Такой подход избавит покупателя от долгого и нудного хождения по сайтам интернет-магазинов и доскам объявлений. Подобная система может осуществлять мониторинг новостных сайтов, выбирая новости по интересующей пользователя теме, и отправлять ему уведомления.

В настоящее время существует несколько служб, предоставляющих подобные услуги (например, системы уведомлений, новостные рассылки, ленты новостей и т.д.), однако все они обладают рядом недостатков. Системы уведомлений, как правило, принадлежат отдельным службам — таким, как интернет-магазины. Отслеживать несколько интернет-магазинов при помощи таких уведомле-

N94(16)2008

ний — задача не из легких, поиск в Интер- ig нете превращается в поиск по множеству сообщений в электронном почтовом ящике. <2 Кроме того, многие сайты не гнушаются ^ рассылкой нерелевантной рекламы (спа-ма). Новостные рассылки и ленты новостей тоже являются слишком общим решением, так как предоставляют довольно слабое разделение по темам, предпочитая вываливать на пользователя весь объем информации.

Технически реализация подобного сервиса осуществляется значительно проще, чем работа полнотекстовой поисковой машины общего назначения. В вязи с тем что от системы не требуется мгновенный отклик, а допустимая задержка может измеряться минутами (в большинстве областей), можно создать такой сервис при помощи высокоуровневых средств, что позволит сосредоточиться на его надежности и устойчивости. Главное требование к разрабатываемой системе — высокая степень масштабируемости, которая позволит наращивать мощность системы путем простого добавления серверов в общий кластер.

С точки зрения реализации система будет состоять из 3 структурно отделенных и отдельно масштабируемых частей — это сервер данных (в простейшем случае — кластер реляционных БД-серверов), бэкэнд (кластер серверов приложений, занимающийся выборкой данных по запросам и обновлением информации для каждого из пользователей) и фрон-тэнд (кластер серверов, обеспечивающих интерфейс для конечных пользователей).

Для удобства пользователей следует предоставить несколько вариантов уведомления: по электронной почте, с помощью голосовой почты, SMS, в личном кабинете c веб-интерфейсом в специальном приложении на смартфоне и т. д.

Список литературы

1 .http://www2.sims.berkeley.edu/research/projects/ how-much-info-2003/internet.htm

2.http://www.internetworldstats.com/emarketing.

htm

3.http://www.google.com/reader

^91

i Надоели баннеры? Вы всегда можете отключить рекламу.