Научная статья на тему 'Поисковые системы Веб 2. 0: наглядность и удобство поиска для гуманитариев'

Поисковые системы Веб 2. 0: наглядность и удобство поиска для гуманитариев Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
1014
60
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Поисковые системы Веб 2. 0: наглядность и удобство поиска для гуманитариев»

К.А.Борисов

Поисковые системы Веб 2.0: наглядность и удобство поиска для гуманитариев

Введение

В 2006 г. исполняется 17 лет с момента создания Всемирной Паутины (WWW). Для сферы информационных технологий два десятилетия - это почти целая эпоха. Через год, если можно так выразиться, мы сможем отметить «совершеннолетие» Сети, давшей возможность людям самых разных стран, национальностей и профессий создавать общедоступные информационные ресурсы, ценность некоторых из них не поддается измерению.

Известно, что автором идей, лежащих в основе WWW, был физик из Европейского совета по ядерным исследованиям (CERN) Тим-Бернерс Ли, и что изначально эта технология была призвана облегчить сотрудникам CEKN обмен научно-технической информацией. Но дальнейшее развитие Паутины показало, что ученые-гуманитарии также могут извлечь из нее немалую пользу. Речь идет не только об обмене информацией, Сеть стала удобным пространством для проведения самых различных исследований гуманитарной направленности. В частности, социология уже давно занимается вопросами анализа структуры Интернет-сообщества.

Тем не менее, достоинства Всемирной Паутины являются обратной стороной ее недостатков. Поскольку сервис WWW использует распределенную архитектуру сети Интернет, веб-сервер можно было размещать на любом узле этой сети, имеющем фиксированный IP-адрес. Протокол HTTP не имеет никакого встроенного механизма оценки качества ресурса, к которому пользователь получает доступ, его тематики или популярности. Стандарт языка гипертекстовой разметки HTML 4.01, принятый 4 декабря 1999 г., содержит довольно мало тегов, позволяющих отразить семантику текста. Позднее, с внедрением каскадных таблиц стилей CSS, веб-мастера получили в свои руки инструмент, позволяющий удобно и быстро делать смысловую разметку веб-страниц, при этом поддерживая ее внутреннюю логику и цельность дизайна.

Но эти изменения можно назвать «косметическими», они никоим образом не облегчали жизнь простым пользователям. Ведь изначально Интернет задумывался и создавался как распределенная вычислительная сеть, участники которой сами определяют содержание создаваемых ими информационных ресурсов. Точно так же и сервис WWW, являясь полнотекстовой распределенной базой данных, не предоставляет абсолютно никаких средств, позволяющих производить рубрикацию документов в зависимости от содержащейся в них информации, контролировать ее качество и достоверность, а

© Борисов К.А., 2,006

также производить поиск необходимой информации. В нем не предусмотрено никаких встроенных средств, которые могли бы дать возможность пользователю быстро отыскать среди всего массива документов те, которые ему интересны в данный момент. Пользователю приходится прибегать к услугам информационно-поисковых систем, а они требуют от пользователя хорошего умения мыслит^, логически, технического склада ума и точного знания языка апросов. Этот недостаток является наиболее болезненным для людей с гуманитарным складом ума, и ниже будет дано пояснение, почему это так.

Постановка «проблемы пользователя» и ее решение в рамках парадигмы Веб 2.0

Для решения задачи поиска информации в WWW были созданы весьма дорогостоящие и сложные поисковые системы (ИПС). Любой рядовой поль-чователь способен назвать хотя бы одну-две из них. Для эффективной организации поиска пользователь должен обладать специальными навыками, или хотя бы пройти курс обучения использованию языка запросов. Известно, что средний европеец тратит на сеанс поиска по 15 минут в день. Для максимально эффективного построения поисковых запросов необходимо обладать дедуктивным складом ума, хорошо знать математическую логику и понимать порядок обработки частей запроса поисковой системой.

В условиях, когда пользователю бывает трудно сформулировать информационную потребность, ему приходится бороться и с несовершенством поисковой системы, точнее ее интерфейсной части и языка запросов. Трудности, связанные с использованием поисковых средств, рассматриваются гуманитариями как «необходимое зло» [4], к помощи которого неизбежно приходится прибегать время от времени. Подобное отношение к поисковым системам не могло остаться незамеченным разработчиками.

Не во всех ВУЗах России в программы обучения студентов-гуманитариев входит отдельный курс по эффективному поиску в Вебе. Необходимо понять, что умение быстро и эффективно отыскивать нужную для личностного и профессионального развития информацию - основа успешной деятельности специалиста гуманитарной сферы. Будущие культурологи могут ничего не знать о протоколах, серверах и информационных технологиях, обслуживающих процесс поиска, но владеть поисковыми инструментами они обязаны. Это - неотъемлемая часть их информационной культуры, такое же необходимое умение, как навык работы с библиотечным каталогом.

Для достижения максимальной эффективности запроса пользователю необходимо четко представлять горизонты своего знания и незнания, знать термины из интересующей его предметной области и их взаимосвязь друг с другом. Это позволит ему включить в запрос правильные поисковые термины. К сожалению, в подавляющем большинстве (95%) случаев пользователи вводя! всего два-при поисковых термина.

Современные ИПС Интернета также учитывают популярность тех или иных слов. Если человек введет в форму ввода запроса фамилию «Путин», то на первой странице выдачи он с высокой долей вероятности увидит материалы о президенте РФ Владимире Путине. Если человек задался целью, например, найти информацию об умершем родственнике, ему необходимо расширить запрос связанными по смыслу поисковыми терминами - именем и отчеством человека. В большинстве же случаев пользователь не знает, какими терминами ему следует дополнить запрос, чтобы получить приемлемый результат.

В некоторых ИПС (Рамблер (http://www.rambler.ru), Теома (http://www.teoma.com) проблема слишком коротких запросов решается с использованием обратной связи с пользователем. Ему предлагается посмотреть, что искали люди, задавшие такой же короткий запрос. Однако, не все поисковые системы Web 1.0 имеют эту функцию, поскольку ее внедрение связано с определенными трудностями.

Вопрос создания персонального поиска был поднят довольно давно. Технология оценки релевантности страниц пользователем (англ. relevance feedback) к настоящему времени практически не используется. Это связано с тем, что специалисты по продвижению веб-сайтов (search engine optimization, SEO) в состоянии написать программу-робота, выставляющую нужным сайтом высшие баллы. Защита же подобной системы от злоумышленников приведет к тому, что использовать ее будет неудобно, будет причинен значительный ущерб эргономичности интерфейса и удовлетворенность пользователей заметно снизится.

Тем не менее, многие ИПС Web 2.0 предоставляют пользователям подобную возможность. Это можно объяснить несколькими причинами. Во-первых, системы подобного класса пока еще не создают большого потока посетителей, и поэтому не представляют большого интереса для «нечистых на руку» оптимизаторов. Во-вторых, малые объемы индексных файлов или использование результатов поиска от сторонних ИПС вынуждают разработчиков прибегать к помощи пользователей.

Одним из вариантов персонализации поиска также является предоставление возможности создавать тематические мини-поисковики, а если быть точным - интерфейсы к ИПС, ориентированные на поиск документов определенной тематики. В настоящее время многие крупные поисковые системы уже предлагают подобные услуги. -i

Ответом на очень длинный запрос может быть выборка очень небольшого объема. В этом случае нужно попытаться заменить слова на синонимы или исключить из запроса малозначимые слова, не несущие особой смысловой нагрузки, или слова, точное написание которых неизвестно. Если число выданных документов чрезмерно велико, то нужно снова попробовать уточнить запрос. Для автоматического расширения списка поисковых терминов используются тезаурусы, в которых, в частности, содержатся списки сино-

нимов, отражаются отношения типа «род-вид» и «часть-целое». Тезаурус в действии можно увидеть, воспользовавшись ИПС Quintura.

ИПС Web 1.0 требуют от пользователя хорошего знания языка запросов. Однако практика показывает, что в 90% случаев пользователь задействует только логические операторы (AND, OR, NOT). Поэтому в большинстве поисковых систем этого класса есть интерфейс «Расширенного поиска», по-зеоляющий задать дополнительные ограничения выборки документов, что полезно для повышения точности поиска. В ИПС Web 2.0 этот интерфейс, как правило, отсутствует, поскольку в большинстве из них не используется развитый язык запросов.

Веб 1.0 и Веб 2.0: смена парадигм

За последние годы развитие WWW привело к появлению так называемого Web 2.0. Этот термин был впервые введен Тимом О'Рейли в статье под названием «What Is Web 2.0?», вышедшей 30 сентября 2005 г. [5]. В ней весьма подробно обсуждается, что под этими терминами следует понимать л обые программы, использующие сеть Интернет для передачи данных, а также веб-сайты, работающие в рамках определенной парадигмы взаимодействия с пользователем и способа предоставления информации. Избегая излишнего цитирования, основное отличие Web 2.0 от Web 1.0, по мнению автора, заютючается в том, что пользователю предлагается некая служба, использующая Веб как платформу для своего функционирования, позволяющая неограниченному числу пользователей принимать непосредственное и активное участие пользователей в наполнении предлагаемого им сервиса информационным содержанием и улучшении качества его работы. Каждый день пользователи во всем мире способствуют наполнению пространства Web 2.0 самым разнообразным контентом, занимаясь следующими видами деятельности:

• ведением онлайновых дневников (блогов);

• размещением фотографий на сервера быстрого обмена изображениями;

• развитием определенных разделов Википедии или просто правкой отдельных ее статей;

• обменом файлами с помощью пиринговых сетей;

• поиском с помощью поисковых систем, разработанных с использованием технологий Web 2.0.

То, о чем пишет О'Рейли, похоже на новую парадигму разработки веб-порталов, новый виток эволюции WWW. В ее основу заложено несколько основополагающих принципов, которыми должны руководствоваться разработчики подобного рода служб:

• радикальная децентрализация службы;

• радикальное доверие к службе со стороны пользователей;

• акцент на участие пользователей, их мнения и оценки;

• «самообслуживание» пользователей;

• интерактивность службы, которая достигается с помощью технологии AJAX (Asynchronous Javascript + XML);

• отражение смыслового содержания документов путем присвоения им пользователями «тегов» (ключевых слов);

• постоянное использование бета-версии продукта, окончательный выпуск (релиз) не происходит никогда.

Разумеется, эти принципы относятся также и ко всем программам, нг использующим WWW в качестве платформы функционирования. Например, пиринговые сети eDonkey и Kademlia, а также сервис Google Earth обладают всеми чертами технологии Web 2.0 (у последнего есть своеобразный «младший брат» - Google Maps, а он уже является веб-порталом). Между прочим, именно Google в последние два года активно способствовал активному развитию этого подхода к созданию веб-сайтов. Из числа российских проектез этого направления можно выделить сбор вопросов к онлайн-конференции Президента РФ, (http://president.yandex.ru), организованный компанией Яндекс.

Столь стремительное развитие Web 2.0 не могло не привести к появлению поисковых систем, разработанных в рамках этой парадигмы. Их отличительными особенностями неизменно является ориентация на максимальную эргономичность и простоту использования. Автором будет дано описание некоторых систем этого класса без постановки эксперимента по оценке качества их работы, так как поиск далеко не всегда является их сильной стороной.

Традиционные поисковые системы Веб 1.0

Не вдаваясь в технические тонкости, можно сказать, что все традиционные ИПС, работающие на основе концепции Web 1.0, используют одну и ту же принципиальную схему организации поиска и выдачи результатов. Каждая поисковая система этого класса характеризуется следующими принципиальными особенностями:

• вычисление релевантности документа: на основе взвешенного количества терминов в запросе, документе и всем индексе (различные варианты меры tf/idf);

• вычисление важности документа в пространстве WWW: по числу документов, поставивших гиперссылки на этот документ, а также важности этих документов (так вычисляется Google PageRank и ТИЦ в Яндексе);

• учет смыслового содержания документа: не используется;

• интерфейс пользователя: главенствует принцип «нулевой интерактивности», пользователю предлагается пустая форма для ввода поискового запроса, плохо знающие язык запросов пользуются «Расширенным поиском»,

который предоставляет средства, позволяющие заметно сузить область поиска;

• форма отображения результатов: линейная, выдаются ссылки на документы и краткие аннотации (сниппеты), ранжированные по убыванию релевантности. Кластеризация (тематическая группировка документов в выдаче) не используется. Возможности языка XML не используются или используются незначительно;

• тематическая кластеризация результатов поиска: не используется;

• обратная связь с пользователем: не предусмотрена. Самое большее, что может сделать пользователь - направить письмо в службу технической поддержки.

Поисковые системы, построенные с использованием технологий Web 2.0, лишены вышеперечисленных недостатков. Несмотря на то, что не все с ни явл яются самостоятельными ИПС (например, Quintura пользуется услугами поискового механизма Яндекса, с помощью Яндекс.XML), уровень эр-гономичности, а иногда и качества поиска, предлагаемый ими, заметно выше.

Поисковые системы Web 2.0 можно классифицировать следующим образом:

• персональные тематические поисковики, также называемые «социальными» [2]. Они могут создать тематический фильтр в определенной поисковой системе и разместить его в качестве дополнительного поискового интерфейса на любом сайте. Примеры: Swicki, Huck-a-Buck, НовоТека, Google Со-Op и Yahoo! Search Builder;

• Традиционные ИПС с улучшенным лингвистическим обеспечением (интерактивный, наглядный выбор терминов запроса, обратная связь с пользователями, агрегация результатов). Примеры: WebAlta, MSN Search, Snap;

• метапоисковые системы с «надстройками» для улучшения эргономики (кластеризация результатов, графический режим настройки поиска, нечеткий поиск). В качестве примеров можно привести Nigma, Vivísimo, Quintura и Punto. Впрочем, они также стремятся обзавестись собственным индексом.

Теперь необходимо перейти к рассмотрению особенностей каждой из перечисленных выше систем.

Swicki (http://swicki.eurekster.com)

Swicki, в отличие от других тематических мини-поисковиков, позволяет пользователю увидеть «облако интересов». Результатом работы Мастера создания поискового интерфейса является html-код, отображающий это облако на сайте пользователя. После создания поисковика становится доступ-юй прямая ссылка на пользовательскую swicki на странице портала.

Huck-a-Buck (http://www.huckabuck.com)

Huck-a-Buck — это весьма любопытная метапоисковая система, дающая юльзователю возможность производить поиск в большинстве наиболее мощных ИПС. Лозунгом проекта служит фраза «Tune your search!» («Настрой свой поиск!»). Для тонкой настройки пользователям предлагается ин-

терактивная панель, чем-то похожая на эквалайзер аудиосистемы, только вместо частот в ней — поисковые машины, которых около десятка. Как в любом хорошем эквалайзере, есть нёсколько предустановленных режимов поиска, например, Technology research, Social search, Shopping, Blog search и стандартный Metasearch, когда предпочтение не отдается ни одной поисковой системе. Также можно выбрать количество результатов, отображаемых на одной странице выдачи (в пределах от 5 до 20).

Можно предположить, что чем выше выставлен ползунок для отдельной ИПС, тем выше будут ее результаты в выдаче. Здесь четко видно желание разработчиков опереться на опыт пользователей, их субъективные предпочтения. Известно, что большинство пользователей задействуют две-три поисковые системы. А предустановленные настройки скорее служат отражением мнения самих разработчиков относительно того, какая ИПС лучше подходит для поиска той или иной информации.

RollYo (http://www.rollyo.com)

Пользователь создает «сверток поиска» (англ. searchroll), помечая его тегами, и при желании делает его общедоступным. Каждый сверток содержит интересующие пользователя сайты.

НовоТека (http://personal.novoteka.ru)

Персональный поиск от «НовоТеки» является российской разработкой. Единственным отличием от конкурентов является возможность расширения функциональности поисковика за отдельную плату (увеличение дисковой квоты для хранимых на сервере сайтов, экспорт результатов поиска в HTML или XML, поиск без рекламных блоков). Разумеется, клиентам этой компании предлагается зарабатывать и на контекстной рекламе, если созданный ими поисковик генерирует большие объемы трафика и привлекает посетителей.

Google Со-Ор (http://www.google.com/coop/cse)

Лидер на рынке поисковых систем дает возможность пользователям создать свой поисковый инструмент. По заявлению вице-президента подразделения поисковых продуктов компании Google, госпожи Мариссы Мейер, настраиваемый поисковый движок будет «самым значительным из проектов, запущенных компанией в последние месяцы этого года» [3]. «Мы хотим сделать создание поисковой системы, настроенной на поиск информации по излюбленным темам, простым и доступным для каждого. Компании, организации, мамы, папы, тинейджеры и преподаватели - все смогут задействовать всю мощь технологий Google для того, чтобы использовать-^персональный поиск, отражающий их собственные знания и интересы», - заявила она журналистам.

Для создания персонального поиска в Google необходимо иметь учетную запись в их системе, хотя бы на Gmail (http://gmail.com). Сам процесс занимает всего несколько минут: пользователю предлагается назвать свой мини-поисковик, ввести сайты, результаты с которых он желает видеть, а также

разрешить/запретить другим пользователям изменять параметры свежесоз-данного поискового средства. Его можно разместить у себя на сайте или в б; ore, использовав предложенный Google html-код в процессе верстки. Между прочим, результаты поиска участвуют в рекламной программе Google AdSense, так что автор сервиса получает возможность извлекать из него при-6е.шь (в том случае, если посетители попадают на рекламируемые сайты с его мини-поисковику).

Yahoo! Search Builder (http://builder.search.yahoo.eom/m/promo)

Персональный поиск от компании Yahoo!, запущенный в июле 2006 г., чья функциональность схожа с Google Со-Ор. Для начала работы с сервисом необходимо получить учетную запись, называемую Yahoo! ID, которая используется для сквозной авторизации пользователей во всех службах Yahoo!.

Из дополнительных возможностей можно отметить настраиваемый алгоритм поиска: сузить поиск до одного сайта и искать в новостях.

Улучшенные традиционные ИПС

Web Al ta (http://www.webalta.ru)

Поисковая система «Вебальта» создана одноименной российской IT-компанией, основанной 25 августа 2005 г., и является основным ее проектом. Как заявляется, поисковая система создавалась «на основе открытых технологий и ряда оригинальных разработок» [1]. По состоянию на октябрь 2006 г. объем индексного файла был равен почти 20 терабайт. Таким образом, WebAlta является полноценной, самостоятельной поисковой системы, несмотря ва то, что пока находится в стадии публичного тестирования.

В процессе поиска пользователю доступен графический интерфейс для настройки работы поискового механизма, а точнее — для оптимизации вычисления релевантности. WebAlta предлагает пользователю оценить два критерия релевантности: внешний (отдать предпочтение содержанию документа или принять во внимание количество ссылок, которое на него ведет) и внутренний (пользователь также может создавать персональный каталог избранных сайтов и участвовать в оценке выданных страниц, помечая их как поисковый спам).

MSN Search (http://search.msn.com)

Несмотря на то, что поисковый механизм MSN Search существует уже довольно давно, Microsoft стала активно отвоевывать себе нишу на этом рынке всего лишь около года назад. Этот поисковик пока не перешел на Web 2.0 целиком, но шаги к этому можно увидеть в разделе Academic.

Snap (http://www.snap.com)

Поисковая система Snap предоставляет пользователям четыре возможности по улучшению эргономичности:

1. Улучшенное лингвистическое обеспечение: система автоматически предлагает варианты поисковых запросов в зависимости от того, какой термин вводит пользователь;

2. Улучшенный интерфейс пользователя: теперь можно просматривать главную страницу сайтов, которая кэшируется в индексе системы;

3. Реализована обратная связь с пользователем: можно оценить стрг-ницу как «Идеальную» (Perfect) или «Мусор» (Junk);

4. Пользователь может включить предупреждение о наличии в выдаче сайтов непристойного содержания (adult warning).

Улучшенные метапоисковые системы

Nigma (http://www.nigma.ru)

Метапоисковая система Nigma является разработкой студентов и аспирантов СПбГУ. В ней реализован механизм динамической кластеризации выдаваемых документов. Пользователь может конкретизировать запрос, выбрав одну из подтем. Не так давно функциональность Nigma была дополнена с помощью технологии AJAX (http://ajax.nigma.ru/), и теперь пользователь имеет возможность строить запрос так же, как в ВебАльте. В настоящее время это расширение проходит стадию альфа-тестирования.

Vivísimo (http://www.vivisimo.com)

Vivísimo служит примером максимально удобной метапоисковой системы с поддержкой кластеризации результатов поиска. Слева от списка документов пользователю предлагается дерево терминов для конкретизации поискового запроса. С каждым из них связана определенная группа документов, релевантная запросу. Даже в самой узкой теме существует возможность найти подтемы и взять и за основу группировки. Отличие Vivísimo от Nigma заключается в следующем:

1. Vivísimo использует иерархическую кластеризацию (подтемы имеют глубину 2-3 шага), a Nigma обходится обычной;

2. Vivísimo проводит предварительную кластеризацию документов (они доступны по ссылке "More" на панели отображения кластеров), что заставляет предположить, что в этой системе поддерживается свой поисковый индекс. Nigma строит кластеры динамически, «на лету», при каждом сеанса поиска;

3. Vivísimo поддерживает поиск в большем числе систем, чем Nigma.

Quintura (http://search.quintura.ru)

Quintura - это хороший пример совершенствования лингвистического обеспечения с помощью учета смысловых связей между словами и интерактивных технологий Web 2.0. Данная ИПС предоставляет пользователям возможность сформировать поисковый запрос в интерактивном режиме, показывая поле терминов, связанных с тем, что был введен пользователем в начале сеанса работы. Система подсказывает пользователю, какие термины связаны с выбранным им для запроса, динамически выделяя их курсивом, и позволяет исключить определенные термины из запроса. После каждого действия пользователя список документов обновляется автоматически.

Для осуществления поиска Quintura пользуется технологией Ян-декс.ХМЬ, что гарантирует, как минимум, удовлетворительное качество результатов. В настоящее время система работает в режиме бета-тестирования, что, впрочем, вполне соответствует парадигме Web 2.0. Punto (http://www.punto.ru)

Punto - это российский проект, метапоисковая система с аскетичным интерфейсом и интересными дополнительными сервисами (например, Мудрец, позволяющий увидеть, какое определение тому или иному слову дано в Интернете). Пожалуй, единственная ИПС, в которой заявлено использование нечеткого поиска. Однако, по всей видимости, он так и не был реализован. В настоящее время проект заморожен по неизвестным причинам.

Заключение

Можно с уверенностью утверждать, что информационно-поисковые системы Web 2.0 являются прорывом в области эргономики поиска: они дают возможность гуманитариям, не обремененным глубокими познаниями в области информационного поиска, эффективно и быстро находить необходимую информацию. Несмотря на то, что качество отыскиваемых документов все еще не превышает возможностей ИПС Web 1.0, направление развития интерфейса и лингвистического обеспечения задано вполне четко. Не вызывает сомнений, что максимизация простоты использования поисковой системы будут способствовать ее популяризации среди людей, не имеющих специального технического образования.

Литература

1. Вебальта о компании [Электронный ресурс]. — Электрон, дан. — [Б.м., 200-]. — Режим доступа:

http://www.webalta.net/ru/about_index.html. — Загл. с экрана.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

2. Что такое социальный поисковик? [Электронный ресурс]. — Электрон, дан. — [Б.м., 200-]. — Режим доступа:

http://www.seonews.rU/article/.publication/53. — Загл. с экрана.

3. Google custom search engine launches [Электронный ресурс]. — Электрон, дан. — [Б.м., 200-]. — Режим доступа:

http://www.searchenginejouma!.com/?p=3932. — Загл. с экрана.

Hummerink M. Evaluation of IT humanitarian platforms and their possible utilisation as co-ordination instruments / Michael Hummerink. — Amsterdam, 2002.

5. О 'Reily T. What is Web 2.0? [Электронный ресурс] / Tim O'Reily. — Электрон, дан. — [Б.м., 2005]. — Режим доступа: http://www.oreillynet.com/pub/a/oreilly/tim/news/2005/09/30/what-is-web-20.html. — Загл. с экрана.

i Надоели баннеры? Вы всегда можете отключить рекламу.