Научная статья на тему 'Технологии использования информационных ресурсов Интернета'

Технологии использования информационных ресурсов Интернета Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
5652
234
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Прокимнов Николай Николаевич

Стремительный рост объема информации в Сети породил задачу эффективного отбора необходимых данных и оценки их качества. В статье представлен обзор состояния средств доступа к информационным источникам Интернета с точки зрения применяемых концепций, возможностей, основных тенденций развития и перспективных направлений их дальнейшего совершенствования.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Технологии использования информационных ресурсов Интернета»

Но5(17)2008

Н.Н. Прокимнов

Технологии использования информационных ресурсов Интернета

Стремительный рост объема информации в Сети породил задачу эффективного отбора необходимых данных и оценки их качества. В статье представлен обзор состояния средств доступа к информационным источникам Интернета с точки зрения применяемых концепций, возможностей, основных тенденций развития и перспективных направлений их дальнейшего совершенствования.

Одним из главных достижений технического прогресса последнего десятилетия прошлого века и начала нынешнего является повсеместное проникновение во все сферы жизни общества технологий, основанных на использовании Интернета. Среди различных его приложений важную роль играют общедоступные информационные ресурсы, которые многократно повышают возможности по нахождению и использованию необходимых сведений, в том числе для проведения научных исследований и принятия решений в управленческой области.

1. Структура Интернета

Серверы

Вся информация в Интернете размещается на серверах (хостах). Сетевой интерфейс каждого сервера имеет уникальный ^-адрес, позволяющий однозначно его идентифицировать и представляющий собой 32-битовые числа определенной структуры [1], обычно записываемые как четыре десятичных числа — по одному на каждый байт адреса (например, 140.252.13.33). Пользователи, однако, привыкли работать с именами хостов, которые понимаются и большинством работающих с Интернетом приложений. Установление соответствия между ^-адресами и именами хостов осуществляет распределенная мировая база

данных, называемая системой имен доменов (DNS — Domain Name System). Распределением IP-адресов в глобальной Сети занимается сетевой информационный центр — Internet Network Information Center, или InterNIC. InterNIC назначает только сетевые идентификаторы (ID), назначением идентификаторов хостов в Сети занимаются системные администраторы. Официальным регистратором в доменах RU и SU является RU-CENTER1.

Аналогом сервера в области бумажных публикаций является издатель. Однако сервер Интернета в отличие от издателя не несет ответственности за качество публикуемого материала.

Протоколы

Для доступа к информационным ресурсам Интернета применяется совокупность правил, регламентирующих работу системы с тем или иным сервисом, называемая протоколом. Кратко рассмотрим некоторые наиболее важные с точки зрения доступа к веб-ресурсам протоколы.

TCP/IP. Функционирование Интернета строится на семействе протоколов TCP/IP, представляющем собой комбинацию разных протоколов на различных уровнях. TCP/IP состоит из 4 уровней2.

Основу семейства образует протокол IP. TCP, UDP, ICMP и IGMP передают свои данные

1 http://www.nic.ru/

2 http://torrentfreak.com/peer-to-peer-traffic-statistics/

51

Ne5(17)2008

i is

i CO Q

n

I

is

I

Q

=1

! tr

H

s

Q

to

Ü ё

Ё

Ü

как IP-датаграммы. При использовании протокола TCP/IP нет гарантии того, что IP-дата-грамма успешно достигнет пункта назначения. Однако IP предоставляет определенный сервис обработки некоторых событий. В случае каких-либо нарушений процесса передачи IP применяет простой алгоритм обработки ошибок: он отбрасывает датаграмму и старается послать ICMP-сообщение отправителю. IP не содержит никакой информации о продвижении датаграмм. Каждая датаграмма обрабатывается независимо от других. Это также означает, что может быть доставлена испорченная датаграмма. Если источник отправляет последовательно две датаграммы (сначала A, затем B) в один и то же пункт назначения, то каждая из них маршрутизируется независимо и может пройти по разным маршрутам. Таким образом, да-таграмма B может прибыть раньше, чем A.

Протокол FTP (File Transfer Protocol — протокол передачи файлов)3 используется для обмена файлами в сетях, построенных на основе протокола TCP/IP, и для манипулирования данными на другом компьютере независимо от установленной операционной системы. В настоящее время существует довольно большое количество клиентских и серверных программ, работающих по этому протоколу. FTP отличается от других протоколов тем, что использует два соединения для передачи файла:

• управляющее соединение, которое устанавливается как обычное соединение «клиент-сервер». Сервер осуществляет пассивное открытие на заранее известный порт FTP и ожидает запроса на соединение от клиента. Клиент осуществляет активное открытие на TCP порт 21, чтобы установить управляющее соединение. Управляющее соединение существует в течение всего времени, пока клиент общается с сервером. Это соединение используется для передачи команд от

1 http http http

//en.wikipedia.org/wiki/File_Transfer_Protocol

//ru.wikipedia.org/wiki/TFTP

//en.citizendium.org/wiki/HTTP

клиента к серверу и для передачи откликов от сервера. Тип IP-сервиса для управляющего соединения устанавливается для получения «минимальной задержки», так как команды обычно вводятся пользователем;

• соединение данных, которое открывается каждый раз, когда осуществляется передача файла между клиентом и сервером. Тип сервиса IP для соединения данных должен быть «максимальная пропускная способность», так как это соединение используется для передачи файлов.

Протокол TFTP (Trivial File Transfer Protocol — простой протокол передачи файлов)4 используется главным образом для обеспечения простоты реализации клиента бездисковых рабочих станций. TFTP, в отличие от FTP, не содержит возможностей аутентификации (однако возможна идентификация клиента по его IP-адресу).

Протокол HTTP (Hypertext Transfer Protocol — протокол передачи гипертекста)5 является основным протоколом обмена информацией в Интернете. HTTP paзработан в 1980-х годах Тимом Бернерс-Ли (Tim Ber-ners-Lee) специально для Интернета, он используется для передачи в Сети веб-документов, стандартной формой представления которых является гипертекст и которые размещены на различных компьютерах Сети. HTTP относится к протоколам типа «запрос/ ответ». Клиент HTTP (например, браузер — см. далее) после инициации соединения посылает строку запроса, обычно запрашивающую страницу по умолчанию веб-сервера. Сервер отвечает пересылкой файла или сообщением об ошибке. Файлу предшествует HTTP-заголовок, представляющий собой набор строк символов ASCII с информацией о сервере и пересылаемом документе.

Отличием HTTP от других протоколов, основанных на протоколах семейства TCP (например, FTP), является то, что после

52

Но5(17)2008

окончания обработки конкретного запроса сервером соединение в общем случае разрывается. Такой механизм наиболее полно отвечает идеологии Интернета, где страницы, как правило, содержат множество ссылок на другие страницы, находящиеся на иных серверах. Вместе с тем это создает определенные проблемы для разработчиков, так как в связи с отсутствием постоянного соединения необходимо применять специальные методы для запоминания состояния пользователей. Многие из этих методов основаны на использовании cookies — небольшой порции текстовой информации, которую сервер передает браузеру. Браузер будет хранить эту информацию и передавать ее серверу с каждым запросом как часть http-заголовка [2].

Первоначально HTTP был спроектирован для более быстрой по отношению к протоколу FTP передачи 7-битового ASCII текста и для исключения задержек, обусловленных процедурой вхождения в сеанс соединения FTP. Эти задачи были решены. Однако графические и другие файлы форматов, отличных от 7-битового ASCII текста, представляют собой 8-битовые данные. Поэтому перед передачей посредством HTTP они требуют перекодировки в файлы текстового формата, что приводит к заметному (на 10-30%) росту объема передаваемых данных.

Протокол HTTPS6 идентичен протоколу HTTP. Запись https: URL означает, что должен быть использован протокол HTTP, но с другим TCP-портом (параметр протоколов TCP и UDP)7 и дополнительным уровнем шифрования/аутентификации HTTP и TCP. Система спроектирована компанией Netscape Communications Corporation и широко применяется для критичных к соблюдению требований безопасности соединений (таких как платежные транзакции).

Протокол BitTorrent (поток битов) приме- § няется для коллективного обмена файлами. g

Большинство подходов к интеграции дан- <5 ных различных источников основано на при- ^ менении глобальной схемы и совокупности ас источников. Источники хранят реальные данные, в то время как схема содержит обобщенные сведения относительно источников. В противоположность централизованной архитектуре более эффективной в ряде случаев является ориентация на пиринговые (peer-to-peer, p2p) системы [3], в которых каждый участник выступает одновременно в роли клиента и сервера и служит источником какого-то фрагмента общего объема информации, доступной в распределенной системе.

Передаваемые файлы при работе на основе протокола BitTorrent разбиваются на небольшие части, которые одновременно передаются torrent-клиенту от нескольких других клиентов, скачавших эти части. Одновременно torrent-клиент отсылает уже полученные им части другим клиентам, которые также обратились с запросом на скачивание того же файла. Такой механизм повышает скорость получения данных и снижает зависимость от конкретного источника за счет возможности параллельной загрузки файла сразу из нескольких мест.

Первый torrent-клиент был создан Брэ-мом Коэном (Bram Cohen)8 в 2002 году. К настоящему времени создано уже множество программ-клиентов для обмена файлами по протоколу. Ведущей компанией в области развития средств и технологии BitTorrent, а также сервисов на ее основе является BitTorrent, Inc9.

Протокол особенно эффективен для пересылок больших файлов. Согласно10, средний размер совместно используемых файлов составляет 1 Гб, статистика по типам пересылаемых файлов показана на рис. 1.

' http ' http http http

//en.wikipedia.org/wiki/Https

//ru.wikipedia.org/wiki/nopT_(TCP/UDP)

//bitconjurer.org/; http://bramcohen.livejournal.com/

//www.bittorrent.com/

http://torrentfreak.com/peer-to-peer-traffic-statistics/

53

il ÎS

s «

о

il il ö S

0 §

! t

1

s

О

to ü

! §

Ms5(17) 2008

Игры/программы 67,20%

Видео 61,40%

Аудио 11,30%

Рис. 1. Пиринговый обмен по типам файлов

Популярность протокола неуклонно растет. Так, трафик скачиваемых p2p-файлов оценивается в настоящее время в 50-65% общего объема скачиваний11.

Имена и указатели

Для указания местоположения ресурсов на серверах Интернета (текстовые, звуковые файлы и т.д.) используется стандартный способ в виде задания адреса, именуемого универсальным указателем ресурсов (Unified Resource Locator — URL). Он включает, помимо указания протокола, две компоненты: адрес сервера в Интернете и адрес ресурса на сервере.

URL представляет собой полное описание ресурса. При этом рассматриваемый ресурс может представлять собой как файл на локальном диске компьютера пользователя Сети, так и файл, находящийся на каком-либо сервере. URL может быть представлен в виде абсолютной или относительной ссылки.

Абсолютная ссылка содержит полную информацию о ресурсе, включая имя сервера, на котором он находится, путь к соответствующему каталогу и имя файла. При использовании относительной ссылки предполагается, что сервер и путь к текущему каталогу были определены в ходе предшествующей работы, поэтому указывается только имя файла (или путь с подкаталогами и имя файла).

URL имеет следующую структуру: <про-токол>://<адрес сервера><путь к файлу>. Начальная часть, заканчивающаяся двоеточием, задает протокол, используемый для

доступа к информационному ресурсу. Далее следуют две наклонные черты и адрес сервера Internet, который может быть задан в виде доменного имени или числового IP-адреса. После адреса сервера указывается полный путь к файлу. Например, http:// www.webfiles.ru/web/www.guide указывает на файл www.guide из каталога сервера с доменным именем www.webfiles.ru, для доступа к которому используется протокол HTTP.

Форматы веб-документов

Исторически первым и одним из основных форматов данных, хранимых на серверах, является формат HTML (Hyper Text Markup Language — язык гипертекстовой разметки). Отличительной особенностью гипертекстовых документов является наличие ссылок, называемых также гиперссылками. При выборе ссылки (наведение на нее курсора и щелчок кнопкой мыши) на экране отображается указанный в ссылке документ. При составлении гипертекстового документа устанавливаются ссылки на другие документы, которые содержат дополнительную информацию, относящуюся к содержанию данного документа.

Практически все документы в Интернете являются гипертекстовыми и наряду с командами, описывающими структуру документа, содержат команды языка HTML, задающие ссылки на другие документы, которые могут быть как текстовыми, так и графическими, аудио- и видеодокументами.

Каждая из гипертекстовых связей имеет две части. Одна часть задает информационный ресурс, на который указывает ссылка (этим ресурсом может быть какой-либо документ: текст, изображение, звуковой файл или видеофрагмент). Ссылка может делаться на информацию, которая содержится как на том же компьютере, что и исходный документ, так и на любом другом сервере Интернета.

Другой частью гипертекстовой связи является анкер (anchor). В качестве анкера

http://torrentfreak.com/peer-to-peer-traffic-statistics/

54

Но5(17)2008

разработчик документа может задать какие-нибудь слово, группу слов, изображение или отдельную область изображения, представленного на экране пользователя. Активизация ссылки осуществляется путем установки курсора мыши на анкере с последующим щелчком (или путем выбора анкера с помощью клавиш управления курсором и нажатия клавиши <Enter>).

Например:

<a href="http://Www.wikipedia.com/l>Wikipedia</a>

слово «Wikipedia» будет показываться в документе в виде ссылки на записанный в теге URL.

Выделение анкеров в документе зависит от выбранного разработчиком стиля, используемого браузера, типа дисплея. В типичном случае слова-анкеры на цветном графическом дисплее выделяются синим цветом и подчеркиванием. При просмотре документа в окне браузера при наведении на слова-анкеры и изображения-анкеры курсора мыши последний обычно меняет свою форму (определяется установками браузера), а на всплывающей подсказке отображается URL ресурса.

Помимо гипертекстовой, в языке применяются два других типа разметки: структурная, поясняющая назначение текста (например, <1"|1>Интернет</1"|1> будет восприниматься читающей программой как заголовок первого уровня «Интернет»), и презентационная, описывающая вид физического отображения содержимого (например, <Ь>жир-но</Ь> означает, что текст «жирно» будет выводиться как жирно).

Спецификации языка XML (extensible Markup Language — расширенный язык разметки) были разработаны в 1996 году и опубликованы консорциумом W3 в феврале 1998 года12. Цели его создания были отличны от целей создания языка HTML. Если в последнем основное внимание было уделено решению задачи отображения дан-

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

ных, то назначение XML — их хранение § и передача, что существенно дополняет | возможности HTML. Документ на XML пред- <5 ставляет собой обычный текст и тем самым ^ обеспечивает аппаратную и программную ас независимость языка: приложения, предназначенные для обработки текстовых документов, могут также обрабатывать и XML-документы как текстовые. Поскольку значительные объемы документов на серверах хранятся в несовместимых между собой базах данных, важность установленного таким образом стандарта информационного обмена очевидна. Вместе с тем приложения, которые понимают теги языка, могут обрабатывать эти документы специфическим образом. В отличие от языка HTML теги в XML жестко не определяются. Их функциональный смысл задается конкретным приложением (разработчиком).

Обычно XML-документ состоит из помещаемого в начале необязательного пролога и элементов13.

Например, в прологе

<?xml version="###"{encoding="???" standalone= 'y/n'}?>

атрибуты version и encoding (необязательный) указывают соответственно на версию и кодировку (по умолчанию UTF-8), для которых написан документ, а необязательный атрибут standalone указывает либо на отсутствие в XML-документе внешних разделов (в случае значения Yes), либо на их наличие (в случае No).

Элемент представляет собой XML-объ-ект и состоит из 3 частей: начального тега, содержимого и конечного тега. Например:

<?xml version="1.0" standalone="no" ?> <books>

<book isbn="5890912380"> ^Шв^ристо^/Й^ ^^"ю^Фаулз, Джон^^Ью^ <present/>

! http://www.w3schools.com/xml/xml_whatis.asp

' http://en.citizendium.org/wiki/XML

55

N95(17)2008

</book>

<book isbn="5699184406">

^^Джазовые портреты </title> <author>Мураками, Харуки </author> <present/> </book> </books>

Здесь элемент books (книги) представляет собой корневой элемент, который содержит два вложенных элемента book (книга), имеющих, в свою очередь, атрибут isbn и содержащих три последовательных элемента: title (название), author (автор) и present (есть в наличии), причем последний пуст, так как в данном случае соответствует логическому флажку.

Формат RDF был создан в 1999 году в качестве стандарта кодирования метаданных в XML — таких, как автор веб-страницы, дата публикации записи блога и т. п. [4]. После появления в 2004 году обновленных RDF-спе-цификаций14 область охвата и значение стандарта значительно расширились. Формат RDF служит теперь основой для реализации привлекающей все большее внимание концепции семантической сети — объединение и сочетание данных из различных источников jS вместо концепции взаимного обмена докупи ментами, первоначально положенной в осно-is ву создания Интернета. RDF характеризуется g как своего рода реляционный язык данных S Интернета15: при необходимости объединить ¡1 информацию из нескольких источников про-| изводится слияние файлов, для расширения I запроса на RDF-файл с включением дополнительных ограничений они указываются

s

^ в запросе.

Ц С помощью RDF можно создавать описа-g ния объектов реального мира (люди, кон-ig цепции, предметы и т. п.) и отношений меж-§ ду этими объектами. Метод, применяемый Ü для этой цели в RDF, состоит в декомпози-| ции знаний на совокупность фрагментов,

17

называемых тройками или триплетами (triples), и в следовании правилам задания смысла этих фрагментов (семантики). Основой для составления троек служит ориентированный размеченный граф, в котором каждая отдельная дуга представляет некоторый факт или отношение между парой объектов. Начальная вершина является субъектом, метка дуги служит предикатом, а конечная вершина выступает в качестве объекта. Субъекты, предикаты и объекты идентифицируются с помощью унифицированных идентификаторов ресурсов (Uniform Resource Identifier — URI). По стандарту RFC3986 примером URI может быть:

http://www.cisco.com/en/US/partners/index.html

URI включает несколько составляющих16:

• имя схемы (http);

• имя домена (www.cisco.com);

• путь (/en/US/partners/index.html).

Например, граф на рис. 217 содержит утверждение «существует человек, идентифицируемый как http://www.w3.org/People/ EM/contact#me, имеющий имя Eric Miller, электронный адрес em@w3.org, титул Dr.»

Здесь URI используются для идентификации:

• отдельных предметов (http://www.w3.org/ People/EM/contact#me идентифицирует Eric Miller);

• категорий предметов (http://www.w3.org/ 2000/10/swap/pim/contact#Person идентифицирует человека — Person);

• свойств предметов (http://www.w3.org/ 2000/10/swap/pim/contact#mailBox идентифицирует почтовый ящик — mailBox);

• значение свойств (mailto:em@w3.org есть значение свойства «почтовый ящик»; RDF использует также строковое значение

ttp ttp ttp ttp

//www.w3.org/TR/rdf-primer/ //www.w3.org/DesignIssues/Business //www-128.ibm.com/developerworks/xml/library/x-urlni.html //www.w3.org/TR/rdf-primer/

56

№5(17)2008

Рис. 2. Пример семантического графа

« I

I

ас ас

«Eric Miller» и значения других типов — например, целое и дата).

Запись в стандарте RDF/XML будет выглядеть так:

<?xml version="1.0"?>

<rdf:RDFxmlns:rdf=http://www.w3.org/1999/02/ 22-rdf-syntax-ns#

xmlns:contact="http://www.w3.org/ 2000/10/swap/pim/contact#"> <contact:Person rdf:about="http://www.w3. org/People/EM/contact#me">

<contact:fullName>Eric Miller</contact: fullName>

<contact:mailbox rdf:resource="mailto: em@w3.org"/>

<contact:personalTitle>Dr.</contact: personalTitle> </contact:Person>

</rdf:RDF>

В семантической сети обеспечивается согласованное использование понятий благодаря тому, что для одного и того же содержательного понятия (например, Почтовый ящик) всегда указывается один и тот же URI.

Помимо стандартов, известных как Дублинское Ядро (Dublin Core)18, созданы и про-

должают создаваться другие RDF-словари, которые можно использовать для построения моделей данных.

В дополнение к обычному гипертексту, где присутствуют только указатели на страницы, RDF-описания могут содержать указатели на любые идентифицируемые объекты, включая и отсутствующие в Сети. Таким образом, расширяются возможности языка.

Для реализации концепции семантического веба, помимо формата RDF, используются другие форматы, в первую очередь RDFS (RDF Schema — язык описания словарей RDF-терминов, классов и свойств Web-ресурсов), OWL (Web Ontology Language — язык веб-онтологий) и SWRL (Semantic Web Rule Language — расширение OWL).

Формат FOAF (Friend-of-a-Friend) используется для публикации небольших RDF-фай-лов со сведениями о людях и об их деятельности. В FOAF принято соглашение относительно идентификации людей косвенным образом, для чего используются их электронные адреса или контрольная сумма электронных адресов (в целях обеспечения конфиденциальности). Наряду с этим присутствует и ссылка на FOAF-файл (в виде rdfs: seeAlso).

http://dublincore.org/

N95(17)2008

Например, FOAF-файл с персональными данными автора этой работы выглядит следующим образом19:

<rdf:RDF

xmlns:rdf=http://www.w3.org/1999/02/22-rdf-syntax-ns#

xmlns:foaf="http://xmlns.com/foaf/0.1/"> <foaf:Person>

<foaf:name>Edd Dumbill</foaf:name> <foaf:mbox rdf:resource="mailto:edd@ xml.com"/> </foaf:Person>

</rdf:RDF>

Здесь сообщается о человеке по имени Edd Dumbill, имеющем адрес электронной почты edd@xml.com в формате данных объектно-ориентированной структуры (указаны объект типа foaf:Person и его свойства foaf: name и foaf:mbox). В файле могут быть указаны значения и других свойств, например:

• nick — символьная строка с именем, под которым лицо идентифицируется на чате или в других системах;

• homepage — URL домашней страницы; w • workplacehomepage — URL домашней sS страницы места работы;

¡и • phone — номер телефона;

is • knows — связь между людьми. «

У

S Основной эффект достигается при слия-¡1 нии нескольких FOAF-файлов. В результата те пользователю становится доступной доЦ полнительная информация, размещенная в файлах.

^ Формат RSS (Really Simple Syndication, или

Ц Rich Site Summary, или RDF Site Summary)20

g представляет собой разновидность текстово-

<q го формата наподобие XML (так что файлы

§ RSS часто помечаются как файлы XML). Вер-

ü сия 1.0 формата RSS соответствует форма-

I ту RDF, и в этих случаях файлы RSS часто

I помечаются как файлы RDF. Файл RSS пред-

I

ставляет собой список объектов (items). Каждый объект состоит из названия, резюме и ссылки на веб-страницу (URL), но могут включаться и другие сведения: дата, имя создателя и др. Файлы RSS применяются в основном для работы с новостями и вебсайтами, в которых данные размещены в обратном хронологическому порядке (блоги или журналы произведенных изменений).

Сайт, имеющий канал RSS, называется синдицированным (syndicated). Помимо RSS, существуют другие синдицированные форматы (например, Atom), однако в настоящее время наибольшие распространение и поддержку получил формат RSS. Имена файлов RSS не имеют расширения типа, хотя часто в качестве такового применяются .xml, .rss или .rdf (но используются и другие расширения).

Множество форматов и языков, применяемых в Интернете, достаточно обширно. Укажем некоторые из наиболее важных:

• XSL (eXtensible Stylesheet Language) — семейство языков трансформации, описывающих способы форматирования и преобразования XML-документа;

• XHTML — последняя версия языка HTML;

• WSDL — язык описания доступных веб-служб;

• WAP, WML — языки разметки для портативных устройств;

• SMIL — язык описания веб-мультимедиа.

2. Пользовательский интерфейс (браузеры)

Поиск и просмотр содержимого найденных страниц обеспечивает специальная программа, называемая браузером (Web browser) или веб-обозревателем21. С момента возникновения Интернета браузеры постоянно совершенствовались в смысле как расширения выполняемых ими функций, так и удобства интерфейса и технических параметров.

19 http://www.ibm.com/developerworks/xml/library/x-foaf.html

20 http://www.faganfinder.com/search/rss.php#query

21 http://en.citizendium.org/wiki/Web_browser

58 > =

' Инструментальные средства # Обработка информационных ресурсов

Исторический обзор

Первым получившим распространение браузером с графическим интерфейсом был NCSA Mosaic, затем на долгое время монополию получил выпущенный в 1994 году компанией Netscape браузер Netscape Navigator.

В 1995 году компания Microsoft выпустила ОС Windows 95, включавшую Internet Explorer 3.0. После этого началась «война» браузеров, которая закончилась победой Internet Explorer, обошедшего в 1998 году по популярности Netscape и занявшего в итоге доминирующее положение на рынке. Официально выпуск браузера Netscape Navigator был прекращен 1 февраля 2008 года.

В конце своего существования компания Netscape выпустила исходный код своего браузера под свободной лицензией MPL (Mozilla Public License), на основе которого были созданы браузеры Mozilla (второе по популярности семейство браузеров) и Mozilla Firefox (2004 год)22.

В 2005 году начал бесплатно распространяться браузер Opera, небольшой по размеру и отвечающий большинству стандартов. Браузер наиболее предпочтителен

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Но5(17)2008

для ряда небольших устройств типа мо- § бильных телефонов и карманных ПК. |

В настоящее время браузер представля- <5 ет собой комплексное приложение для об- ^ работки и вывода разных составляющих ас веб-страницы и является неотъемлемой составляющей персонального компьютера. Практически все популярные браузеры распространяются бесплатно — либо как независимая программа, либо в составе каких-либо приложения или системы (например, Internet Explorer включается в ОС Microsoft Windows, Mozilla Firefox и Opera могут быть установлены бесплатно, Safari поставляется совместно с Mac OS или бесплатно для Windows).

Браузеры, как правило, содержат встроенные функции поиска, которые позволяют обращаться с поисковыми запросами к крупнейшим поисковым машинам (Google, Yahoo!, Yandex, Ask и т.д.) непосредственно из окна браузера.

Статистика использования браузеров

Согласно данным аналитической компании NetApplications23, мировой рынок браузеров в настоящее время представлен на рис. 324.

80,00% 70,00% 60,00% 50,00% 40,00% 30,00% 20,00% 10,00% 0,00%

74,91%

0,67%

0,64%

0,27%

0.19%

Safari

MS Internet FireFox Explorer

Рис. З. Мировой рынок браузеров

Opera Netscape Mozilla Другие

Сведения о продуктах, платформе и компании с названием Mozilla можно найти в [6].

http://www.netapplications.com/company.aspx

http://marketshare.hitslink.com/

59

Hb5(17)2008

FireFox; 16,23%

MS Internet Explorer 6;

,77%

i e

S

CO

0

n

1 is

I

Q

=1

! tr

I

s

Q

to

Ü §

! ü Л

MS Internet Explorer 7; 26,44%

Рис. 4. Браузеры в России

Для российского сегмента Интернета статистика посещений с помощью различных браузеров за период с 6 марта 2008 года по 3 мая 2008 года показана на рис. 4 (по данным компании SpyLog25).

Помесячная статистика использования браузеров, по данным портала W3Schools для веб-разработчиков26, приводится в табл. 1.

При сохранении доминирующего положения Internet Explorer наблюдается устойчивый рост популярности браузера Firefox. К возможным причинам этой тенденции можно отнести наличие довольно большого количества созданных и создаваемых специально для него функциональных расширений, улучшающих качество, надежность и представление результатов поиска. Часть из них может применяться как инструментальные средства специалистами по решению задач поисковой оптимизации (см. далее; например, в [5] приводится список-указатель полезных расширений для профессионалов в этой области). Кроме того, в браузере реализованы полезные свойства платформы Mozilla, позволяющие ис-

пользовать факты, представленные в формате RDF, не обязательно читая или создавая файлы в этом формате [6].

Браузеры семантических сетей

Основное отличие проведения поиска по семантической сети от поиска по традиционной заключается в способе обхода: в Интернете все переходы по его узлам управляются документарными ссылками, в семантической сети браузер ведет просмотр отношений (предикатов) в сети, состоящей из понятий. Такой механизм выборки обеспечивает достижение двух важных для пользователя эффектов: во-первых, осведомленность относительно источников получения информации определяет степень его к ней доверия, и, во-вторых, имея возможность отслеживать последовательность перемещений, он может влиять на общее время доступа, поскольку последнее определяется числом выполняемых обращений.

Так, приоритетным с точки зрения навигации для разработанного Тимом Бернерс-Ли браузера Tabulator [7] является граф логической структуры информации, а сеть документов рассматривается как вторичная. В процессе поиска пользователь просматривает абстрактную совокупность данных, представимую графом, получаемым как объединение графов прочитанных документов. При этом всегда можно установить происхождение любого информационного фрагмента. Щелчок по любому элементу данных на эк-

Таблица 1

Динамика использования браузеров

2008 год IE7 IE6 IE5 Firefox Mozilla Safari Opera

Апрель 24,9 28,9 1,0 39,1 1,0 2,2 1,4

Март 23,3 29,5 1,1 37,0 1,1 2,1 1,4

Февраль 22,7 30,7 1,3 36,5 1,2 2,0 1,4

Январь 21,2 32,0 1,5 36,4 1,3 1,9 1,4

http://gs.spylog.ru/rsu/ 26 http://www.w3schools.com/browsers/browsers_stats.asp

60

Hb5(17)2008

"The Tabulator Project

► C Data on location of libraries mostly in the UK® ►C Martin Hepp®

► C Semantic Web Coordination Group plan includes calendar inloB

»TAGmobile road trip BOS->Amerst: photo locations

mentions ► • Record

'ColorPicture

is mentioned in ►cTAGmobile road trip BOS->Amerst: photo is type ol ► t http^/www.v»3.org/2004/lambdafPictures/i

► c.http://www.w3.org/2004/lamt>da/Pictures/i

► C http://www.w3.Org/2004/lambda/Pictures/i

Рис. 5. Представление результатов поиска в браузере Tabulator

ране браузера установит указатель на источник данных в разделе экрана со списком источников и состоянием их на текущий момент. Двойным щелчком будут извлечены и показаны метаданные об источнике.

Кроме того, при наличии связи с допускающим просмотр URI на экран выводится малая кнопка, синий цвет которой означает, что к информации еще не обращались; зеленый — что информацию уже извлекли; желтый — что сейчас идет процесс выборки; красный — неудачный результат обращения (рис. 5).

Доступ к FTP-серверам

Большинство браузеров поддерживает протокол FTP или его расширение FTPS. Это позволяет пользователю манипулировать с файлами удаленного сервера на основе интерфейса, схожего с интерфейсом для манипулирования с файлами на локальном компьютере. Наряду с этим продолжают самостоятельно существовать и программы, ориентированные на работу с FTP-сер-верами и имеющие значительно усовершенствованные параметры (расширенный перечень используемых протоколов, многопоточное скачивание и т.д.). В качестве примера можно назвать FileZilla27 — FTP-кли-ент, предназначенный для скачивания файлов с FTP-серверов.

3. Поисковые машины

Исторический обзор

Первоначально для поиска сведений в Интернете применялся традиционный способ: владельцы сайтов направляли ин-

со

о ê а= а=

формацию о них в редакции регулярно выходивших специальных справочников по информационным ресурсам Интернета, которые по аналогии с телефонными назывались «Желтые страницы». Однако вскоре в связи с увеличившимися объемом и темпами роста информационных ресурсов Интернета такой способ стал неприемлемым, и появились поисковые машины (Search Engine), реализованные как компьютерные программы.

Первой такой программой была Archie (название образовано из слова «archive» с изъятой буквой «v»), разработанная в 1990 году Аланом Эмтеджем (Alan Emtage), студентом университета McGill г. Монреаля. Программа загружала содержимое каталогов файлов общедоступных FTP-сайтов в базу данных с именами файлов, которая использовалась для поиска в Интернете. Содержимое файлов не индексировалось.

В 1991 году Марк МакКахилл (Mark P. McCahill) из университета Миннесоты создал компанию Gopher, выпустившую программы Veronica и Jughead. Аналогично Archie они вели поиск по именам файлов и названиям, сохранявшимся в индексной базе Gopher. Программа Veronica (Very Easy Rodent-Oriented Net-wide Index to Computerized Archives) осуществляла поиск по ключам для всех меню системы Gopher, программа Jughead (Jonzy's Universal Gopher Hierarchy Excavation And Display) обеспечивала доступ к информации из меню конкретных серверов Gopher.

Первой поисковой машиной (ПМ) был Wandex, индексная база которого строилась

http://filezilla-project.org/

27

N95(17)2008

с помощью робота World Wide Web Wanderer, разработанного в 1993 году Mетью Грэ-ем (Matthew Gray) из Mассачусетского технологического института. В том же году появилась ПM Aliweb, в 1994 году — JumpStation, в которой применялся поисковый робот, но поиск ограничивался названиями вебстраниц. Одной из первых ПM, построенной на основе полнотекстового робота, была WebCrawler (1994 год), позволявшая пользователям искать любое слово на любой странице, что в последующем стало общепринятой практикой. В этом же году появилась ПM Lycos (университет Carnegie Mellon).

Вскоре после этого появились Excite, Infoseek, Inktomi, Northern Light, AltaVista, Yahoo! и ряд других.

Примерно на 2000 год приходится значительный рост популярности ПM Google, обусловленный применением инновационной технологии PageRank, которая позволила существенно повысить качество поиска.

Компания Yahoo! вплоть до 2000 года предоставляла поисковые услуги, используя ПM Inktomi, а затем стала применять ПM Google. С 2004 Yahoo! перешла на собственную разработку, построенную на гиб-sS ридной технологии.

¡u В конце 1998 года компания Microsoft вы-Ц пустила ПM MSN Search (позднее переиме-II нованную в Live Search), применявшую ПM S Inktomi. С 2004 года Microsoft стала перехо-¡1 дить на собственную поисковую технолога гию и собственный робот (msnbot).

0

1 Лидеры ПМ

j! Сайт компании Google28, которую осно-

Ц вали 7 января 1998 года Ларри Пейдж (Larry

Page) и Сергей Брин, в настоящее время является самым посещаемым сайтом Интернета. Основным источником дохода компании являются средства, получаемые от размещения рекламы. 19 августа 2004 года компания начала продажу своих акций на фондовом рынке.

Google может находить информацию на 117 языках (на 28 апреля 2008 года), занимает более 75% мирового рынка ПМ, регистрирует около 37 млрд поисковых запросов в год. Интерфейс ПМ содержит довольно сложный язык запросов, позволяющий ограничить область поиска отдельными доменами, языками, типами файлов и т.д. (например, поиск по запросу «intitle:Google site:wikipedia.org» даст все статьи Википе-дии на всех языках, в заголовке которых встречается слово Google).

На сайте компании предлагается много бесплатных услуг, включая такие популярные, как почтовый сервис Google Mail и картографический сервис Google Maps (сервис является лидером среди программных средств для интегрированных приложений mashups), а также сервисы, повышающие удобство работы пользователя в Интернете (ведение истории поисков, веб-блокнот, глоссарий, новостная лента и др.).

Google постоянно расширяет свои активы. Самым крупным ее приобретением была компания YouTube, купленая за 1,65 млрд долларов в ноябре 2006 года.

Сайт компании Яндекс (Yandex)29 в настоящее время является самым посещаемым сайтом российского сегмента Интернета. Официально ПМ Yandex.Ru была анонсирована 23 сентября 1997 года30. Ос-

28 http://www.google.com/corporate/

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Googol (гугол) — математический термин, обозначающий единицу со 100 нулями. Он был придуман Милтоном Сироттой, девятилетним племянником американского математика Эдварда Каснера, и впервые описан в книге Каснера и Джеймса Ньюмена «Математика и воображение» (Kasner E., Newman J.R. Mathematics and the Imagination. Mineola, N.Y.: Dover Publications, 2001).

29 http://company.yandex.com/

<^ndex» означает «Языковой index», по-английски Yandex — Yet Another indexer. Впоследствии возникли и другие толкования. Например, если в слове «Index» перевести с английского первую букву («I» — «Я»), получится <^ndex».

30 http://wiki.searchengines.ru/index.php/Яндекс

62 / —

' Инструментальные средства # Обработка информационных ресурсов

Ив5(17)2008

новными отличительными чертами этой ПМ на тот момент были:

• проверка уникальности документов, исключавшая копии в разных кодировках;

• учет морфологии русского языка (в том числе поиск по точной словоформе);

• поиск с учетом расстояния;

• алгоритм оценки релевантности, учитывающий не только количество слов запроса, найденных в тексте, но и «контрастность» слова (его относительную частоту для данного документа), расстояние между словами, положение слова в документе.

В ноябре 1997 года был реализован естественно-языковый запрос. Средняя длина запроса с этого времени возросла с 1,2 до 2,7 слова.

С 1998 года на Yandex.Ru стало возможно «найти похожий документ», список найденных серверов, вести поиск в заданном диапазоне дат и сортировать результаты поиска по времени последнего изменения. ПМ использует несколько функционально ориентированных роботов (индексирующий робот, индексатор картинок, робот, определяющий зеркала сайтов, и др.). Среди дополнительных служб Яндекса — платежная система, последние новости, карты, энциклопедии, электронная почта, система фильтрации спама, бесплатный хостинг (Народ), каталог товарных предложений магазинов (Маркет) и многое другое. К 2005 году ежедневная аудитория Яндекса составила более 2,5 млн человек, ежемесячная — более 16 млн.

Типы поисковых машин

Большинство существующих ныне ПМ относятся к одному из двух типов:

• ПМ, представляющие собой иерархически организованный тематический каталог (дерево), к узлам которого прикрепляются списки адресов страниц, содержащих информацию соответствующих уровня и направленности. Такие ПМ называются ката-

логами или директориями. Каталоги позво- § ляют пользователям выбрать подходящую g рубрику (чаще всего с использованием гра- <5 фического Windows-подобного интерфей- ^ са типа развертывания/свертки) и получить ас список страниц по указанной тематике. Однако серьезным недостатком такого подхода являются большие временные затраты на построение каталогов, которое выполняется вручную. Поэтому область применения каталогов для поиска весьма ограничена (одним из типичных применений каталогов является поиск объектов в базах прикладных программ и утилит);

• ПМ, создающиеся на основе построения и использования так называемой индексной базы (индекса). В общем случае индекс представляет собой массив n-ок переменной длины. Первым элементом каждой n-ки служит термин, используемый для поиска. Последующие элементы — адреса веб-страниц, содержащих как минимум одно вхождение термина, указанного в л-ке. Поиск на основе индекса производится с помощью комбинации логически связанных между собой ключевых слов. При этом необязательно ПМ использует собственный индекс, вполне типичной является практика использования индекса другой ПМ.

Булева логика

Основная часть формируемого запроса для ПМ состоит из поисковой строки — символьного выражения, использующего сочетание слов (терминов). Сочетания задаются с помощью правил булевой логики, представляющей собой способ связывания посредством операторов терминов, вхождение которых отыскивается в искомом тексте.

Основными операторами, используемыми в ПМ, являются:

И (AND)

В тексте должны присутствовать оба указанных термина (многие ПМ допускают использование символа «+» вместо имени оператора).

63

N95(17)2008

ИЛИ (OR)

В тексте должен присутствовать один из указанных терминов или оба вместе.

НО НЕ ([AND] NOT)

Указанный термин не должен присутствовать в тексте (многие ПМ допускают использование символа «-» вместо имени оператора).

ПЕРЕД (BEFORE)

Оба указанных термина должны стоять в просматриваемом тексте рядом в заданном порядке.

РЯДОМ (ADJ)

Указанные термины должны стоять в просматриваемом тексте один рядом с другим в произвольном порядке.

НЕ ДАЛЬШЕ (NEAR)

Указанные термины должны стоять в просматриваемом тексте на удалении, не превышающем определенного числа слов. Количество слов в одних ПМ задается как фиксированное, а в других может быть переменным параметром.

I

^ НЕ БЛИЖЕ (FAR)

Ц Указанные термины должны стоять | в просматриваемом тексте на удалении, не меньшем определенного числа слов. Коли-Si чество слов в одних ПМ задается как фик-| сированное, а в других может быть пара! метром.

I

^ Для установления порядка следования

% операторов и группирования слов могут ис-

| пользоваться круглые скобки (следует все-

jg гда заключать в круглые скобки термины,

§ связанные оператором ИЛИ).

I

g Опции поиска

g В ряде ПМ пользователь может управ-§ лять составлением поискового запроса посредством задания специальных режимов. ^ Отметим наиболее употребительные режимы:

64 у

Учет регистра (Case sensitivity)

Проверяется соответствие регистра написания букв термина в просматриваемом тексте регистру написания буквы в поисковой строке (как правило, проверяется соответствие верхнему регистру, если в нем стоит буква в поисковой строке).

Поиск всех словоформ (Stemming)

Текст просматривается на вхождение всех производных заданного слова (корня).

Исключение семантически незначимых слов (Stop words)

Малозначимые слова (артикли, предлоги и т.п.) из поисковой строки исключаются.

Усечение слова (Truncation)

Просмотр текста производится без различения словоформ (например, слово, написанное в другом падеже, считается вхождением в текст).

Шаблон-заместитель *

Присутствие в поисковом строке этого символа означает требование найти вхождения всех терминов, содержащих на этом месте одну или несколько букв (любых).

Шаблон-заместитель ? (%)

Присутствие в поисковой строке этого символа означает требование найти вхождения всех терминов, содержащих на этом месте ровно одну букву (любую).

+ (Require)

Ограничивает поиск документами, которые обязательно включают стоящее за символом слово. В случае нескольких слов, стоящих за символом +, предполагает логику И (в документе должны присутствовать все перечисленные).

- (Reject)

Исключает из рассмотрения документы, имеющие стоящее за символом слово. В случае нескольких слов, стоящих за символом + , предполагает логику НО НЕ (в до-

И95(17)2008

кументе не должно присутствовать ни одно из перечисленных).

Указатели типов и форматов отбираемых данных

Позволяет ограничивать поиск данными только указанного типа. Обычно тип задается либо проставлением пометок рядом с нужными типами (MP3, Acrobat, Video и т.п.) на поисковых формах, либо вводом расширения (doc, ppt и т.п.).

Поиск в найденном (Sub searching)

Возможность выполнить повторный поиск в уже найденном множестве страниц.

Имя изображения

Указание найти страницы, содержащие в тексте ссылку на файл изображения с именем <Имя изображениях

Функции и параметры ПМ

Размер индексной базы. Больший размер индексной базы необязательно означает большие поисковые возможности ПМ, однако если необходимости отыскать страницы по какой-то редкой тематике или с плохо определимым поисковым запросом, предпочтительно обращаться к ПМ с большой индексной базой. В статье [9] дается сравнительный и исторический обзор размера индексных баз ПМ, являющихся лидерами по этому показателю.

PageRank. Система ранжирования веб-страниц PageRank™31, разработанная в Стенфордском университете основателями компании Google Ларри Пейджем и Сергеем Брином, представляет собой центральную часть ПМ Google. Поисковый механизм PageRank основан на использовании в качестве индикатора значимости отдельной структуры ее связей. А именно Google трактует ссылку со страницы A на

страницу B как «голосование» страницы A § за страницу B. Однако определение рей- | тинга страницы не сводится к простому <5 подсчету числа поданных за нее голосов. ^ В частности, в рассмотрение принимает- ас ся и проголосовавшая страница. Голоса страниц, которые являются сами по себе «значимыми», имеют больший вес и увеличивают «значимость» других страниц. Использование этих принципов в сочетании с другими и предопределяет, в конечном счете, относительную важность страницы в системе Google. PageRank не является единственным средством ПМ, а используется в комбинации с довольно сложным механизмом поиска на основе сопоставления с текстом запроса для отыскания страниц, являющихся одновременно и наиболее важными, и наиболее релевантными.

Ярлыки (Shortcuts). Ярлыки системы Yahoo!32 представляют собой специальные средства, предназначенные для получения быстрого (практически немедленного) ответа на вопросы конкретного характера. Например, в текущую версию ПМ Yahoo! включено около 30 ярлыков (сведения об аэропортах и авиарейсах, часовые пояса, погода, географические карты, биржевые котировки и т. п.).

AskEraser. Опция AskEraser33 является примером применения ПМ Ask.com политики защиты конфиденциальности. В случае активации ее пользователем производится полное уничтожение всех ответов на поисковые запросы и данных, включая IP-адрес, идентификатор пользователя, и сеансовых файлов cookies, а также текстов поисковых запросов на всех серверах Ask.com.

Ранжирование (Results ranking). Это способ отображения результатов поиска34. Наиболее употребительными являются виды ранжирования:

http http http http

//www.google.com/technology/index.html

//help.yahoo.com/l/us/yahoo/search/tips/basics-05.html

//sp.ask.com/en/docs/about/askeraser.shtml

//www.lib.berkeley.edu/TeachingLib/Guides/Internet/Glossary.html#ResultsRanking

65

3-

Ms5(17) 2008

i

й §

«

0 ü

1 ¡

0 §

! ir

1

s 00 O

to ¡

§

! §

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

• по релевантности.

Ранжирование осуществляется на основе

используемого механизма поиска. Например, при использовании метода Нечеткое И (Fuzzy AND) сначала выводятся ссылки на документы, имеющие вхождения всех терминов (связка И), после них — документы, имеющие вхождения каких-либо из терминов (связка ИЛИ). Число вхождений терминов по мере продвижения вниз по списку уменьшается;

• по популярности.

Ранжирование осуществляется на основе числа ссылок на отобранные страницы;

• по числу тематических ссылок.

Ранжирование осуществляется на основе числа ссылок на отобранные страницы, но только с учетом тематики.

Ограничение полей просмотра (Field limiting). Просматриваются лишь указанные поля документа. Наиболее часто встречающееся используется для поиска только в поле Название (Title) документа (документов, имеющих одно или более ключевых слов). Качество результатов поиска сведений по различным областям знаний, обеспечиваемое разными ПМ, неодинаково. В табл. 2 исходя из своего практического опыта приве-

Таблица2 Наилучшие ПМ по областям поиска

Тематическая область Рекомендуемая ПМ

Сельское хозяйство The Big Hub

Домоводство Dogpile

Образование About.com/Yahoo!

Техника Google

Здравоохранение Yahoo!

Свободные искусства и науки Google

Менеджмент Lycos

Медицина Yahoo!

Фармакология Yahoo!

Наука Excite

Технология Snap

Ветеринария, медицина Go.com

дены рекомендации компании Online Writing Lab35 по использованию ПМ для поиска информации в тематическом разрезе.

Статистика использования ПМ

Согласно данным аналитической компании NetApplications, доля, занимаемая различными ПМ на мировом рынке, выглядит следующим образом (рис. 6)36. При

80,00% 70,00% 60,00% -50,00% 40,00% 30,00% 20,00% -10,00% 0,00%

77,23%

J

12,24%

3,25% в"

2,50%

"в"

2,40%

"в"

1,37%

0,20%

GoogleGlobal

YahooGlobal

MSNGlobal

Microsoft AOL-Global Ask-Global Live Search

Другие

Рис. 6. Доля ПМ на мировом рынке

35 http://owl.english.purdue.edu/internet/search/table.htm

36 http://marketshare.hitslink.com/report.aspx?qprid=4

66

70,00% 60,00% 50,00% 40,00% 30,00% 20,00% 10,00% 0,00%

65%

15%

4% 3% о,к,

м W а

2%

1%

№5(17)2008

1%

1%

Google Yahoo Baidu Microsoft NHN eBay AOL Ask Fox Lycos

Interactive Media

Рис. 7. Наиболее популярные ПМ

со

I

I

ас ас

этом, по данным этой же компании, никаких тенденций к изменению этих показателей за последние месяцы не прослеживается.

Статистика обращений к ПМ на проведение поисков приведена на рис. 737.

На российском сегменте Интернета, по данным сайта компании SpyLog, за период с 6 марта 2008 года по 3 мая 2008 года тройку лидеров по критерию статистики посещений образуют Яndex, Google, Rambler (рис. 8).

Rambler

32,87%

Рис. 8. Популярные ПМ российского Интернета

На страницах консультационного сайта Phil Bradley38 приведены 135 ПМ, осуществляющих поиск по всему Интернету, региональных и национальных ПМ (для России

список насчитывает 85 ПМ). Сведения по ПМ для поиска в блогах и RSS приведены на опрежеленном сайте39.

Метапоисковые машины

В отличие от ПМ метапоисковые машины (МПМ) не ведут собственных баз данных с веб-страницами. Ключевые слова, введенные в окно поискового запроса МПМ, передаются одновременно нескольким ПМ с их базами данных веб-страниц. Возможности поискового языка у МПМ, как правило, шире, чем у конкретной ПМ. Если возможности конкретной ПМ не позволяют реализовать поисковое выражение, то запрос предварительно переформулируется с целью замены или исключения не используемых в ПМ операций или операндов (например, операция NEAR будет заменена на операцию AND, операция NOT будет исключена из поискового выражения в случае отсутствия в МПМ этих операций). Полученные от каждой из запрошенных поисковых машин результаты могут быть представлены или в виде единого списка, или в разрезе ПМ. В ряде МПМ присутствуют механизмы группирования и лингвистиче-

37 http 38 http 39 http

//searchengineland.com/071010-192830.php //www.philb.com/webse.htm; http://www.philb.com/countryse.htm //www.faganfinder.com/blogs/

N95(17)2008

ского анализа получаемых результатов поиска. Например, в МПМ Clusty (разработка Carnegie Mellon University)40 результаты поиска могут отображаться следующим образом (рис. 9).

Из списка удаляются дубликаты адресов документов, найденных несколькими ПМ, могут также удаляться ссылки на уже не существующие документы. Однако на основании проведенного в [10] обследования множества МПМ авторы установили, что эта операция не реализована ни на одной из них.

Единства мнений по поводу преимуществ МПМ по отношению к ПМ на сегодняшний день не существует41. Так, относительно МПМ Vivisimo42 в работе43 делается заключение о том, что хороший алгоритм кластеризации этой МПМ обесценивается снижением качества получаемых результатов, в которых присутствует много ссылок на малозначимые и общедоступные справоч-

ники, обычно весьма небольшие и имеющие коммерческую направленность. Кроме того, создаваемый МПМ агрегированный список отличается неоднородностью с точки зрения оценки релевантности каждого его элемента в силу различных критериев оценивания релевантности, используемых разными ПМ, к которым обращаются МПМ.

Многие МПМ предоставляют пользователю возможность самостоятельно выбирать перечень ПМ, которые должны участвовать в поиске по его запросу. Это может предваряться рекомендациями по выбору в зависимости от конкретной тематики запроса.

Возможности МПМ могут быть расширены за счет метапоисковыхутилит (МПУ), которые размещаются на компьютере пользователя. Они позволяют осуществить обработку полученных результатов поиска: сортировать полученные данные, исклю-

I search engines

i

is §

со

0

ü *

1

0 §

! t

1

s

О

to

Ü

Si

Ё Ü Л

I clusters I_

All Results (257) remix

0 Search engine optimization^) 0 Google (33) 0 Marketing (36)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

0 Meta [17]

0 Images(i4)

0 Internet Search Engines(i5) 0 Category (12) 0 Reviews(8) 0 Search Engine List [10] 0 Study (6) more | all clusters

find In clusters:

Top 257 results of at least 19,360,000 retrieved for the query search engines (details)

Search Resul

1. Doapile Web Search Home Page © &

Dogpile.com makes searching the Web easy, because it has all the best search engines piled into one. Go Fetch! www.dogpile.com - [cache] - Live, Ask, Gigablast

2. Metasearch Search Engine - Search.com @ ^ «ft

Search the Web by searching the best engines from one place. ... Browse the Web by category in the Searcli.com Directory. Search the Web by searching the best engines from one place ... www.search.com - [cache] - Live, Gigablast

3. Ask com Search Engine - Better Web Search e ^ <ft

Offers search for web sites, images, news, blogs, video, maps and directions, local search and shopping. www.ask.com - [cache] - Ask, Open Directory

4. Web search engine - Wikipedia. the free encyclopedia © (ft

Article in the online collaborative encyclopedia, describing the history and mechanisms of Web search engines. en.wikipedia.org/wiki/Search_engine - [cache] - Gigablast, Ask

5. Mamma Metasearch - The Mother of All Search Engines B^®

Uncover more of the web with metasearch! Mamma.com collects only the top results from the best search engines or the Internet.

www.mamma.com - [cache] - Ask, Gigablast

Рис. 9. Пример представления результатов поиска МПМ Clusty

http http http http

//clusty.com/

//vivisimo.com/press/2008/discovery-20080520 //vivisimo.com/

//www.workingfaster.com/sitelines/archives/2004_07.html#000222

68

4"

И95(17)2008

чать неактуальные ссылки, сохранять результаты в базе данных.

Архитектура ПМ

Для поиска нужных страниц ПМ не сканируют весь Интернет. Для этого производится поиск в полнотекстовых базах вебстраниц, размещенных на серверах Сети.

Большинство используемых ПМ основаны на централизованной архитектуре, включающей 3 основных компонента (рис. 10):

1. Паук, или поисковый робот (crawler).

Этот компонент представляет собой

программу, предназначенную для обхода страниц Интернета с целью занесения их в базу ПМ и использования в дальнейшем для поиска этих страниц. Порядок обхода страниц и частота их посещений регулируются применяемым алгоритмом, большинство их основано на анализе межстраничных связей.

2. Индексатор (indexer).

В задачу модуля входит построение поисковых индексов на основе множества документов. Индексатор анализирует ключевые структурные элементы страницы (заголовки, основной текст, ссылки) с тем, чтобы в дальнейшем к ней можно было получить доступ по ключевым словам или с помощью других более сложных механизмов поиска,

структурирует и заносит в базу данных (ин- § декс). |

3. Поисковик (searcher). <5

Основная его функция состоит в обра- ^ ботке запросов пользователей на поиск. ас Получив запрос, поисковик обращается к содержимому базы данных (индексу), производит выборку ссылок на страницы и представляет пользователю результат поиска.

Для поддержки работы поискового робота ряд ПМ имеют в своем составе компонент, называемый локальной памятью, в котором хранится образ состояния каждого документа в Интернете на данный момент времени.

Примером архитектуры ПМ может служить робот FAST [11]. Робот представляет собой кластер взаимосвязанных машин (рис. 11), каждая из которых отвечает за сканирование отведенной ей отдельной части веб-пространства.

Особый интерес у исследователей вызывают тематические (или фокусные) роботы. Такие роботы ориентированы на нахождение в Интернете небольшой по размеру, но информационно насыщенной по конкретной тематике совокупности документов, которые впоследствии можно извлечь для получения необходимых сведений с помощью полнотекстового поиска, индекси-

Интернет

Рис. 10. Архитектура ПМ

69

Ив5(17)2008

i

e §

со Q

ü

i ¡

Q §

!

ir

i s

O

СО

Ü =a

Ё §

Результаты поиска

Рис. 11. Архитектура робота Fast

рования и ранжирования. Тематические роботы чаще всего применяются для отбора документов делового характера. Это обусловливает необходимость уделять повышенное внимание вопросу актуализации содержимого документов, для которых характерна очень большая динамика: 40% из 720 тыс. документов, наблюдение за которыми велось на протяжении 4 месяцев, обновлялись ежедневно [12]. Одной из ключевых задач при проектировании систем этого класса является построение механизма избирательного поиска, осуществляемого роботом. В него могут входить анализ контекста, включающего тип родительского приложения, лексическая связь с другими веб-страницами, а также граф, построенный на основе ранее просмотренных страниц.

К важным факторам, рассматриваемым при проектировании, относится также характер решаемых поисковым роботом за-

дач. Довольно большое разнообразие архитектур и реализационных особенностей роботов вызвано учетом таких параметров, как:

• специфика запросов и ключевых слов, используемых для формирования поискового критерия робота;

• характеристики пользователей ПМ;

• желательные свойства отбираемых страниц (похожие страницы, популярные страницы, значимые страницы и т. п.).

В качестве требований к роботу могут входить и ограничения на такие параметры, как максимальное количество добавляемых в результате поиска страниц (дальние просмотры (long crawls) или короткие просмотры (short crawls)) либо величина доступной памяти. Таким образом, задачу робота можно трактовать как проведение многоцелевого поиска в условиях ряда ограничений. Большое разнообразие целевых функций и недостаточные сведения относительно области поиска делают эту задачу непростой.

С обзором математических моделей и алгоритмов поиска можно познакомиться в [13].

Поисковая оптимизация

Одной из важных задач проектирования сайтов является увеличение их видимости для ПМ. Решение этой задачи, которая называется поисковой оптимизацией (Search Engine Optimization — SEO), включает44:

• аудит сайта, который направлен на нахождение брешей в html-коде сайта, в его ссылочной структуре, в текстах;

• устранение технических проблем (например, проблем с хостингом, с «движком» сайта), а также проблем, связанных с индексацией сайта;

• разработка рекомендаций по поисковой оптимизации веб-сайта, ее целью является внесение в код сайта изменений, необ-

44 http://www.bdbd.ru/

70

Но5(17)2008

ходимость которых была выявлена в результате аудита сайта.

Кроме того, SEO предполагает проведение мероприятий для стимулирования создания новых ссылок на ресурс (обмен ссылками, регистрация в каталогах и др.).

Оптимизация сайта учитывает правила и алгоритмы, используемые ПМ для определения релевантности сайта. В частности, определяются такие показатели, как частота ключевых слов и индекс цитируемости сайта.

История SEO берет свое начало с середины 1990-х годов вместе с открытием и развитием поисковых систем45. ПМ этого времени ориентировались на содержание страниц и прочие внутренние факторы (навигация, структура, грамотная разметка и внутренние ссылки). Тексты на сайтах легко приводились в соответствие запросам, что в скором времени привело к появлению в результатах поиска поискового спама — страниц, не несущих, как правило, никакой смысловой нагрузки и созданных с целью манипуляции результатами поиска.

Появление технологии PageRank (см. выше) привело к радикальным переменам. Теперь не менее важную (если не определяющую) роль стали играть внешние факторы: количество ссылок, ведущих на страницу, увеличивало «вес» («важность») этой страницы для ПМ. Это внесло коррективы в методы работы по SEO — в регистрацию в каталогах и рейтингах, в обмен ссылками и прочие действия, увеличивающие число ссылок на страницу.

Различают несколько видов оптимизации46:

• белая оптимизация предполагает применение не запрещенных поисковиками методов раскрутки ресурса;

• серая оптимизация, при которой применяются методы, запрещенные поиско-

выми системами: например, использование § линкаторов (автоматизированные системы | обмена ссылками), взаимный обмен ссыл- <5 ками, покупка ссылок с других ресурсов, ^ автоматическая накрутка счетчиков и т.п. ас Также к серым методам относятся перенасыщение текста ключевыми словами в ущерб его читабельности, добавление содержимого с чужого сайта;

• черная оптимизация строится на использовании скрытого текста (цвета фона, очень малого размера) и на создании дорвеев (doorway) (автоматически — реже вручную — созданные страницы с бессмысленным набором ключевых слов специально для роботов поисковых систем). Дорвеи используются как посредники между поисковой системой и оптимизируемым сайтом. К черным методам SEO можно также отнести использование так называемого скрытого текста на страницах сайта. Для пользователей данный текст не виден, однако поисковые роботы легко его индексируют. Обычно в скрытом тексте содержатся ключевые слова для придания «веса» оптимизируемой странице. Черная оптимизация может привести к удалению сайта из базы данных ПМ. Известные способы черной оптимизации, для которой также используется термин spamdexing, описаны47.

Создатели современных ПМ стремятся строить их алгоритмы так, чтобы предусмотреть противодействие недобросовестной оптимизации. Например, семантический анализ текста позволяет отсеять поисковый спам в случае слишком частого появления на странице ключевого слова, а выявленные циклические (обратные) ссылки игнорируются.

Пиринговый поиск

Примером ПМ, ориентированных на поиск внутри пиринговых систем, может слу-

45

http 46 http 47 http

//autoreg.ru/seo.html //autoreg.ru/seo.html //en.wikipedia.org/wiki/Spamdexing

71

Ив5(17)2008

i

is §

CO

0

n

1

is

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

I

0 §

! t

1

s

О

CO

Ü ё

Ё

Ü

жить ПМ btbot48. Эта ПМ реализует специализированный поиск, ограничивая его анализом ссылок на файлы BitTorrent. Такие ссылки присутствуют только на относительно небольшой части Интернета, поэтому за счет применения стратегии crawling с посещением только подходящих сайтов повышается релевантность, и каждый подходящий сайт посещается чаще, чем другие. Алгоритмы поиска таких ПМ создаются с применением методов искусственного интеллекта, кластеризации, управления знаниями, теории графов, управления знаниями и др.

Поиск веб-сайтов

Возможности поиска веб-ресурсов расширяются за счет средств, которые предлагают порталы с каталогами сайтов Интернета, реализуемые на основе использования современных технологий. Примером такого подхода может служить энциклопедия сайтов Вебпедия, реализуемая на портале Softodrom.ru49.

Вебпедия реализуется на основе технологии вики (wiki — см. далее). Однако в отличие от Википедии (см. далее) деление на значимые и незначимые сайты не производится (все сайты равнозначны). Каждому сайту посвящена собственная статья, любой участник Вебпедии может изменять и дополнять любую статью, а также создавать посвященные сайтам новые статьи. Сайты разделены по категориям, которые могут быть изменены посетителями.

4. Надежность поиска

Создание механизма проверки качества получаемой информации продолжает оставаться одной из ключевых задач совершенствования Интернета, ее решению уделяется большое внимание со стороны исследователей и разработчиков. Помимо традиционно используемых в информационном поиске критериев точности (отношение

48 http://btbot.com/labs.html

49 http://www.softodrom.ru/about.shtml

числа найденных релевантных документов к общему числу найденных документов) и полноты (отношение числа найденных релевантных документов к общему числу релевантных документов), большое значение приобретает надежность извлекаемых данных. Заслуживают внимания следующие подходы, применяемые компаниями, специализирующимися на разработке и коммерческом применении ПМ, а также разработчиками сетевых приложений.

Подход на основе концепции семантической сети

Принципы построения семантической сети включают наличие файлов метаданных, содержимое которых помогает ПМ и браузерам извлечь сведения, дающие пользователю возможность определить степень своего доверия к используемому источнику. Наряду с тегами названия и описания, для получения и отображения с помощью браузера информации о сайте могут быть полезны также метки содержимого (Content Labels).

Примером применения такого принципа является расширение Search Thresher для браузера Firefox разработки компании Segala [14]. Оно используется следующим образом:

• пользователь обращается к ПМ Google с ключевым словом (например, Segala);

• перед тем как браузер отобразит страницу с результатами поиска, Search Thresher выявляет сайты со страницами, включающими, помимо тегов названия и описания, тег Content Label link:

<link rel="meta" xhref=http://www.segala.com/ labels/tcuk_label_001.rdf mce_href=http://www.segala.com/labels/tcuk_ label_001.rdf

type="application/rdf+xml" title="Segala label"/>

72

Но5(17)2008

• ссылки на страницы, которые имеют тег ссылки с указанным в нем именем Segala в поле имени, помечаются на странице с результатами зеленой галочкой, сайты, которые имеют теги ссылки, но с другими именами, — желтой галочкой. Сайты, не имеющие тега ссылки, помечаются красным квадратом с символом X внутри (рис. 12). Можно также задать режим отображения только ссылок, помеченных зеленой галочкой.

Аудит ПМ

Для оценки качества результатов поиска, выполняемого конкретной ПМ, можно использовать информацию о ее надежности. Проверить сайт ПМ можно с помощью специальных программных средств. Примером инструмента ранжирования сайтов ПМ

является продукт компании McAfee50 ig McAfee SiteAdvisor, устанавливаемый как g расширение браузера Firefox. На рис. 13 <5 показан пример результатов, получаемых ^ с помощью этого приложения. ас

Установленное как расширение браузера Firefox, приложение позволяет получить справку по каждой ссылке результатов поиска в виде всплывающей подсказки (рис. 14).

Компания McAfee использует свой продукт как средство проводимых ежегодно исследований безопасности, результаты которых публикуются. На рис. 15 приведена диаграмма с рейтингами надежности ПМ из отчета о результатах анализа поисковых сайтов за 2007 год на сайте компании51.

Изучались 5 ПМ: Google, Yahoo!, MSN, AOL, Ask. Вначале был составлен список из

Google

segala

@ fliMctB Интернете О Поисс страниц, на руссиш

Rdhck

Или«»™

в»6 Phtj

Попробовать искать н? Vahon. Рэп-тЫр'. Ask, yQheWeb, Li-e, Lycos. Alti

BOGH»HO, 8bi имели E еэду сегзлэ

Search Thrcshi;: Show merged sues only. ■ler'.Ed self-Celled all sies

Bj SetlJfa - | Перегест.- v ■ стсэ>лцу | - Ф|-'эТЭ

Leafing independent authority and pfo-idei woiidwde of Web AcMHihility, Sile Certlficalion. Truilnnarks and Mobile Testing pmducli and seiyicEi.

i.1Г.1.COnJ- 15k * CtTHfl'l В 'ЧИП - CTj ^HI'^^ - 1TL

Т-'UilTiiik-Veiided - j^o

В I Setldla - I Пег свести эту стгдниц' |- ¿т.-^тд

This 1$ v<tiy Sh: i|li].i has bdi^n warh :niq L.I Cbn:t-ir LnhirlS for thli pa St jwq add a hali f frflrj

This 3log ii a'tracling riw reader л:; ths liitie го I wonl album?... гe<j iita.conn/blig/ -81k- Сохранено а кэше - Покосе страницы - Записать Шю.'чителыые реэг/ьтэтыс 5pqala иш i Tfustmiik - ViiifleS - nto

□ ГНттейно-пресеовый Зэеод «Сегэл^ - Компании - СИАЛ

Лгтеимо П.аессоЕнг Ззвод <СегчШ> — однк hj 1фупнейш1нх а Рмсии раграбат^ниов. гцтювщцггалвЛ и поставщиков системны* алюминиевых профилей для создания ,.. w+^.5ial-jioij;!.n]/tiiJnpanji/aboii[/'id=l - 12k-COxp^H^Hfr в страницы ■ Записать ■ (Diifib^J? _' -ч- '■■■■_:-■ ■■■■ ■ ■■■■•_i! { .''■■■_

Рис. 12. Результаты поиска, помеченные расширением Search Thresher

50 http://www.mcafee.com/uk/

http://www.siteadvisor.com/studies/search_safety_may2007

73

Ms5(17) 2008

Рис. 13. Результаты анализа надежности сайта программой SiteAdvisor

Рис. 14. Образец справки

Рис. 15. Рейтинги надежности ПМ (McAfee)

ÎS

i

ÎS §

« о

i с результатом проверки сайтов

ü to

§ 2300 наиболее употребимых ключевых

§ слов, для этого были использованы списки

| ключевых слов, задаваемых для поисков

I в Google Zeitgeist, Yahoo!, AOL, Ask, Lycos,

§ MSN, Wordtracker, Hitwise и др. Оценива-

§ лись первые пять страниц результатов по-

^ иска для каждого ключевого слова для каждой ПМ.

74 у

К «красной» категории отнесены сайты, не прошедшие тест безопасности Site-Advisor. В эту категорию включаются сайты, которые распространяют рекламные программы, отсылают большие объемы спама или вносят несанкционированные изменения в программное обеспечение компьютера пользователя.

И95(17)2008

К «желтой» категории отнесены сайты, которые создают угрозу соблюдению основных требований теста SiteAdvisor. К таким сайтам относятся те, которые отображают на экране большое количество всплывающих меню или предлагают внести изменения в настройки браузера.

5. Веб-энциклопедии

Среди информационных ресурсов Интернета всевозрастающую популярность приобретают сайты, на которых размещаются хранилища сведений по различным отраслям знаний. Первоначально эти хранилища создавались как электронные копии обычных энциклопедий. Со временем появились системы, построенные на основе новых принципов определения состава содержимого энциклопедий, доступа к содержимому и технологии формирования содержимого.

В настоящее время услуги указанного типа предлагают многие компании, использующие различные подходы к определению функционального облика сервисов. Помимо имеющей давнюю историю бумажного издания и высокую репутацию электронной энциклопедии Britannica52, в качестве примеров можно назвать Encarta (Microsoft)53, Squidoo54, Yahoo Answers55, About.com56 и Mahalo57.

Технология вики

Термин вики58 означает совокупность веб-страниц, хранящихся на сайте, который позволяет любому посетителю редактировать страницы сайта или добавлять новые с помощью языка разметки. Чаще все-

го вики используются для совместной рабо- § ты по созданию и ведению сайтов. Наибо- g лее известным примером построения сис- <5 тем на основе технологии вики является эн- ^ циклопедия Википедия. ас

Разработчиком первых программных вики-продуктов был Уард Каннингхэм (Ward Cunningham). В настоящее время существует целый ряд программ, поддерживающих технологию вики, среди наиболее известных — MediaWiki59 и TWiki60.

Технология вики обладает рядом преимуществ. К ним относятся:

• легкость редактирования. Внесение изменений в содержимое страницы производится просто щелчком мыши. Это сводит к минимуму различие между просмотром страницы и ее корректировкой;

• сохранение истории изменений. Все изменения страниц вики сохраняются в архивах. Можно просмотреть предыдущие версии, сравнить любую пару версий между собой или вернуться к одной из старых;

• простота создания новых страниц. С помощью вики новые страницы создаются очень просто на основе использования простых синтаксических правил;

• отсутствие оборванных ссылок. Если пользователь запрашивает не существующую в реальности страницу, то открывается экранная форма, предлагающая создать страницу и заполнить ее содержимым;

• апостериорное модерирование. Технология строится на принципе, в соответствии с которым содержимое, создаваемое пользователями, модерируется (в случае необходимости) уже после завершения ша-

52 http://www.britannica.com/

53 http://encarta.msn.com/

54 http://www.squidoo.com/

55 http://answers.yahoo.com/

56 http://www.about.com/

57 http://www.mahalo.com/

58 Wiki, или WikiWiki, — гавайское слово, означает «быстрый»; дважды написанное слово выражает более высокую степень качества, т.е. wiki» означает «очень быстрый». http://en.citizendium.org/wiki/Wiki

59 http://www.mediawiki.org/wiki/MediaWiki

60 http://twiki.org/

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

75

Ne5(17)2008

i

is §

CO

0

n *

is

1

0 §

! t

1

s

О

CO

Ü ё

Ё

Ü

га. До появления страницы контроль не проводится;

• альтернативный подход к созданию сайта. Традиционным способом разработки сайта является такой, при котором сначала проектируется его структура, затем выполняется дизайн и после этого производится наполнение сайта содержимым. В случае применения технологии вики в самом начале определяется в лучшем случае только остов сайта. Пользователи начинают с самых первых этапов его жизненного цикла создавать новые страницы и добавлять содержимое. Таким образом, вики разрабатывается поэтапно без предварительного плана сайта.

Википедия

Бесплатная Википедия61 является в настоящее время самой популярной интернет-энциклопедией (создана в 2001 году, администратор — некоммерческая организация Wikimedia Foundation). По данным информационной службы Alexa62, по посещаемости Википедия занимает 7-е место среди всех сайтов в мире и 17-е — среди сайтов российского сегмента Интернета (май 2008 года). Локализованные Википе-дии пишутся почти на сотне языков. В англоязычной версии Википедия имеет более 2 млн статей.

В базе данных русской части Википедии по состоянию на 21 июля 2008 года содержится 1 075 634 страницы63. Сюда входят не только статьи энциклопедии, но и другие страницы:сведения о Википедии, обсуждения, заготовки статей, перенаправления

http

и т.п. Для того чтобы страница считалась полноценной, она должна находиться в основном пространстве имен и содержать хотя бы одну внутреннюю ссылку. 300 937 страниц считаются полноценными статьями. Всего с момента обновления программного обеспечения (20 июля 2002 года) было произведено 10 367 928 изменений страниц. Таким образом, в среднем приходится 9,64 изменения на 1 страницу64.

В связи с тем что основу технологии Ви-кипедии образует технология вики, у создателей статей отсутствуют авторские права65.

Хотя правила ресурса обязывают авторов излагать факты со ссылками на авторитетные источники (например, в России — на СМИ с тиражом не менее 10 000 экземпляров), достоверность опубликованной информации контролируется лишь самими пользователями и администраторами66.

В Википедии применяется написанный на языке PHP и свободно распространяемый программный продукт MediaWiki67. В основу оформления Википедии были взяты стиль и пиктограммы системы публикации Plone68.

Нол

13 декабря 2007 года компания Google объявила о начале работы над проектом создания энциклопедии под названием «Нол» (Knol)69.

По завершении работы система предоставит пользователям возможность решать с ее помощью ряд задач, таких, например, как ранжирование отдельных веб-страниц,

i://www.wikipedia.org/

62 http://www.alexa.com/

63 http://ru.wikipedia.org/wiki/Служебная: Statistics

64 http://ru.wikipedia.org/wiki/Заглавная_страница

65 http://meta.wikimedia.org/wiki/Википедия

66 http://www.vedomosti.ru/newsline/index.shtml?2007/12/17/523604

67 http://www.mediawiki.org/wiki/MediaWiki

68 http://plone.net/

69 Производное от unit of knowledge (Monaghan, Angela (2007-12-14). Google's 'knot may challenge Wikipedia. The Daily Telegraph. Retrieved on 2007-12-15). Второе значение этого термина — отдельная статья энциклопедии; http://googleblog.blogspot.com/2007/12/encouraging-people-to-contribute.html

76

№5(17)2008

размещение своих комментариев и внесение предложений по изменению. Каждое посещение пользователями той или иной страницы будет фиксироваться специальным счетчиком, что позволит создателям определить, какие темы пользуются наибольшей популярностью70.

Основным средством достижения высокой надежности размещаемых в энциклопедии сведений Google видит в том, что, в отличие от Википедии (где статьи может написать и отредактировать любой желающий), в Ноле ключевая роль будет отводиться авторам, обладающим достаточным уровнем знаний и опыта по конкретным темам. Желающие дополнить или скорректировать статью смогут это сделать, но с разрешения автора.

По словам вице-президента Google Уди Манбера (Udi Manber), важной целью проекта является также значительное расширение тематики. Компания надеется, что первым шагом в проведении исследований станет в скором будущем рост числа обращений к Нолу. Вместе с тем проект на данном этапе его жизненного цикла компания относит к экспериментальным, тем самым не исключается возможность того, что практически полезный результат в виде реально функционирующего и общедоступного сервиса не будет достигнут. Существенным отличием проекта Нол от Википе-дии является и его явно коммерческий характер: авторы статей смогут получать доход от размещаемой рекламы. Образец статьи (Бессонница) из будущей энциклопедии представлен на сайте71.

После появления сообщений о начале работы над проектом было высказано много разноречивых мнений и оценок в отношении ценности, характерных особенностей и перспектив проекта. В Интернете

можно найти обзор известных точек зрения и ссылки на опубликовавшие их источники72.

Citizendium

Citizendium73 (кратко — CZ) представляет собой открытый вики-проект, целью которого является создание всеобъемлющей и надежной энциклопедии со свободным доступом. Проект реализуется как некоммерческий и будет полностью свободен от размещения рекламных объявлений. Сведения о нем впервые были опубликованы в сентябре 2006 года, пилотный проект начал реализовываться с ноября 2006 года. Разработчики объявили девиз: «Мы создаем самые надежные в мире энциклопедию и базу знаний» («We are creating the world's most trusted encyclopedia and knowledge base»).

Основной замысел создателей энциклопедии состоит в отходе от парадигмы традиционных бумажных энциклопедий, когда предметная область ограничивается относительно небольшим набором наиболее важных тем, рассматриваемых под некоторым устоявшимся углом зрения74. В противоположность этому темы планируется раскрывать с достаточно большой степенью подробности и в разных интерпретациях. Успех решения задачи должен быть обеспечен, по мнению создателей, за счет значительно подешевевшего дискового пространства и возросших возможностей получения широкополосного доступа в Интернет, иначе говоря, за счет привлечения к активному участию в проекте миллионов людей.

Главный редактор энциклопедии и один из основателей Википедии Ларри Сэнджер (Larry Sanger) рассчитывает добиться радикально лучшего результата в первую

§

ас ас

70 http://cheatppc.blogspot.com/2008/01/googles-knol-wikipedias-rival.html

71 http://www.google.com/help/knol_screenshot.html

72 http://en.wikipedia.org/wiki/Knol#cite_note-Telegraph-3

73 Sit-ih-ZEN-dee-um, a «citizens' compendium of everything».

http://en.citizendium.org/wiki/CZ:About

N95(17)2008

очередь за счет установления «деликатного» (gentle) экспертного надзора за процессом создания материалов CZ и требований к разработчикам включаемых в базу материалов указывать свои настоящие имена.

Каждый участник может получить статус автора (author) или редактора (edit), который присваивается ему после рассмотрения его заявления, где он должен указать ряд сведений, подтверждающих его квалификационный уровень (возраст, образование, научную степень, публикации)75. Предполагается, что каждый активно участвующий в работе CZ (Citizen) будет в дальнейшем иметь персональную страницу с обширным набором сведений (ближайшие и перспективные планы работы в CZ, последние и наиболее значимые достижения в CZ, статьи, над которыми работают авторы в настоящий момент, их роль в системе, а также различные заметки). Со всеми этими сведениями о многих участниках можно знакомиться уже сейчас76.

Помимо этого, на сайте CZ можно найти развернутую информацию о фундаментальных принципах, о политике, о правилах sS работы, списки и персональные данные ¡и участников, инструкции по информационна ному взаимодействию, используемые элек-| тронные формы и другие сведения. S В создании статей уже приняло участие ¡1 несколько сотен человек. Сейчас энцикло-| педия содержит несколько тысяч статей,

0 ожидается, что в ближайшем будущем их jj число возрастет до сотен тысяч, а впослед-j! ствии будет исчисляться миллионами.

t

* 6. Совершенствование

1 интернет-поиска

! Исследованиями [15] установлено, что

§ около 85% пользователей прибегают к ус-

| лугам ПМ. Вместе с тем те же исследования

I свидетельствуют о неудовлетворенности

§ большинства пользователей средствами

нынешнего поколения ПМ. Причинами этого являются:

• медленный поиск;

• задержки в передаче данных;

• низкое качество результатов поиска (шум и оборванные ссылки).

В [8] указываются несколько причин неудовлетворительного качества результатов поиска в Интернете, обусловленных идеологией ее построения и принципами организации поиска:

• поиск ведется по формальному критерию, на основе совпадения слов запроса и слов проверяемой страницы. Анализ смыслового соответствия содержимого страницы требованиям поискового запроса не производится. Это приводит к появлению в результатах поиска большой доли информационного мусора;

• в силу динамичного характера Интернета многие страницы прекращают свое существование, но часто сохраняются в индексах ПМ. Таким образом, в базах ПМ содержится большой объем ссылок, искажающих результаты поиска;

• поисковые машины индексируют лишь небольшую часть содержимого Интернета, причем делают это с опозданием, что отрицательно отражается на релевантности поиска;

• значительная часть полезной информации, хранящейся в Интернете, сосредоточена в базах данных серверов, и этот нижний слой является недоступным для ПМ.

Для повышения точности, полноты и надежности поиска используются подходы, основанные на совершенствовании методических и технических решений построения ПМ на традиционной основе, а также на других принципах. Исследователи и разработчики уделяют большое внимание подхо-

http://en.citizendium.org/wiki/Special:RequestAccount 76 http://en.citizendium.org/wiki/CZ:Personnel

78

Но5(17)2008

ду на основе концепции семантической сети77. Это объясняется следующим:

• растет число приложений, построенных на основе этой концепции (перечень приложений публикуется на сайте консорциума W3C78);

• продолжаются работы в направлении более тесной интеграции XHTML и RDF (можно отметить создаваемую под эгидой W3C технологию GRDDL автоматического связывания моделей RDF с текстами в форматах XHTML и XML79);

• ведутся работы по встраиванию технологии в существующие СУБД (см., например, [16]);

• реализуются проекты по созданию ПМ на основе семантического поиска (в качестве примера можно назвать запуск проекта для российской ПМ Nigma80 [17], применяющей в настоящее время поиск на основе кластеризации).

Предлагаются также подходы на основе искусственного интеллекта. Так, в [8] предложена концепция открытого распределенного поиска, основанная на создании сети поисковых доменов — равноправных агентов с открытой архитектурой, каждый из которых обладает компетентностью в определенной предметной области и, что существенно, настраивается и управляется людьми. Запрос на поиск при таком построении системы доступа к ресурсам формулируется на естественном языке, выбор доменов, наиболее подходящих запросу, производится на основе введенной функции семантической корреляции.

7. Заключение

За последнее десятилетие достигнут значительный прогресс в технологиях создания информационных ресурсов Интерне-

та и работы с ними. Модернизированы § средства программного взаимодействия | пользователей с информационными серви- <5 сами Сети, улучшен интерфейс, качествен- ^ но усовершенствованы поисковые техно- ас логии, повышены удобство работы и возможности ПМ. Появились новые типы веб-документов, полнее раскрывающие возможности архитектуры Интернета, а также форматы и протоколы, поддерживающие создание, ведение и обмен этими документами.

Все это стимулировало создание новых поисковых механизмов. Все более увеличивается многообразие типов ПМ. Появились информационные ресурсы, построенные на иных принципах не только использования хранимой информации, но и ее внутренней организации, процесса создания и поддержания. Растет популярность этих ресурсов.

Вместе с тем наряду с задачами технического характера все большую значимость для пользователей информационных ресурсов приобретают факторы, во многом обусловленные родовыми свойствами Интернета. Это:

• обеспечение степени доверия к найденной информации;

• полнота охвата поиском имеющихся в Сети информационных ресурсов;

• фильтрация ссылок на нерелевантные документы;

• актуальность и целостность ссылок, включаемых в результаты поиска.

Надежность переходит в число основных проектных приоритетов (С^епСют, семантические сети, распределенный поиск). В связи с этим прослеживается тенденция к отказу в той или иной степени от принципов анонимности и саморегулируе-

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

http http http http

//www.w3.org/RDF/

//www.w3.org/2001/sw/sweo/public/UseCases/

//www.idealliance.org/proceedings/xtech05/papers/03-06-01/

//nigma.ru/

79

N95(17)2008

мости в пользу открытости, прозрачности и внедрения форм управления людьми. Все большую значимость играет репутация как самого источника данных, так и ПМ.

Когда верстался номер...

28 сентября 2008 года в Москве в «Президент-Отеле» начала свою работу международная конференция по вопросам обучения с применением технологий E-Learning MOSCOW Education Online.

Одним из ассоциированных партнеров конференции является Московская финансово-промышленная академия, представляющая образовательные порталы e-edu-cation и webcampus, построенные на основе современных информационно-коммуникационных технологий.

В настоящее время при организации дистанционного обучения построение эффективных и понятных учащимся механизмов работы с информационными справочниками приобретает важное значение в ходе модернизации учебного процесса.

Среди подходов, которым уделялось внимание на конференции, можно особо отметить основанные на концепции открыла тых обучающих платформ. Характерной ¡и для таких подходов является возможность ü использования обучающих ресурсов как | в процессе обучения, так и для дополнения S их новыми учебными модулями. Данный ас-¡1 пект стимулирует дальнейшее совершенства вование технологий доступа к информаци-о онным ресурсам Интернет.

Ц Список литературы

0

§ 1. Стивенс У.Р. Протоколы TCP/IP. Практиче-

* ское руководство, BHV, 2003. ISBN 5941573006. Л 2. Аликберов Андрей. Что такое cookies и как

^ с ними работать http://www.citforum.ru/internet/

1 html/cookie.shtml

! 3. Lenzerini Maurizio. Principles of peer-to-peer

;§ data integration (2004) http://citeseerx.ist.psu.edu/

§ viewdoc/summary?doi=10.1.1.1.3834 § 4. Tauberer Joshua. What Is RDF // The XML.

fi commune. July 26. 2006. http://www.xml.com/pub/a7 2001/01/24/rdf.html

80 >

5. Шакин Михаил. Лучшие SEO-расширения Firefox http://www.seonews.rU/article/.publication/575/

6. Макфарлейн Н. Разработка приложений с помощью Mozilla http://www.intuit.ru/department/ se/mozilla/11/

7. Bemers-Lee Tim, Chen Yuhsin, Chilton Lydia, Connolly Dan, Dhanaraj Ruth, Hollenbach James, Lerer Adam, Tabulator David. Exploring and Analyzing linked data on the Semantic Web SWUI 2006 The 3rd International Semantic Web User Interaction Workshop November 6, 2006 — Athens, Georgia, USA collocated with ISWC 2006 http://swui. semanticweb.org/swui06/

8. Жигалов Влад. Как нам обустроить поиск в Сети? // Открытые системы. 15.12.2000. № 12. http://www.osp.ru/os/2000/12/178364/

9. Sullivan Danny. Search Engine Sizes // Search Engine Watch. Jan 28.2005. http://searchenginewatch. com/showPage.html?page= 2156481

10. Адамович И.М., Заикин М.Ю., Зауса-ев О. В., Пешков А. Н. Технологии работы в WEB-пространстве Интернет // Электронный журнал «Исследовано в России». http://zhurnal.ape. relarn.ru/articles/2000/044.pdf

11. RisvikK.M., Michelsen R. Search Engines and Web Dynamics// Computer Networks. Vol. 39. № 3. 21 June. 2002. P. 289-302. http://www.ingentaconnect. com/content/els/13891286/2002/00000039/00000003/ art00213

12. Cho J., Garcia-Molina H. The evolution of the web and implications for an incremental crawler. 26th International Conference on Very Large Databases 2000. Cairo, Egypt.

13. Сегалович Илья. Как работают поисковые системы http://company.yandex.ru/articles/ article10.xml

14. Walsh Paul. Search Thresher — enabling trust on the Web December 2006. http://segala. com/searchthresher_wp/?p=76

15. Kobayashi Mei, Takeda Koichi. Information retrieval on the web ACM // Computing Surveys. Vol. 32. Issue 2 (June 2000). http://portal.acm.org/ citation.cfm?id=358934

16. Левшин Д.В., Марков А. С. Алгоритмы интеграции СУБД PostgreSQL с семантическим веб. http://sp.cmc.msu.ru/datalog/levshin-swps.pdf

17. Владелец Mail.ru вошел в поиск//Коммерсантъ. № 113(3930) от 03.07.2008 г.

i Надоели баннеры? Вы всегда можете отключить рекламу.