Продолжение данной публикации смотри в http://zhurnal.ape.relarn.ru/articles/2000/043.pdf
ТЕХНОЛОГИИ РАБОТЫ В WEB-ПРОСТРАНСТВЕ ИНТЕРНЕТ
Часть I. Введение в проблему
Адамович И.М. ([email protected])
Институт проблем информатики РАН
Сегодня «всемирная паутина» (World Wide Web) получила столь широкое распространение, что необходимость описывать этот социально-технический феномен, предсказывать его дальнейший рост, призывать к быстрейшему его освоению практически отпала.
«Что ты меня агитируешь? Я уже три недели (дня, месяца, года), как поставил его у себя дома» - вот типичный «диалог» по поводу приобщения к WWW, который можно услышать в далеко не самых продвинутых в смысле приобщения к Интернет городах нашей далеко не самой продвинутой в этом же смысле страны.
Что же говорить о Западной Европе, о США?
Мало того, что сегодня во всемирной сети «кого только нет». Не менее важно, что сегодня в Интернет «чем только не занимаются».
Пользователи Интернет переписываются друг с другом по почте, читают электронные версии газет и журналов, занимаются биржевыми спекуляциями, играют в шахматы, смакуют порнографические снимки, покупают различные товары (от книг до недвижимости), слушают музыку, знакомятся, яростно обсуждают животрепещущие проблемы современности, учатся в системе дистанционного образования.
Сегодня почти не осталось сфер человеческой деятельности (как индивидуальной, так и корпоративной), которая в той или иной степени, не опиралась бы на технологии Интернет.
Разумеется, все без исключения Интернет-технологии и поддерживающие их средства непрерывно развиваются.
Это развитие идет по трем основным направлениям:
- предоставление пользователям Интернет новых, ранее не предоставлявшихся услуг;
- расширение возможностей существующих сервисов;
- снижение ресурсоёмкости предоставляемых услуг.
Примером развития Интернет по первому направлению может служить появившаяся сравнительно недавно IP-телефония, т.е. возможность использования сети Интернет, как средства поддержки междугородной и международной телефонной связи.
Примером второго направления развития может служить эволюция интернет-конференций: chat-audio-video.
Наконец, примером третьего направления может служить появление новых, все более совершенных методов сжатия информации.
Следует отметить, что подавляющее число современных Интернет-технологий являются инвариантными по отношению к количественному росту числа пользователей сети Интернет (здесь и далее под пользователями мы будем подразумевать как потребителей Интернет-услуг, так и их поставщиков). Если я попал на хороший сервер службы знакомств, то качество «результата» моего визита не зависит от того, сколько в настоящий момент кроме меня существует пользователей Интернет, озабоченных этой проблемой. Я получу не только основные анкетные и анатомические параметры своей потенциальной избранницы. Мне будут предоставлены как минимум одна или несколько ее фотографий, а может быть и маленький видеоклип, где претендентка на мое сердце продемонстрирует прелесть своей гибкой и стройной фигуры, а также чарующий тембр своего голоса.
Точно также точность прогноза погоды, распространяемого через Интернет, не зависит от числа пользователей этой услуги. Более того, можно утверждать, что между количеством пользователей Интернет и качеством предоставляемых услуг в общем случае существует положительная обратная связь. Чем больше пользователей будет в сети, тем больше будет тех, кто захочет с помощью Интернет приобрести, например, мебель и тем больше будет у владельца виртуального мебельного магазина стимулов для того, чтобы перейти от примитивного прайс-листа, где лежит чертеж (в лучшем случае) или просто габариты дивана к трехмерному изображению, при котором пользователь может не только увидеть его фасон, конструкцию, цвет, выделку в статике, но и покрутить его со всех сторон, чтобы получить о потенциальной покупке наибольшее представление.
Однако существуют две самые распространенные услуги Интернет, качество которых напрямую, и, к сожалению, обратно пропорционально зависит от числа пользователей сети и от общего объема информационного Интернет-пространства.
Обе эти услуги носят вспомогательный, служебный характер, и именно поэтому они влияют практически на все основные услуги Интернет, т.к. напрямую «участвуют» в процессе их предоставления.
Речь идет о двух фундаментальных процессах сети Интернет: ПОИСКЕ и ПЕРЕДАЧЕ информации.
Бессмысленно говорить о том, какая из этих функций является более важной. Если мы не можем найти информационный ресурс, то нам абсолютно наплевать какой мощности наш канал связи. А если мы не можем принять к себе информацию, то нам вообще нет резона ее искать.
В настоящей работе мы не будем рассматривать вопросы, связанные с проблемами передачи информации по сети Интернет, а остановимся на вопросах поиска информации во всемирном Web-пространстве.
Прежде всего, остановимся на самом понятии ПОИСКА ИНФОРМАЦИИ в Интернет. Как известно, вся информация в Интернет размещается на серверах, предоставляющих различные Интернет-услуги своим пользователям-клиентам. Внутри каждого сервера информация структурируется так, что отдельные ее фрагменты размещаются на страницах этого сервера. Каждая страница характеризуется своим адресом в Интернет, который включает в себя две компоненты: адрес сервера в сети Интернет и адрес страницы на сервере. Поскольку адреса серверов в сети Интернет являются уникальными и адрес страницы на сервере также является уникальным, то уникальным является и адрес страницы в Интернет.
В общем случае предполагаем, что пользователь представляет себе, ЧТО его интересует, предполагает, что эта информация размещена в Интернет, но не знает ГДЕ (по какому адресу или по каким адресам) она находится. На ранних (хотя и не столь отдаленных от нас по времени) стадиях развития Интернет проблема поиска решалась традиционным путем. Владельцы сайтов давали информацию о них в редакции специальных справочников по информационным ресурсам Интернет. Эти справочники (по аналогии с телефонными называвшиеся «Желтые страницы») регулярно издавались и какое-то время служили главными источниками сведений об информационных ресурсах Интернет и единственным средством поиска информации в Web-пространстве. Однако, очень скоро темпы роста информационных ресурсов Интернет достигли таких значений, при которых «бумажный» метод хранения информации о ресурсах Интернет уже не смог справиться ни с объёмом этих ресурсов, ни с темпами их появления.
На смену бумажным хранилищам информации о ресурсах Интернет пришли электронные - так называемые машины поиска или поисковые машины (Search Engine).
С самого начала поисковые машины (ПМ) строились на базе двух различных принципов. Поисковые машины первого типа представляли собой иерархически организованный тематический каталог (дерево), к узлам которого прикреплялись списки адресов страниц, содержащих информацию соответствующего уровня и направленности. Такие ПМ называются «директориями».
ПМ второго типа строятся на базе так называемого «Индекса». В общем случае индекс можно представить себе как массив кортежей переменной длины. Первым элементом каждого кортежа является слово из словаря того языка, на котором будет вестись поиск. Последующие элементы кортежа представляют из себя адреса тех страниц Интернет-пространства, в которых данное слово встретилось хотя бы один раз.
Предполагается, что массив кортежей отсортирован по их первому элементу. Вектор-столбец, состоящий из этих элементов и являющийся по сути «расписанным в столбик» словарем, и служит индексом для поиска информации «по ключевым словам».
Отметим, что в общем случае ПМ может осуществлять поиск не только по отдельному ключевому слову, но и по логическому выражению, операндами которого являются ключевые слова.
Понятно, что ПМ «найдет» только те адреса страниц, которые на момент поиска были занесены в её «директорию» или «индекс». В первом случае в реальной практике такое занесение делается вручную одним или несколькими «экспертами», ответственными за наполнение ПМ-директории.
Во втором случае построение индекса осуществляется специальным механизмом (crawler), который входит в состав «индексной» ПМ. Crawler по определенному алгоритму сканирует некоторое множество сайтов, являющееся «зоной охвата» данной ПМ.
По мере развития сети Интернет увеличивалось число ПМ, расширялись зоны охвата наиболее мощных из них. Появились ПМ, специализирующиеся на определенных «тематических» или «географических» подпространствах общего пула Интернет-ресурсов. Однако рост Интернет-пространства, безусловно, опережал увеличение зон охвата ПМ, которые в относительном значении становились все уже.
Ликвидация этого «разрыва» явилась главной задачей появившихся вслед за поисковыми машинами средств «метапоиска» (МП).
Наиболее примитивные из них просто представляли из себя Интернет-страницу, на которой были собраны вместе адреса (ссылки) некоторого множества поисковых машин. Пользователь, «кликнув» любую из них, попадал на главную страницу ПМ, а завершив процедуру работы с данной поисковой машиной возвращался на исходную страницу, которая представляла собой некоторый «адресный мульплексор» или «портал».
Следующим шагом на пути метапоиска стало появление средств, предоставляющих пользователю не набор ссылок на группу ПМ, а непосредственные интерфейсы к этим машинам. На этих интерфейсах пользователю давалась возможность сформулировать запрос (для каждого интерфейса на языке той ПМ, агентом которой он является) и обратиться с ним к соответствующей ПМ.
В обоих случаях после обращения к каждой ПМ пользователь получал результат в виде нескольких HTML страниц с перечнем ссылок на найденные Интернет-ресурсы. Объединять же результаты, полученные от каждой ПМ, дабы добиться увеличения «охвата», пользователь должен был вручную.
Дальнейшая эволюция средств метапоиска привела к появлению так называемых метапоисковых машин (МПМ). МПМ автоматизировала два основных процесса многомашинного поиска - обращение с запросом к набору ПМ и объединение полученных результатов.
Следует отметить, что некоторые МПМ по сути являются метапоиско-выми машинами «второго порядка», так как включают в число поисковых средств, к которым они обращаются, не только ПМ, но и МПМ.
Однако проблемы, связанные с удовлетворением информационных потребностей пользователей Интернет не сводятся только к первичному поис-
ку, осуществляемому на базе поисковых и метапоисковых машин. Технологии, применяемые при работе в WWW, значительно шире.
Во-первых, каким бы точным не оказалось логическое выражение на ключевых словах, лежащее в основе поискового запроса, полученный список адресов обязательно будет в той или иной степени содержать «мусор», «шум».
Какие-то страницы содержат информацию уже не актуальную, т.к. их содержание подменили уже после того, как эта страница была последний раз обработана поисковой машиной.
Некоторые страницы за этот период могут быть просто удалены.
Поэтому уже сегодня в качестве одной из технологий начинает находить применение процесс удаления из результатов работы ПМ (или МПМ) «мусора неактуальности».
Иногда пользователь заранее знает, какие ограничения на поиск необходимо наложить изначально, но у конкретной поисковой машины нет средств для задания (ну и, разумеется, реализации при поиске) этих ограничений.
Например, пользователь хотел бы получить информацию только из Web-ресурсов Австралии (расширение ".au" в адресах страниц). Или пользователь не хотел бы получать список, в который включено множество адресов страниц, относящихся к одному сайту. Ему было бы достаточно адреса Home page этого сайта. Поскольку сегодня далеко не всем ПМ (МПМ) можно предписать выполнение таких процедур усечения и сжатия, то технология такой «послепоисковой» обработки также имеет полное право на существование.
Уже давным-давно Интернет перестал быть «серьезным занятием для взрослых». В Интернет пришли дети. Самого разного возраста.
И сразу же возникла проблема: как, минимально ограничивая свободу их навигации в WWW, защитить детей от всего того «информационного негатива» (порнография, насилие, наркотики и т.д.), который бурно расцветает в интернетовских информационных кущах.
Решение этой проблемы дало жизнь различным технологиям фильтрации информации при работе с Web.
Да что дети! Сегодня администрация многих корпораций серьезно озабочена вопросом: как оградить совершенно взрослого дядю, севшего за компьютер с искренним желанием «нарыть чего-нибудь по взаимосвязи адреналина и гистамина при стрессовых состояниях», но уже битых два часа бродящего по закоулкам сайта с многообещающим заголовком на Home page: «Нестандартное в сексе. Уйди от обыденности».
Да и тётя из той же фирмы, не менее искренне хотевшая посмотреть последние публикации в электронном варианте журнала "Biometrics", тоже как-то незаметно для себя оживленно рассматривает жутко экстравагантные модели вечерних платьев от Christian Dior. А игры, а спорт?
Сегодня среди средств для работы в Интернет важное место занимают корпоративные фильтры на базе proxy-серверов. Это еще одна ветвь WWW-технологиий.
Борьба за выживание в океане WWW-информации постоянно побуждает создателей инструментария для работы в Интернет к поиску новых решений.
К ним можно отнести и построение собственных (корпоративных) индексов для повышения эффективности работы сотрудников корпорации. В таком вторичном корпоративном подпространстве Интернет-информации существенно снижается уровень шума при реализации запросов. Кроме того, уменьшается время доступа, т. к. для большинства пользователей этого ресурса доступ к нему предоставляется по локальной сети.
Однако не следует заблуждаться в том, что рост числа различных Web-технологий и инструментов, их реализующих, вызывает адекватный эффект от их применения.
Во-первых, большое число разрозненных, зачастую полностью дублирующих друг друга по функциям и при этом существенно различающихся по интерфейсам устройств, вносят известную сумятицу в головы пользователей, приводя иногда к парадоксальному «не выбрал ничего из-за обилия предложений».
Во-вторых, отсутствие каких-либо стандартов на WWW-технологии (HTML - не в счет), их разобщенность приводит к тому, что даже выбрав наиболее удачные из WWW-инструментов, пользователь при их совместном использовании будет вынужден вручную выполнять множество операций, призванных состыковать изначально несогласованные информационные интерфейсы.
Сегодня достаточно очевидно, что унификации Web-инструментов, интеграция Web-технологий - вот та ключевая задача, без решения которой к. п. д. от увеличения информационных ресурсов в Интернет-пространстве очень быстро выйдет на тот уровень, при котором паровоз будет казаться недостижимой вершиной.
Сегодняшнему состоянию важнейших Web-инструментов и Web-технологий, а также изложению самых первых, самых общих подходов к их интеграции посвящены материалы, публикуемые в следующих частях данной работы.