21 декабря 2011 г, 16:40
"Инфокоммуникачионно-управленческие сети. Расчет и оптимизация систем связи"
Основные составляющие системы автоматизации доступа к динамическому информационному наполнению и их функциональная нагрузка
Рассматриваются основные компоненты системы, обеспечивающей автоматическое извлечение данных из информационных ресурсов, предоставляющих информацию в сети Интернет посредством динамически генерируемых на основе пользовательских запросов страниц. Описывается место компонент в общей архитектуре системы, выполняемые ими задачи.
Корабвльников Д.М.,
Аспирант ФГУП ЦНИИС
Введение
Существует множество страниц сети Интернет, которые в силу различных причин не могут быть обнаружены с использованием общеизвестных поисковых систем, называемые «скрытым вебом» [1]. Сегментом скрытого веба, содержащим ценные данные, являются страницы с динамическим информационным наполнением, предоставляемым по результатам выполнения запроса, учитывающего введенные пользователем данные. Вследствие того, что статически такие страницы не существуют, эти данные недоступны обычным поисковым системам. В статье [2] были приведены идеологические положения и принципы, лежащие в основе построения этой системы. В последующих разделах будут рассмотрены основные составляющие системы, выполняемые ими задачи, ПОДХОДЫ К ИХ практической реализации.
1. Архитектура системы автоматизации доступа к динамическому информационному наполнению
На рисунке 1 представлены следующие, основные компоненты системы:
ресурс в сети Интернет, предоставляющий данные посредством динамического информационного наполнения, включая, но не ограничиваясь следующими компонентами:
одна или более баз данных, содержащих целевые и другие данные;
— страница в сети Интернет, предоставляющая целевые данные посредством предоставления текстовых и других полей для заполнения и передающая их для последующего выполнения запроса;
веб-сервисы, обеспечивающие предоставление информации поисковым системам;
поисковая система, включая, но не ограничиваясь следующими компонентами:
— поисковый «паук», обеспечивающий
обнаружение страниц в сети Интернет;
— компонент поисковой системы, обеспе-
чивающий разбор и индексацию обнаруженных страниц сети Интернет
— компонент поисковой системы, обеспе-
чивающий обработку пользовательских запросов.
Ресурс В ССТ11 интернет
Поисковая система
Базы
данных
Веб-сервисы
Индекс ирующий компонент
98
Рис. 20. Архитектура системы обеспечения доступа поисковых систем к динамическому информационному наполнению
2. Подходы к реализации системы
Возможно два основных подхода к реализации системы, обеспечивающей доступ к динамическому информационному наполнению посредством веб-сервисов.
Согласно первому подходу, веб-сервисы, функционирующие на стороне базы данных, предоставляют информацию для последующего заполнения полей на странице, предназначенной для рядовых пользователей услуг доступа в сеть Интернет. Подход предполагает оговоренный набор идентификаторов для различных основных категорий данных, таких как имя, фамилия, отчество человека, наименование товара, марка товара, количество лет, количество товара и т.д. В этой форме подход представляет собой дополнение к рассмотренным в (1, 3] подходам к разбору и заполнению полей на предоставляющих динамическое информационное наполнение страницах сети Интернет, которые передают введенные данные для выполнения запроса. Предлагаемое решение позволяет существенно развить упомянутые подходы, обеспечивая возможность однозначной категоризации полей страницы в соответствии с ожидаемыми данными. Также подход позволит обозначить типы и диапазоны ожидаемых значений, ограничения на длину текстовых полей и другие данные, получение которых исходя из анализа страницы затруднено. Несмотря на приведенные преимущества, рассматриваемая реализация сохраняет следующие недостатки исходного подхода в целом [ 1 ]:
- необходимость в оговоренной системе обо-
значений, указывающей на семантический контекст вводимых данных, что усложняется в условиях отсутствия об-''принятой системы обозначений, а также с учетом ши-
рокого спектра возможных ожидаемых текстовых и числовых значений;
отсутствие гарантии получения полного объема данных, доступных посредством страницы, предоставляющей динамическое информационное наполнение;
необходимость в многократном обращении к серверу, обеспечивающему обработку запросов для получения максимально возможного объема информации при формировании запросов на основе неполных данных, что существенно увеличивает нагрузку на сервер, отвечающий за обработку таких запросов.
Альтернативный подход предполагает предоставление информации в том числе посредством веб-сервиса. В этом случае поисковой системе предоставляются данные вебсервисов, соответствующих тем или иным данным и схема взаимосвязи данных, описанная также в формате XML. Это позволяет поисковой системе последовательно запрашивать блоки взаимосвязанных данных, которые могут быть представлены как в качестве html-документа, так и валидного XML-документа. В обоих случаях предоставляемые данные подходят для индексации, так как представляют собой текстовые документы. Возможность предопределения лицами, связанными с разработкой страницы сети Интернет, которая предоставляет динамическое информационное наполнение, набора предоставляемых данных позволяет напрямую связать его, например, с аналогичными наборами данных, предоставляемых пользователю при выполнении запроса.
В качестве практического примера рассмотрим страницу, предоставляющую динамическое информационное наполнение, которая является нумизматическим интернет-аукционом. Пользователям предоставляется возможность указать страну, год печати, состояние и наименование монеты, которую они бы хотели приобрести, в случае, если она представлена на аукционе, а также допустимый диапазон цен. По результатам запроса пользователю предоставляется перечень аукционов, где предлагается искомая монета, содержащий, кроме вышеперечисленной информации о монете, сроки проведения аукциона, имя или другой идентификатор лица, выставившего монету на аукцион, текущую цену. Примем, что иными способами навигации сайт не оснащен. В этом случае, поисковой системе может быть предложен веб-сервис, который предоставляет XML-документ, содержащий перечень монет, предлагаемых в настоящий момент на аукционах, включая информацию о происхождении монеты, ее состоянии, дате ее выпуска. Благодаря структуризации информации в XML-документах, поисковая система может обеспечивать высокий уровень релевантности при поиске, что в определенной степени компенсирует малые объемы текстовой информации, предоставляемой подобными страницами. В качестве дополнительной текстовой информации, позволяющей расширить набор данных для индексации и последующего поиска, могут использоваться текстовые данные, находящиеся на странице, содержащей поля для формирования запроса.
Проиндексировав данную информацию с учетом текста, представленного на странице, которая содержит поля для заполнения пользователями, поисковая система будет способна предоставить ссылку на сайт интернет-аукциона в числе релевантных ответов на запрос «buy Spanish pe-
seta 1940», так как все ключевые слова запроса будут указаны в рамках одного элемента XML-документа. Необходимо указать, что, в случае выполнения русскоязычного запроса «купить испанскую песету 1940» или «испанская песета 1940 купить» может быть необходим лингвистический раэбор запроса, учитывающий грамматику русского языка и возможную заменяемость слов «испанский» и «испания» при выполнении запросов, а также различные грамматические формы приведенных слов. Эти задачи находятся за пределами тематики данной статьи и относятся к кругу задач, связанных с обработкой русскоязычных запросов.
Далее поисковая система должна предоставить пользователю ссылку, ведущую на страницу, где указана информация об одном или более аукционах, соответствующих данной монете. Как указывалось выше, при посредстве веб-сервисов поисковой системе может быть предоставлена информация о полях на странице, предназначенной для ввода данных запроса пользователем. В данном случае, может быть установлено взаимно-однозначное соответствие наименований элементов XML-документа, содержащих данные, и полей страницы запроса, которые могут идентифицироваться уникальными числовыми идентификаторами. В зависимости от технологии осуществления динамического запроса, поисковая система может предоставлять пользователю ссылку одним из следующих способов:
пользователю предоставляется ссылка, содержащая в качестве параметров данные запроса. Например, «http://coin-
audion.net/auct»ons?countryespain& coin-
Name=peseta&year= 1940»;
- в случае, когда передача параметров запроса происходит неявным образом, поисковая система может осуществлять перенаправление на страницу формирования запроса и выполнять автоматический ввод данных в текстовые и другие поля страницы. Далее от пользователя может потребоваться инициировать выполнение запроса нажатием соответствующей клавиши.
Учитывая возможные интересы пользователей, страница интернет-аукциона может также предоставлять возможность поиска конкретного лица, осуществляющего продажи монет. Это может быть особенно актуально в случаях, когда крупная фирма, ведущая торговлю на рынке ценных монет, пользуется услугами рассмотренного аукциона для расширения клиентской базы. В этом случае ряд пользователей может быть заинтересован в поиске данной организации с тем, чтобы узнать о продаваемых ею монетах. Подобная информация может предоставляться иным веб-сервисом или, иным интерфейсом тою же веб-сервиса, что в данном случае более актуально. При этом в остальном функционирование различных составляющих системы остается неизменным.
3. Ключевые составляющие системы и подходы к их реализации
Среди составляющих описанной системы новыми, относительно существующих на сегодня информационных систем, являются следующие составляющие:
- веб-сервисы на стороне ресурса сети Интернет, предоставляющего динамическое информационное наполне-
99
- компоненты поисковой системы, обеспечивающие обработку метаданных веб-сервисов, метаданных полей страницы формирования запроса, метаданных собственно предоставляемых данных.
На стороне ресурса сети Интернет реализация системы будет заключаться в установке соответствующих расширений, позволяющих осуществлять доступ к динамическому информационному наполнению. От владельцев системы потребуется указать хранимые процедуры или другие способы осуществления запроса данных, разбить данные на смысловые блоки, соответствующие приведенному выше примеру, указать желаемые ограничения, связанные с вычислительной нагрузкой системы (функциональный аналог файла robots.txt [ 1 ]).
Со стороны поисковой системы возможно три основных подхода к реализации описанной системы:
Производится развитие возможностей существующей поисковой системы путем внедрения в существующую информационную систему компонент, отвечающих за вышеперечисленные операции. У данного подхода могут быть выделены следующие преимущества:
- опора на существенные вычислительные возможности популярных поисковых систем;
- возможность сосредоточиться на реализации новой, относительно существующих систем, функциональности при отлаженном функционировании прочих компонент поисковой системы.
К недостаткам данного подхода могут быть отнесены следующие аспекты:
- необходимость в заинтересованности в подобном решении со стороны представителей поисковой системы;
- необходимость учитывать особенности функционирования и построения основной поисковой системы при реализации собственных компонент, которые могут быть не вполне совместимы с требованиями при реализации вышеописанной функциональности.
Альтернативой прямого развития существующих поисковых систем может являться разработка собственной поисковой системы. У этого подхода могут быть выделены следующие преимущества:
- возможность разработки компонент в соответствии с требованиями при реализации функциональности, описанной выше, вне зависимости от сторонних решений, включая принципы обработки данных при их индексации и принципы обработки пользовательских запросов;
У этого подхода могут быть выделены следующие недостатки:
- необходимость разработки поисковой системы «с нуля», что, в связи с высокой сложностью поисковых систем как самостоятельных программных продуктов, предъявляет высокие требования к квалификации разработчиков, их количеству, требует решения большого спектра задач, не относящихся напрямую к осуществлению доступа к динамическому информационному наполнению;
- необходимость в существенных аппаратных ресурсах, поддерживающих функционирование поисковой системы, выполнение ею типовых операций, включая поиск страниц в сети Интернет, их индексацию и последующее выполнение поисковых запросов в за приемлемое время.
Компромиссным вариантом, объединяющим два приве-
денных выше, является разработка собственной поисковой системы, использующей результаты выполнения запросов другими поисковыми системами. Как было показано в [4], существующие поисковые системы могут использоваться в качестве эффективных средств решения задачи обнаружения веб-сервисов в сети Интернет. Это позволяет использовать результаты выполнения поискового запроса популярных поисковых систем и, таким образом, избежать необходимости реализовывать собственные средства поиска страниц сети Интернет и индексации содержания рядовых, не актуальных в рамках рассматриваемой задачи страниц Таким образом, к задачам, требующим непосредственного решения, будут относиться следующие:
- реализация взаимодействия со страницами популярных поисковых систем в целях получения результатов выполнения поисковых запросов;
- использование популярных поисковых систем для получения информации о доступных посредством сети Интернет веб-сервисах, идентификация среди них специализированных, предназначенных для поисковых систем, вебсервисов;
- запрос и индексация динамического информационного наполнения с использованием обнаруженных вебсервисов, включая установление соответствия между вебсервисами и страницами формирования запросов;
- обработка пользовательских запросов, выполнение поисковых запросов на собственно массиве индексированных данных;
- объединение собственных результатов выполнения запроса с результатами популярных поисковых систем и ранжирование общего перечня согласно релевантности;
- осуществление, в случае необходимости, заполнения страниц формирования запросов необходимыми данными.
Компромиссный подход обладает преимуществами обоих подходов, описанных выше, а именно:
- часть вычислительной нагрузки, связанной с осуществлением поиска страниц в сети Интернет (функционирование поискового «паука») и индексации рядовых страниц сети вместе со страницами, связанными с веб-сервисами ложится на крупные поисковые системы, также это позволяет избежать необходимости разрабатывать сложные и не вполне профильные модули;
- возможность независимой разработки собственных решений в соответствии с требованиями решаемых прикладных задач без учета специфики реализации сторонних систем;
- снижение требований к доступным аппаратным ресурсам в связи с существенно меньшим, по сравнению с крупномасштабными поисковыми системами количеством страниц сети Интернет, требующим обработки и индексации;
Заключение
Таким образом, наиболее целесообразным является построение системы автоматического извлечения данных из страниц с динамическим информационным наполнением с использованием веб-сервисов. При этом веб-сервисы решают задачи обеспечения доступа поисковых систем к следующим данным:
- метаданные об интерфейсах доступа как таковых;
- метаданные, описывающие предоставляемую информацию;
100
ванных данных при выполнении поисковых запросов. Литература
1. Корабел ьников Д Текущее состояние проблемы скрытого веба и подходы к ее решению // T-Comm: Телекоммуникации и транспорт / М.: 2009. - N2. - С. 183-184.
2. Корабельником Д Принципы построения системы автоматизации доступа к динамическому информационному наполнению // Наст, сборник / М.: 2011.
3. Ru. Y., Horowitz Е. Indexing the invisible web: a survey // Online Information Review. - 2005. - V.29, No.3. - Pp. 249-265.
4. Корабельников Д. Подходы и технологии автоматизированного обнаружения веб-сервисов // Четвертая отраслевая научная конференция-форум «Технологии информационного общества» /М.: ИД Медиа Паблишер, 2010- С 4.
101
- данные о соответствии полей страницы формирования запроса в сети Интернет и предоставляемых данных;
- искомые данные.
Реализация веб-сервисов должна опираться на автоматизированные скрипты и предоставлять пользователям настройки, связанные с доступом к данным и решением вопросов информационной безопасности.
Реализация компонент поисковой системы может строиться на основе собственного решения, использующего свободно доступные API для получения результатов выполнения поисковых запросов популярными поисковыми системами. Это позволяет сократить объемы работ за счет непрофильных составляющих системы и оптимально использовать имеющиеся ресурсы для реализации ключевых компонент, обеспечивающих извлечение и индексацию динамического информационного наполнения, представленного в сети Интернет и последующий учет индексиро-