Научная статья на тему 'Принципы построения системы автоматизации доступа к динамическому информационному наполнению'

Принципы построения системы автоматизации доступа к динамическому информационному наполнению Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
151
28
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Корабельников Д. М.

Рассматриваются принципы, лежащие в основе построения системы, обеспечивающей автоматическое извлечение данных из информационных ресурсов, предоставляющих информацию в сети Интернет посредством динамически генерируемых на основе пользовательских запросов страниц. Предлагаются основные положения, обуславливающие дальнейшее построение системы.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Принципы построения системы автоматизации доступа к динамическому информационному наполнению»

21 декабря 2011 r. 16:39

"Инфокоммуниканионно-упровленческие сети. Расчет и оптимизация систем связи"

Принципы построения системы автоматизации доступа к динамическому информационному наполнению

Рассматриваются принципы, лежащие в основе построения системы, обеспечивающей автоматическое извлечение данных из информационных ресурсов, предоставляющих информацию в сети Интернет посредством динамически генерируемых на основе пользовательских запросов страниц. Предлагаются основные положения, обуславливающие дальнейшее построение системы.

Корабельников Д.М.,

Аспирант ФГУП ЦНИИС

Введение

Развитие инфокоммуникационных технологий и актуальность задач их прикладного использования обуславливают потребность в обеспечении доступности информации различного характера. Как было показано в [1], существует множество страниц сети Интернет, которые в силу различных причин не могут быть обнаружены с использованием общеизвестных поисковых систем, называемые «скрытым вебом». Б рамках данной статьи рассматривается сегмент скрытого веба, относящийся к динамическому информационному наполнению. Информация, представленная на страницах сети Интернет, относящихся к этому сегменту скрытого веба, предоставляется пользователю по результатам выполнения запроса, условия которого задаются пользователем. Сценарий получения информации в данном случае предполагает заполнение пользователем некоторого количества текстовых полей, дополненных, в отдельных случаях, другими интерактивными полями, позволяющими, например, осуществить выбор из нескольких вариантов. Как правило, процедура обработки подобного запроса включает обращение к базе данных, содержащей требуемую информацию, которое учитывает определенные пользователем условия. Значимость информации предоставляемой в форме динамического информационного наполнения определяется широким применением этого подхода при предоставлении доступа к различного рода статистической информации, большим объемам единообразной информации (например, объявления о продаже автомобилей), данным, имеющим научное значение, включая т.н. raw data - первичные данные результатов измерений, пригодные для последующего анализа - и другие данные, собранные в базах данных.

1. Основы явления «скрытого веба» в части динамического информационного наполнения и предлагаемые подходы

Причиной недоступности таких данных для поисковых систем является необходимость в формировании исходных данных для запроса и их корректном предоставлении с учетом семантического значения соответствующих полей. Актуальные на сегодняшний день принципы функционирования поисковых систем предполагают, прежде всего, автоматическую индексацию содержимого страниц сети Интернет без учета семантической стороны их информационного наполнения. Однако для динамиче-

ского информационного наполнения такой подход не является оптимальным, т.к. индексирующие механизмы получают лишь информацию, представленную на странице, содержащей поля для заполнения, и странице, содержащей результаты запроса с незаполненными входными данными. В некоторых случаях поисковые системы могут получить частичный доступ и, соответственно, индексировать динамическое информационное наполнение, если на сайте представлены ссылки на страницы, содержащие, например, результаты наиболее популярных запросов, результаты последних запросов и т.п. Однако это не позволяет поисковым системам выполнить индексацию всего информационного наполнения, т.к. индексация выполняется с определенным временным интервалом и дополнительные ссылки вида приведенных выше не обеспечивают доступ ко всему объему информации, доступному при формировании запросов.

В настоящее время предлагаются различные подходы к решению этой проблемы, рассмотренные в [1]. Во-первых, доступ поисковой системы к данным может быть реализован путем сотрудничества разработчиков поисковой системы и лиц в чьем ведении находятся искомые данные. Примером такого сотрудничества является, например, учет данных портала auto.ru при выполнении поисковых запросов в поисковой системе yandex.ru. Такой подход позволяет в полной мере учесть специфику исходных данных, однако предполагает индивидуальный подход и разработку соответствующих решений для каждого случая сотрудничества, что не позволяет автоматизировать данный подход и делает его применение для большого числа источников данных неэффективным с точки зрения временного фактора. Альтернативные решения предполагают анализ страниц, где пользователям предлагается осуществить ввод условий для формирования запроса и заполнение, в зависимости от предлагаемого подхода, исключительно полей с фиксированным количеством вариантов или в том числе и заполнение текстовых полей на основе анализа их возможного предназначения. Преимуществом такого подхода является возможность его автоматического применения. При этом на настоящий момент не было обнаружено информации о полноценной реализации таковых подходов, которая бы с высокой степенью достоверности позволяла определять предполагаемые значения вводимых пользователем данных, и учитывала семантический

95

контекст искомых данных в целом и отдельного ПОЛЯ запроса в частности.

2. Основные положения в основе предлагаемого

решения

Для разрешения данной проблемы предлагается исходить из обоюдной заинтересованности физических или юридических лиц предоставляющих данные посредством динамического информационного наполнения и лиц предоставляющих услуги поисковых систем, в индексации данных поисковыми системами и, как следствие, возможности обнаружения таковых данных пользователями. При этом могут быть выделены следующие интересы лиц-учостников, возникающие в связи с индексацией данных поисковыми системами:

повышение доступности данных для конечных потребителей и, как следствие, увеличение их числа;

контроль доступа поисковых систем к данным с целью предотвращения несанкционированного доступа к персональным данным в целях соблюдения законодательства, а также аутентификационным, авторизационным и другим данным, связанным с обеспечением информационной безопасности;

относительная простота и гибкость решений по предоставлению доступа к данным;

ограничение нагрузки, связанной с запрашиванием и индексированием данных поисковыми системами, на аппаратно-программные мощности лиц предоставляющих данные.

С другой стороны, могут быть выделены следующие интересы лиц связанных с поисковыми системами:

универсальность и переносимость решения по получению доступа к динамическому информационному наполнению;

— простота внедрения решения как на стороне поисковых систем, так и на стороне владельцев данных в целях распространения решения среди последних;

возможность интеграции предлагаемого решения с различными средствами разработки ресурсов сети Интернет в интересах владельцев данных;

возможность оценки качественных и количественных характеристик предоставляемой информации. В частности, ее структуры, семантического значения, объемов;

— расширяемость и масштабируемость предлагаемого решения.

3. Принципы реализации системы автоматизации доступа

Для реализации доступа поисковых систем и других заинтересованных лиц к динамическому информационному наполнению предлагается использовать стандартизированные интерфейсы, доступные посредством сети Интернет, обращение к которым может бьггь автоматизировано. При этом необходима стандартизация следующих принципов, лежащих в основе функционирования системы, обеспечивающей таковой доступ:

— принципов формирования, публикации, взаимодействия для таковых интерфейсов;

— принципов обмена данными, регламентация форматов передаваемых данных, обеспечивающих под-

держку широкого спектра типов текстовой и другой информации с учетом ее логической структуры, внутренних взаимосвязей;

принципов защиты передаваемых и обрабатываемых данных от несанкционированного доступа, перехвата и модификации;

- принципов описания интерфейсов, включая описание используемых стандартов и их версий, способов взаимодействия с интерфейсами, форматов и типов принимаемых входных данных, форматов и типов исходящих данных, получаемых в результате обработки запроса.

При этом перечисленные стандарты должны сохранять возможность дальнейшего расширения в соответствии с актуальными потребностями.

Задача разработки широкого спектра перечисленных стандартов различного характера, регламентирующих различные аспекты функционирования интерфейсов, является нетривиальной при ее решении с нуля. При этом перечисленные задачи не являются уникальными для области в целом, в связи с этим целесообразно использование уже существующего набора решений в случае, если они подходят для решения поставленной задачи.

Архитектурой, в основе которой лежат принцип модульного построения системы, предполагающий возможность индивидуального доступа к отдельным модулям системы по стандартизированным правилам является сервис-ориентированный подход. Это позволяет рассматривать его в качестве основного при решении поставленной задачи.

На настоящий момент существует множество решений, позволяющих реализовать сервис-ориентированный подход при решении прикладных задач. Основными среди них являются следующие:

— REST (Representational State Transfer);

- RPC (Remote Procedure Call);

- COM* (Component Object Model);

— CORBA (Common Object Request Broker Architecture);

- Web-services (веб-сервисы).

При выборе конкретного решения в качестве основных рассматривались следующие критерии оценки:

платформонезависимость решения на уровне среды исполнения программных средств, аппаратных решений;

— актуальность и активное развитие решения с участием крупных игроков рынка;

— нативная поддержка и возможность разработки на различных языках и с использованием широкого спектра средств разработки;

пригодность решения к использованию в среде сети Интернет.

По результатам оценки, технологией, в наибольшей степени соответствующей предъявляемым требованиям, были признаны веб-сервисы. Эта реализации сервис-ориентированного подхода не привязана к какой-либо проприетарной платформе, активно развивается с участием таких организаций как W3C (World Wide Web Consortium), TM Forum (The TeleManagement Forum), WS-I Organization (Web Services Interoperability Organization), OASIS (Organization for the Advancement of Structured Information Standards), OMG (Object Management Group);

96

ней стадии разработки подходы к предоставлению в том числе семантических метаданных предоставляемого динамически информационного наполнении баз данных.

Возможность автоматизированной генерации вебсервисов позволяет реализовывать автоматическую генерацию интерфейсов для автоматизированного получения данных поисковыми системами с учетом комплекса условий, предоставляемых лицами, в чьем ведении находятся соответствующие базы данных. Это позволит, с одной стороны упростить процесс предоставления данных для поисковых систем и, как следствие, обеспечить более широкое распространение предлагаемого решения, а с другой стороны, позволит обеспечить соответствие принятым стандартам, что является существенным для задач автоматического взаимодействия, извлечения данных, их последующей индексации.

Литература

1. Корабел ьн и ко в Д. Текущее состояние проблемы скрытого веба и подходы к ее решению // Т-Сотт: Телекоммуникации и транспорт / М.: 2009. - 185. - С. 183-184.

2. Корабельников Д. Подходы и технологии автоматизированного обнаружения веб-сервисов // Четвертая отраслевая научная конференция-форум «Технологии информационного общества» / М.: ИД Медиа Паблишер, 2010 - С. 4.

97

позволяет вести разработку с использованием платформ Apache, Java, .NET, РНР и других. Существенными преимуществами данного решения является учет при его создании перспектив использования в сети Интернет, существенная распространенность и высокая степень обнаружи-мости поисковыми системами. Как было показано в [2], поисковые системы в их виде на сегодняшний день представляют собой эффективное средство автоматического обнаружения разнохарактерных веб-сервисов. Это, в условиях рассматриваемой задачи, позволяет рассматривать решение на основе веб-сервисов как наиболее перспективное.

3. Заключение

Таким образом, применение веб-сервисного подхода в качестве основного при реализации комплексной системы автоматизации доступа к динамическому информационному наполнению позволит обеспечить, с одной стороны, использование существующих актуальных разработок, платформонезависимость итогового решения, возможность интеграции с широким спектром программных средств, используемых при управлении информационным наполнением, а с другой стороны, простоту обнаружения поисковыми системами, широкие возможности по регламентации различных аспектов использования предоставляемых интерфейсов.

Использование расширяемого языка разметки XML в качества стандарта при описании веб-сервисов позволит в будущем учесть находящиеся в настоящее время на ран-

i Надоели баннеры? Вы всегда можете отключить рекламу.