ТЕХНОЛОГИИ ИНФОРМАЦИОННОГО ОБЩЕСТВА
Вопросы создания электронных средств организации доступа к мультимедийному репозиторию
Корабельников Д.М., ЦНИИС
Мультимедийные репозитории являются хранилищами данных различных медиа и форматов. Репозиторий может быть реализован в виде хранилища файлов, обладающего в той или иной степени заданной структурой, в виде базы данньх или набора баз данных, хранящих информацию различных типов, а также их сочетания. В данной работе будут рассматриваться, в первую очередь, репозитории существенного масштаба, состоящие из разнохарактерных баз данных, описывающих ограниченную предметную область, доступ к которым достаточно широкого круга пользователей осуществляется посредством сети Интернет и с использованием, главным образом, поисковых форм, позволяющих производить поиск в соответствии как с текстовой строкой запроса, так и используя дополнительные элементы уточнения поиска.
При организации доступа к репозиторию подобного рода требуют решения следующие вопросы:
— обеспечение единообразного подхода при взаимодействии с различными базами данных, обладающими, во многих случаях, собственной структурой данных и способами их описания;
— создание метаданных, описывающих имеющие значение для пользователя сущности предметной области, в т.ч. данных, представленных отдельными файлами;
— обработка и индексация текстовых файлов, представленных в репозитории с целью обеспечения полнотекстового поиска не только по метаданным, но и по информации, представленной отдельными файлами;
— расширяемость при добавлении новых баз данных и сторонних источников информации, относящейся к предметной области;
— обеспечение удовлетворительной производительности при выполнении поисковых запросов;
— создание системы ранжирования результатов поиска в соответствии с критериями релевантности.
В качестве примера, иллюстрирующего рассматриваемые вопросы, может быть рассмотрено создание единой системы доступа к фондам научных библиотек. Эта задача представляется наиболее подходящей для иллюстрации описываемых задач в силу следующих положений:
— отсутствие единой системы электронного доступа к фондам научных библиотек РФ;
— различная степень цифровизации фондов библиотек научных и образовательных учреждений, во многих случаях проводимая независимо, что требует решений по обеспечению совместимости баз данных, используемых для хранения данных;
— достаточно высокая степень организации фондов, их структурированности;
— возможность четкого выделения тематической направленности научных источников;
— различие цифровых форматов данных, используемых при цифровизации документов.
При создании средств доступа к сложным мультимедийным репозиториям, необходимо выполнения следующих основных требований, позволяющих обеспечить решение вопросов, рассмотренных ниже.
Архитектурная гибкость
Наиболее характерной особенностью независимо разработанных систем доступа является их реализация в виде целостного приложения, скомпилированного на основе библиотек и программного кода. В этом случае расширение и изменение таких систем представляет существенную сложность, так как при внесении дополнений и изменений требует рекомпиляция всего проекта, с последующим внедрением исполняемых файлов на серверы приложений. Наиболее целесообразным, с этой точки зрения, является разработка с использованием технологий, обеспечивающих архитектурную гибкость создаваемых решений. В частности: COM+, Web Service, Corba и др. [1]. За счет применения этих технологических подходов возможна доработка действующих подсистем, а также расширение функциональности путем добавления программных элементов, ее обеспечивающих, без необходимости перекомпиляции и изменения существующих элементов. Также это позволит впоследствии добавлять новые источники данных без необходимости существенных преобразований в уже сложившейся системе.
Платформонезависимость
Необходимо, чтобы система организации доступа не зависела от особенностей платформ и программных средств, используемых как конечными пользователями, так и в первую очередь решениями, которые были использованы при обеспечении доступа к отдельным базам и источникам данных. Это накладывает дополнительные ограничения на средства обеспечения взаимодействия между компонентами системы.
Совместимость на уровне индексов
Сложнореализуемым, но весьма существенным требованием является возможность совмещения индексов документов, построенных для отдельных источников данных, входящих в систему обеспечения доступа к распределенным источникам данных. Это может быть реализовано путем создания как мастер-индекса на основе подчиненных независимых индексов, так и общего индекса, обобщающего все доступные источники данных на основе прямого доступа. Следует отметить, что реализация любого из подходов требует определенных компромиссов, связанных с вопросами совместимости и обеспечения безопасности.
ТЕХНОЛОГИИ ИНФОРМАЦИОННОГО ОБЩЕСТВА
Доступ на уровне данных
В силу общей заинтересованности участников в создании подобного рода систем, предполагается открытое сотрудничество при решении вопросов взаимодействия и обмена данными. Вопросы доступа к источникам данных являются организационными вопросами, не требующими специальных технических решений. Таких, например, как анализ формы запросов репозитория с целью формулировки набора запросов, обеспечивающих получение данных или другие способы извлечения информации, недоступной напрямую.
При разработке подобного рода систем в первую очередь рассматриваются вопросы их внутренней организации, обеспечения взаимодействия компонентов, решение задач отказоустойчивости и производительности, резервирования данных и оптимизации различных аспектов функционирования системы. С точки зрения доступа предполагается, что пользователи самостоятельно, или вследствие информационной компании, получат информацию о системе. Вопросы представления собственно данных системы в поисковых системах, как правило, не рассматриваются. Это связано в том числе со следующими соображениями [2]:
— коммерческая ориентированность наиболее популярных поисковых систем, влияющая на формирование результатов поисковых запросов [3];
— изменение индексов поисковых систем с течением времени. Обеспечивая гибкость результатов выдачи в соответствии с новейшими изменениями, современные поисковые системы, могут исключать или существенно снижать уровень релевантности повторяемому запросу одного и того же ресурса с течением времени [4]. Компании регулярно заменяют и дополняют существующие поисковые и индексирующие механизмы, что также оказывает влияние на результаты поисковых запросов;
— существующие поисковые системы, несмотря на проводимые работы в этой области, прежде всего ориентируются на информационное наполнение, которое может быть обработано автоматически, без участия оператора. Рассматриваемая в качестве примера система попадает в категорию динамического информационного наполнения скрытого веба [5], что существенно осложняет ее участие в результатах поисковых запросов популярных поисковых систем;
—для систем, аналогичных рассматриваемой, существенной является задача обеспечения уровня качества предоставляемой информации, соответствие параметрам, позволяющим отнести ее к достоверной, надежной, подтвержденной. Во многих случаях, это является задачей поддержания доверия и репутации. Популярные поисковые системы ранжируют документы, не оценивая степень их до-
стоверности. Таким образом, в результатах поисковых запросов надежные и проверенные источники могут быть смешаны с популярными страницами, не имеющими научной ценности.
Необходимо признать, что поисковые системы заняли существенное место в числе средств, предоставляющих возможности поиска информации в сети Интернет. Несмотря на недостатки, взаимодействие с поисковыми системами, стремящимися расширить охваченное информационное содержание за счет мультимедийных репозиториев и увеличить общий уровень качества предоставляемых результатов поиска, представляет большой интерес как с точки зрения пользователей, так и лиц, обеспечивающих наполнение и поддержку мультимедийных репозиториев. Однако на настоящий момент работы по организации подобного взаимодействия ведутся, как правило, независимо со стороны лиц, представляющих средства доступа к мультимедийным репозиториям, так и со стороны отдельных поисковых систем. Это создает определенные различия в целевых задачах, что может привести к определенным техническим и принципиальным конфликтам, касающихся положений, лежащих в основе взаимодействий этих двух категорий ресурсов.
Создание электронных средств организации доступа к мультимедийному репозиторию представляет собой сложную задачу, требующую привлечения множества технологических решений. Практическая реализация такого рода систем осложняется также необходимостью учитывать также и семантические требования к данным, к которым осуществляется доступ. При этом задачи поиска данных представляются наиболее сложными, имеющими наименьшее число устоявшихся решений, что осложняется существенными различиями в подходах к организации данных для различных источников данных, что характерно, в частности, для рассматриваемого примера. Дополнительным аспектом является взаимодействие с поисковыми системами, которое на настоящий момент также является задачей, требующей дополнительных разработок в этой области.
Литература
1. Корабельниа» Д Сервис-ориентированный подход при создании информационных систем/Друды Московского технического университета связи и информатики. — М.: "ИД Медиа Паблишер", 2008. — Т. 1. — С.125-127.
2. Lossau N. Search Engine Technology and Digital Libraries: Libraries Need to Discover the Academic Internet // D-Lib Magazine. — 2004. — V10, No.6.
3. Wilson B. Using the Internet for Searching // D-Lib Magaz'na — 2004. — V10, No.3.
4. Hawking D. Web Search Engines: Part 1 // IEEE Computer. — 2006. — V39, No.6. — рр. 86-88.