Известия ТРТУ
Специальный выпуск
УДК 621.376.57
Ю.М. Вишняков, М.В. Болотов, О.В. Харин СОЗДАНИЕ ЕДИНЫХ СРЕДСТВ ДОСТУПА К БАЗАМ ЭЛЕКТРОННЫХ ДОКУМЕНТОВ НА ОСНОВЕ СКАНТЕХНОЛОГИЙ
Автоматизация процессов docflow - одна из важнейших областей применения скантехнологий. По традиционной схеме, после появления документа, его копии рассылаются по всем объектам, участвующим в документообороте, приводя к значительным временным задержкам прямо пропорционально их территориальному расположению. При использовании скантехнологий документ сканируется, преобразуется в специализированный формат и помещается в БД, к которой организован привилегированный Интернет-доступ.
- -ставления информации для различных прикладных систем [1]. Для реализации скандокумента в Единой информационной системе (ЕИС) ФАВТ разработан специализированный формат на базе TIFF [2]: графическая компонента кодируется в CCITT Group 4, текстовая - LZW, служебная в - SGML-подобном. Такой доку-
TIFF -
, -го поиска и полный текстовый эквивалент документа. Для повышения скорости доступа и быстродействия системы служебная и текстовая информации размещается в БД. Однако это не является принципиальным, поскольку поиск по документам может проводиться и специальным поисковым приложением локально.
Система разработана на основе технологий Южно-Российского центра ска-нерных технологий и сертификации (www.scan.eldic.org).
БИБЛИОГРАФИЧЕСКИЙ СПИСОК
1. Болотов М.В. (рук. Вишняков Ю.М.). Прикладное программное обеспечение сканцентра // Седьмая Междуродная научн.-техн. конф. с^дентов и аспирантов: Тез. докл. В 3-х т. М., 2001. Т.1. C.390.
2. Вишняков Ю.М., Болотов М.В., Харин О.В.. Реализация формата TIFF в распределенной архитектуре COM/DCOM для систем хранения скандокументов // Известия ТРТУ. Спец. вып.: Материалы XLVII научно-технической конференции. Таганрог, 2002. №1(24). C.310.
УДК 681.3.02
..
КАТАЛОГИЗАЦИЯ ЭЛЕКТРОННЫХ РЕСУРСОВ
Разнообразие информационных материалов постоянно растет, и завтра оно будет таким, что сегодня его невозможно и представить себе. Их формат может быть различным - это и текстовые файлы, и файлы различных представлений изображений, музыка, видео. Электронные материалы могут храниться по частям с последующим их объединением в отображаемую целостность или с просмотром их по отдельности. Как раз была разработана новая категория материала, которая
Секция математического обеспечения и применения ЭВМ
именуется как “интегрирующий объект”. В настоящее время осуществляется замена общего обозначения материала “машинный файл” на “электронный ресурс”.
При решении проблем каталогизации электронных ресурсов необходимо проработать следующие вопросы:
♦ что делать с “интегрирующими объектами”;
♦ как соединить сопровождающие и связанные между собой материалы;
♦ как описать и обеспечить доступ к произведениям или их частям, представленным в виде множества электронных документов и структур.
Традиционные методы поиска электронных ресурсов уже не отвечают реаль-.
подходы. Один из них - это добавление дополнительного контекста при описании ресурса, например введение определенных категорий, классифицирующих ресурсы. Контекст может вводиться и при запросе на поиск, что также улучшает результат поиска. Другой подход - персонификация поиска, т. е. использование механиз-
,
,
.
работы со знаниями: ассоциативные правила, лексико-грамматические алгоритмы, так называемые алгоритмы Data mining; которые также могут решать задачи эффективного формирования запросов и выдачи результатов при реализации поиско-.
УДК 681.3.02
Ю.М. Вишняков, АЛ. Толкачев ОРГАНИЗАЦИЯ РАСПРЕДЕЛЕННЫХ ЭЛЕКТРОННЫХ ХРАНИЛИЩ ДОКУМЕНТОВ
В ближайшем будущем печатная информация будет являться основным источником формирования электронных библиотек и архивов. Электронную библиотеку (ЭБ) можно определить как информационную систему, позволяющую надежно сохранять и эффективно использовать разнообразные коллекции электронных документов (ЭД), локализованных в самой системе, а также доступных ей через телекоммуникационные сети [1]. При этом объединение ресурсов не обязательно должно осуществляться физически - оно может быть виртуальным и должно обеспечивать целостность информационного пространства для пользователя.
Термин «распределенные системы» затрагивает тем или иным образом большое количество технологических решений. Эти решения, будучи ориентированными на решение вполне определенных задач, имеют главной проблемой недоста-
, -ны не отдельно, сами по себе, а в режиме тесного взаимодействия с другими тех.
В ЭБ должны быть предусмотрены различные операции, определенные в основном (а возможно и только) над информационными объектами, например над ЭД, а не над содержащейся в них информацией. Среди других объектноориентированных технологий создания распределенных систем технология CORBA, будучи стандартом разработки распределенных систем, затрагивает все вопросы,