Научная статья на тему 'Автоматизация управления неструктурированными данными в рамках системы управления контентом на предприятии'

Автоматизация управления неструктурированными данными в рамках системы управления контентом на предприятии Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
451
34
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Антонов Сергей Игоревич, Редько Сергей Георгиевич

В статье анализируются основные проблемы автоматизации процесса управления неструктурированными данными в компании. Рассмотрены модели представления данных с точки зрения применимости для описания неструктурированных данных. Рассмотрена возможность использования технологии Semantic Web для решения задачи автоматизации обработки и описания неструктурированных данных

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Significant limitation of automation non structured data management process in an enterprise are analyzed in the article. Models of data presentation are put concerning applicability for non structured data description. Ability of using Semantic Web technology for automation and non structured data handling is determined

Текст научной работы на тему «Автоматизация управления неструктурированными данными в рамках системы управления контентом на предприятии»

мации и на этой основе совершенствование информационных потоков путем устранения лишних данных и введения нужных.

Таким образом, бенчмаркинговая информационная система должна формироваться и совершенствоваться с учетом пере-

численных выше требований, что является необходимым условием повышения действенности и эффективности управления, принятия эффективных управленческих решений.

С.И. Антонов, С.Г. Редько

АВТОМАТИЗАЦИЯ УПРАВЛЕНИЯ НЕСТРУКТУРИРОВАННЫМИ ДАННЫМИ В РАМКАХ СИСТЕМЫ УПРАВЛЕНИЯ КОНТЕНТОМ НА

ПРЕДПРИЯТИИ

В современную высокотехнологичную эпоху системы управления предприятием стали стандартом для компаний, стремящихся к интенсивному развитию, и необходимой составляющей для ведения эффективного бизнеса. Такие системы создаются для автоматизации процессов управления и для предоставления ключевой информации топ-менеджерам с целью многостороннего ана-

лиза состояния компании, а так же призваны помочь им в принятии решений.

Важным элементом системы управления организацией является система управления информацией [1], которая, в свою очередь, делится на две ветви в соответствии с решаемыми задачами: управление структурированными (СД) и неструктурированными данными (НД).

Рис. 1. Структура контента на предприятии

Эти системы призваны обеспечить автоматизацию обработки, хранения и предоставления свободного доступа к данным, хаотично поступающим и вращающимся в корпоративной структуре, а так же служат аналитическим инструментом для руководителей. На рис.1 показаны возможные источники информации, а так же объем обрабатываемых НД и СД на предприятии в процентном соотношении.

Обработку структурированного контента компании успешно решают с помощью систем управления документами (СУД) и бизнес-процессами, которые позволяют организовать и поддерживать информационные потоки, связанные с документационным обеспечением. Обработка неструктурированных данных может быть частично решена с использованием систем класса ECM (Enterprise Content Management) и СMS (Content Management System), но полностью охватить эту область управления информацией они не позволяют в связи со следующими ограничениями.

- Отсутствие разработанной иерархии и классификации объектов НД.

- Отсутствие механизмов автоматической обработки НД.

- Низкие аналитические возможности при работе с НД.

- Низкая скорость обработки НД.

- Отсутствие единой точки ввода и доступа к данным.

С таким перечнем проблем сталкиваются организации, ставящие целью наладить эффективный информационный поток. Разберем причины, создающие эти ограничения.

Первые три пункта, в первую очередь, связаны со слабо формализованной моделью метаданных и неадаптированной для НД моделью представления данных, которые являются ключевыми элементами в архитектуре любой ECM-системы. Низкая скорость обработки данных является следствием низкой скорости работы современных физических носителей хранения данных. Последний пункт обусловлен множеством возможных путей входа информации в компанию (e-mail, курьер, факс, интернет), что делает

актуальной задачу создания единой точки входа и обработки данных.

Можно выделить несколько основных возможностей, позволяющих повысить эффективность работы с неструктурированными данными:

- разработка оптимизированной модели представления НД;

- создание узла ввода и обработки данных;

- вовлечение в процесс обработки НД высокоскоростных носителей информации.

Наиболее существенными для задачи управления корпоративной информацией являются первое направление, за которым стоят принципиальные решения основных задач в области управления неструктурированной информацией.

Рассмотрим, какие модели представления данных используются для решения задач управления документооборотом и контентом, а так же насколько они подходят для управления неструктурированными данными.

В основе систем управления информацией, преимущественно, лежат две модели представления данных: реляционная и объектно-ориентированная. Дадим краткую характеристику каждой из моделей.

Реляционная модель представляет собой структуру данных, организованных в виде двумерных таблиц (рис.2). Каждая таблица состоит из строк (записей) и столбцов (полей). Строки таблицы содержат сведения о представленных объектах (документах) -атрибуты объекта. На пересечении столбца и строки находятся конкретное значение атрибута объекта, содержащегося в таблице данных. Сам объект может храниться, как в базе данных, так и вне нее. Таким образом, исходя из описанной модели представления данных, СУД оперирует атрибутами документов, как коллекцией структурированных данных, каждый атрибут документа находится на «своей полке» и если есть необходимость использовать его в каком-либо процессе, то система без труда определяет необходимо значение атрибута. Преимущество

реляционной модели данных заключается в простоте, понятности и удобстве физической реализации на компьютерах, что явилось причиной ее широкого распространения. К основным недостаткам модели относятся отсутствие стандартных средств идентификации отдельных записей и сложность описания иерархических и сетевых связей.

Объектно-ориентированная модель стала следующим шагом в эволюции моделей представления данных и позволила описывать не только структурированные объекты, заключив в себе элементы реляционной модели, но и частично неструктурированные и слабо структурированные данные (рис.3).

Рис. 2. Реляционная модель

Библиотека

свойство тип значение

район string Невский

Абонент class

Каталог class

Ввщача class

билет abs

номер abs

х

Выдача

билет в1шв 00015

номер string 02867 дата вйшв 9 01 97

Абонент _

билет string 00015

имя string Василвев

адрес string Мира, 3

телефон string 24Й1288 -

X

Каталог

isbn stnng

удк string

название string

автор stnng

Книга class

3 217QQ62S5 6S13D6 Базы данных А Д Хомоненко

X

Книга

номер string 02694

стеллаж slnng 7

издание suing I

Рис. 3. Объектно-ориентированная модель

Объектная модель представления данных оперирует такими понятиями, как класс и объект. Классы определяют структуру данных и представляют собой набор атрибутов (текстовая строка, целое число, изображение и т.д.). Представители класса (объекты) имеют определенную структуру и могут содержать другие объекты, образуя произвольную иерархическую структуру. Объекты могут наследовать свойства, содержание и поведение объектов, которые в них содержатся. Примерами объектов служат документы, картинки, папки и учетные записи пользователей. Класс контента не хранит в себе реальных данных - такую информацию содержат объекты (экземпляры класса). Определив один класс, можно создать множество его представителей (контент-объектов).

В ЕСМ-системах данные обычно хранятся в реляционной или объектной базе данных. В первом случае объектная модель данных отображается на реляционную модель базы данных.

Основным преимуществом объектно-ориентированной модели данных, в сравнении с реляционной, является возможность адекватного отображения информации о сложных взаимосвязях объектов. Объектно-ориентированная модель данных позволяет идентифицировать отдельные записи базы данных и определять функции их обработки. Недостатками этой модели являются высокая понятийная сложность, неудобство обработки данных и низкая скорость выполнения запросов.

Для определения степени пригодности рассмотренных моделей для описания СД и НД необходимо рассмотреть понятия структурированных и неструктурированных данных и разницу между ними. Структурированные данные - это данные, упорядоченные определенным образом и организованные с целью обеспечения возможности применения к ним некоторых действий для проведения анализа. Неструктурированные данные -это неупорядоченные данные, произвольные по форме, которые были собраны независимо от того, как они могут быть использованы.

Существенное отличие состоит в том, что описание СД логично и инвариантно реализуется с помощью разметки внешними атрибутами с их значениями. НД требуют, кроме того, описания самого содержания данных, а объектом описания, может быть как элемент содержания, так и оно целиком. Описание НД затрудняется нетривиальной задачей разметки содержания данных. Отличие заключается, также в разных требованиях к метамоделям для СД и НД. Метамодель НД должна быть более гибкой, масштабируемой и должна позволять делать данные более семантически насыщенными и явно выражать (формально описывать) скрытую семантику структуры данных. Важным требованием к модели является также наличие свойств замкнутости и полноты. Замкнутость означает, что, осуществляя действия в выбранной формальной модели, мы не выйдем за её пределы и нам не встретятся не-формализуемые (неописываемые) объекты. Полнота выбранной формальной системы означает, что в её рамках можно описать все объекты из рассматриваемого множества.

Исходя из приведенных отличий, можно утверждать, что реляционная модель непригодна для работы с НД в силу своей архитектуры, основанной на совокупности плоских таблиц, не способных формализовать описание сложных структур данных. Объектно-ориентированная модель частично применима для описания НД, поскольку, наряду с простыми объектами, может описывать более сложные разветвленные структуры данных.

Таким образом, можно сделать вывод, что традиционные модели не решают задачу описания НД полностью. В качестве альтернативы рассмотрим возможность применения технологии Semantic Web, уже апробированной и использующейся в Интернет, как инструмент для описания и обработки НД [2].

Semantic Web предусматривает объединение разных видов информации в единую структуру, где каждому элементу будет соответствовать машинный код в виде специального смыслового тэга (метаданные). Все

тэги должны составлять единую иерархическую структуру RDF, на основе которой и будет работать Semantic Web. Метаданные в обязательном порядке включают общие сведения об информации, о том, как, где и кем она была создана и как структурирована. Таким образом, унифицированное представление информации в Semantic Web плюс набор механизмов «понимающих» смысловые теги, заложенных в эту информацию, обеспечат автоматическую компьютерную обработку информации с учетом ее семантики.

В основе Semantic Web лежат следующие три базовых концепции [3].

1. Расширяемый язык разметки XML (Extensible Markup Language) обеспечивает возможность создания унифицированного представления электронных документов произвольной структуры на основе словаря разметочных тегов и правил их объединения в синтаксические конструкции.

2. RDF (Resource Description Framework) - это формат описания ресурсов в терминах «объект-атрибут-значение ». Последовательно выраженные RDF - это графы цепочек описаний метаданных, которые позволяют выразить в «машинопонимаемом» формате семантические описания ресурсов.

3. Онтологии, определяющие термины и отношения между ними. Онтология представляет собой формальное описание понятий предметной области и отношений между ними, а также правила для составления новых понятий и отношений. Очень важным в данном определении является то, что онтология, кроме уже определенных понятии и отношений, содержит также правила для получения новых понятий и отношений.

Рассмотрим общее описание модели системы, построенной на основе технологии Semantic Web. Основой системы, построенной на технологии Semantic Web, является определенный семантический базис предметной области, который позволяет организовать «осмысленный» анализ информации в электронных документах. Выражается это, во-первых, в том, что любые естественноязыковые конструкции, с помощью которых

может быть представлена та или иная информация, содержат в явном или неявном виде предмет обсуждения, семантическую идентификацию которого можно осуществить благодаря наличию онтологии предметной области. Кроме того, могут быть определены и идентифицированы потенциальные взаимосвязи между объектами в тексте. Во-вторых, информация в электронных документах часто либо структурирована, а если нет, то содержит структурированные островки информации в виде списков и таблиц. Идентификация описания информации в виде названий атрибутов, составляющих заголовки структурированной информации, также может быть осуществлена с помощью онтологии. Не имея онтологии, островки структурированной информации могут быть неправильно разделены программным обработчиком на значения и описания этих значений, т.е. будут неправильно построены цепочки «атрибут-значение», описывающие список или таблицу. Поэтому представляется целесообразным использование онтологии предметной области для организации идентификации семантических объектов и их взаимосвязей в представлении информации в электронных документах. Рассматривая такой подход в контексте задачи автоматизации управления информацией на предприятии, можно сделать вывод, что онтология с идентифицированными связями между объектами, будет являться описанием структуры определенного вида деятельности компании (логистика, бухгалтерия, финансы, планирование и т. д.)

Идентификация более сложных для описания семантических объектов информации определяется, как процесс отображения составляющих естественно-языковых конструкций на семантические описания объектов в онтологии предметной области. Здесь одну из главных ролей выполняет полнота описания предметной области, т.е. онтологии. Кроме того, в онтологии должны быть учтены синонимы, соответствующие тому или иному семантическому объекту. Проблема омонимии языков может быть решена путем идентификации семантических объектов и

проверки на допустимость возможных взаимосвязей этих идентифицированных объектов.

Рис. 4. Схема процесса анализа электронного документа

Таким образом, анализ электронного документа сводится к следующим, последовательно выполняемым шагам, изображенным на рис.4.

Заключение

В статье рассмотрены задачи и определены проблемы автоматизации обработки и управления НД в рамках общей задачи управления контентом в компании. Определены основные ограничения СУИ при работе с НД и их причины. Рассмотрены модели представления данных: реляционная, объектно-ориентированная - выяснена возможность их применения к описанию НД. Рассмотрен подход к обработке и описанию данных, основанный на технологии Semantic Web, которую предложено использовать для оптимизации модели представления данных и метамодели, в рамках описанных задач автоматизации управления неструктурированными данными.

СПИСОК ЛИТЕРАТУРЫ

1. Информационные технологии и управление предприятием / В.В. Баронов [и др.]. - М: Компания АйТи, 2004. - 328 с.

2. Passin T. B. Explorers's Guide to the Semantic Web / T. B. Passin.: MAN NING, 2004.

- 205 c.

3. Daconta M.C. The semantic web. A guide to the future of XML, web services, and knowledge management / L.J. Obrst, K.T. Smit: WILEY, 2003.

- 312 a

Д.М. Коробкин, С.А. Фоменков

ПОИСК И ВЫДЕЛЕНИЕ СТРУКТУРИРОВАННОЙ ФИЗИЧЕСКОЙ ИНФОРМАЦИИ В ВИДЕ ФИЗИЧЕСКИХ ЭФФЕКТОВ ИЗ ТЕКСТОВ

ПЕРВИЧНЫХ ИСТОЧНИКОВ

В связи с ростом количества электронных источников все более увеличивается потребность в поиске и выделении интересующей пользователя информации. Опыт использования существующих систем, применяющих универсальные модели выделения информации, свидетельствует о необходимости ограничения обрабатываемой в системе информации до конкретной предметной

области (ПО), что позволит более релевантно искать и выделять нужную информацию. В данном исследовании предметная область ограничивается структурированной физической информацией в виде физических эффектов (ФЭ) [1], которые полезны при конструировании принципиально новых высокоэффективных технических систем, разработке новых технологий, научно-

i Надоели баннеры? Вы всегда можете отключить рекламу.