Автоматизация управления неструктурированными данными в рамках системы управления контентом на предприятии

Антонов Сергей Игоревич; Редько Сергей Георгиевич

мации и на этой основе совершенствование информационных потоков путем устранения лишних данных и введения нужных.

Таким образом, бенчмаркинговая информационная система должна формироваться и совершенствоваться с учетом пере-

численных выше требований, что является необходимым условием повышения действенности и эффективности управления, принятия эффективных управленческих решений.

С.И. Антонов, С.Г. Редько

АВТОМАТИЗАЦИЯ УПРАВЛЕНИЯ НЕСТРУКТУРИРОВАННЫМИ ДАННЫМИ В РАМКАХ СИСТЕМЫ УПРАВЛЕНИЯ КОНТЕНТОМ НА

ПРЕДПРИЯТИИ

В современную высокотехнологичную эпоху системы управления предприятием стали стандартом для компаний, стремящихся к интенсивному развитию, и необходимой составляющей для ведения эффективного бизнеса. Такие системы создаются для автоматизации процессов управления и для предоставления ключевой информации топ-менеджерам с целью многостороннего ана-

лиза состояния компании, а так же призваны помочь им в принятии решений.

Важным элементом системы управления организацией является система управления информацией [1], которая, в свою очередь, делится на две ветви в соответствии с решаемыми задачами: управление структурированными (СД) и неструктурированными данными (НД).

Рис. 1. Структура контента на предприятии

Эти системы призваны обеспечить автоматизацию обработки, хранения и предоставления свободного доступа к данным, хаотично поступающим и вращающимся в корпоративной структуре, а так же служат аналитическим инструментом для руководителей. На рис.1 показаны возможные источники информации, а так же объем обрабатываемых НД и СД на предприятии в процентном соотношении.

Обработку структурированного контента компании успешно решают с помощью систем управления документами (СУД) и бизнес-процессами, которые позволяют организовать и поддерживать информационные потоки, связанные с документационным обеспечением. Обработка неструктурированных данных может быть частично решена с использованием систем класса ECM (Enterprise Content Management) и СMS (Content Management System), но полностью охватить эту область управления информацией они не позволяют в связи со следующими ограничениями.

- Отсутствие разработанной иерархии и классификации объектов НД.

- Отсутствие механизмов автоматической обработки НД.

- Низкие аналитические возможности при работе с НД.

- Низкая скорость обработки НД.

- Отсутствие единой точки ввода и доступа к данным.

С таким перечнем проблем сталкиваются организации, ставящие целью наладить эффективный информационный поток. Разберем причины, создающие эти ограничения.

Первые три пункта, в первую очередь, связаны со слабо формализованной моделью метаданных и неадаптированной для НД моделью представления данных, которые являются ключевыми элементами в архитектуре любой ECM-системы. Низкая скорость обработки данных является следствием низкой скорости работы современных физических носителей хранения данных. Последний пункт обусловлен множеством возможных путей входа информации в компанию (e-mail, курьер, факс, интернет), что делает

актуальной задачу создания единой точки входа и обработки данных.

Можно выделить несколько основных возможностей, позволяющих повысить эффективность работы с неструктурированными данными:

- разработка оптимизированной модели представления НД;

- создание узла ввода и обработки данных;

- вовлечение в процесс обработки НД высокоскоростных носителей информации.

Наиболее существенными для задачи управления корпоративной информацией являются первое направление, за которым стоят принципиальные решения основных задач в области управления неструктурированной информацией.

Рассмотрим, какие модели представления данных используются для решения задач управления документооборотом и контентом, а так же насколько они подходят для управления неструктурированными данными.

В основе систем управления информацией, преимущественно, лежат две модели представления данных: реляционная и объектно-ориентированная. Дадим краткую характеристику каждой из моделей.

Реляционная модель представляет собой структуру данных, организованных в виде двумерных таблиц (рис.2). Каждая таблица состоит из строк (записей) и столбцов (полей). Строки таблицы содержат сведения о представленных объектах (документах) -атрибуты объекта. На пересечении столбца и строки находятся конкретное значение атрибута объекта, содержащегося в таблице данных. Сам объект может храниться, как в базе данных, так и вне нее. Таким образом, исходя из описанной модели представления данных, СУД оперирует атрибутами документов, как коллекцией структурированных данных, каждый атрибут документа находится на «своей полке» и если есть необходимость использовать его в каком-либо процессе, то система без труда определяет необходимо значение атрибута. Преимущество

реляционной модели данных заключается в простоте, понятности и удобстве физической реализации на компьютерах, что явилось причиной ее широкого распространения. К основным недостаткам модели относятся отсутствие стандартных средств идентификации отдельных записей и сложность описания иерархических и сетевых связей.

Объектно-ориентированная модель стала следующим шагом в эволюции моделей представления данных и позволила описывать не только структурированные объекты, заключив в себе элементы реляционной модели, но и частично неструктурированные и слабо структурированные данные (рис.3).

Рис. 2. Реляционная модель

Библиотека

свойство тип значение

район string Невский

Абонент class

Каталог class

Ввщача class

билет abs

номер abs

х

Выдача

билет в1шв 00015

номер string 02867 дата вйшв 9 01 97

Абонент _

билет string 00015

имя string Василвев

адрес string Мира, 3

телефон string 24Й1288 -

X

Каталог

isbn stnng

удк string

название string

автор stnng

Книга class

3 217QQ62S5 6S13D6 Базы данных А Д Хомоненко

X

Книга

номер string 02694

стеллаж slnng 7

издание suing I

Рис. 3. Объектно-ориентированная модель

Объектная модель представления данных оперирует такими понятиями, как класс и объект. Классы определяют структуру данных и представляют собой набор атрибутов (текстовая строка, целое число, изображение и т.д.). Представители класса (объекты) имеют определенную структуру и могут содержать другие объекты, образуя произвольную иерархическую структуру. Объекты могут наследовать свойства, содержание и поведение объектов, которые в них содержатся. Примерами объектов служат документы, картинки, папки и учетные записи пользователей. Класс контента не хранит в себе реальных данных - такую информацию содержат объекты (экземпляры класса). Определив один класс, можно создать множество его представителей (контент-объектов).

В ЕСМ-системах данные обычно хранятся в реляционной или объектной базе данных. В первом случае объектная модель данных отображается на реляционную модель базы данных.

Основным преимуществом объектно-ориентированной модели данных, в сравнении с реляционной, является возможность адекватного отображения информации о сложных взаимосвязях объектов. Объектно-ориентированная модель данных позволяет идентифицировать отдельные записи базы данных и определять функции их обработки. Недостатками этой модели являются высокая понятийная сложность, неудобство обработки данных и низкая скорость выполнения запросов.

Для определения степени пригодности рассмотренных моделей для описания СД и НД необходимо рассмотреть понятия структурированных и неструктурированных данных и разницу между ними. Структурированные данные - это данные, упорядоченные определенным образом и организованные с целью обеспечения возможности применения к ним некоторых действий для проведения анализа. Неструктурированные данные -это неупорядоченные данные, произвольные по форме, которые были собраны независимо от того, как они могут быть использованы.

Существенное отличие состоит в том, что описание СД логично и инвариантно реализуется с помощью разметки внешними атрибутами с их значениями. НД требуют, кроме того, описания самого содержания данных, а объектом описания, может быть как элемент содержания, так и оно целиком. Описание НД затрудняется нетривиальной задачей разметки содержания данных. Отличие заключается, также в разных требованиях к метамоделям для СД и НД. Метамодель НД должна быть более гибкой, масштабируемой и должна позволять делать данные более семантически насыщенными и явно выражать (формально описывать) скрытую семантику структуры данных. Важным требованием к модели является также наличие свойств замкнутости и полноты. Замкнутость означает, что, осуществляя действия в выбранной формальной модели, мы не выйдем за её пределы и нам не встретятся не-формализуемые (неописываемые) объекты. Полнота выбранной формальной системы означает, что в её рамках можно описать все объекты из рассматриваемого множества.

Исходя из приведенных отличий, можно утверждать, что реляционная модель непригодна для работы с НД в силу своей архитектуры, основанной на совокупности плоских таблиц, не способных формализовать описание сложных структур данных. Объектно-ориентированная модель частично применима для описания НД, поскольку, наряду с простыми объектами, может описывать более сложные разветвленные структуры данных.

Таким образом, можно сделать вывод, что традиционные модели не решают задачу описания НД полностью. В качестве альтернативы рассмотрим возможность применения технологии Semantic Web, уже апробированной и использующейся в Интернет, как инструмент для описания и обработки НД [2].

Semantic Web предусматривает объединение разных видов информации в единую структуру, где каждому элементу будет соответствовать машинный код в виде специального смыслового тэга (метаданные). Все

тэги должны составлять единую иерархическую структуру RDF, на основе которой и будет работать Semantic Web. Метаданные в обязательном порядке включают общие сведения об информации, о том, как, где и кем она была создана и как структурирована. Таким образом, унифицированное представление информации в Semantic Web плюс набор механизмов «понимающих» смысловые теги, заложенных в эту информацию, обеспечат автоматическую компьютерную обработку информации с учетом ее семантики.

В основе Semantic Web лежат следующие три базовых концепции [3].

1. Расширяемый язык разметки XML (Extensible Markup Language) обеспечивает возможность создания унифицированного представления электронных документов произвольной структуры на основе словаря разметочных тегов и правил их объединения в синтаксические конструкции.

2. RDF (Resource Description Framework) - это формат описания ресурсов в терминах «объект-атрибут-значение ». Последовательно выраженные RDF - это графы цепочек описаний метаданных, которые позволяют выразить в «машинопонимаемом» формате семантические описания ресурсов.

3. Онтологии, определяющие термины и отношения между ними. Онтология представляет собой формальное описание понятий предметной области и отношений между ними, а также правила для составления новых понятий и отношений. Очень важным в данном определении является то, что онтология, кроме уже определенных понятии и отношений, содержит также правила для получения новых понятий и отношений.

Рассмотрим общее описание модели системы, построенной на основе технологии Semantic Web. Основой системы, построенной на технологии Semantic Web, является определенный семантический базис предметной области, который позволяет организовать «осмысленный» анализ информации в электронных документах. Выражается это, во-первых, в том, что любые естественноязыковые конструкции, с помощью которых

может быть представлена та или иная информация, содержат в явном или неявном виде предмет обсуждения, семантическую идентификацию которого можно осуществить благодаря наличию онтологии предметной области. Кроме того, могут быть определены и идентифицированы потенциальные взаимосвязи между объектами в тексте. Во-вторых, информация в электронных документах часто либо структурирована, а если нет, то содержит структурированные островки информации в виде списков и таблиц. Идентификация описания информации в виде названий атрибутов, составляющих заголовки структурированной информации, также может быть осуществлена с помощью онтологии. Не имея онтологии, островки структурированной информации могут быть неправильно разделены программным обработчиком на значения и описания этих значений, т.е. будут неправильно построены цепочки «атрибут-значение», описывающие список или таблицу. Поэтому представляется целесообразным использование онтологии предметной области для организации идентификации семантических объектов и их взаимосвязей в представлении информации в электронных документах. Рассматривая такой подход в контексте задачи автоматизации управления информацией на предприятии, можно сделать вывод, что онтология с идентифицированными связями между объектами, будет являться описанием структуры определенного вида деятельности компании (логистика, бухгалтерия, финансы, планирование и т. д.)

Идентификация более сложных для описания семантических объектов информации определяется, как процесс отображения составляющих естественно-языковых конструкций на семантические описания объектов в онтологии предметной области. Здесь одну из главных ролей выполняет полнота описания предметной области, т.е. онтологии. Кроме того, в онтологии должны быть учтены синонимы, соответствующие тому или иному семантическому объекту. Проблема омонимии языков может быть решена путем идентификации семантических объектов и

проверки на допустимость возможных взаимосвязей этих идентифицированных объектов.

Рис. 4. Схема процесса анализа электронного документа

Таким образом, анализ электронного документа сводится к следующим, последовательно выполняемым шагам, изображенным на рис.4.

Заключение

В статье рассмотрены задачи и определены проблемы автоматизации обработки и управления НД в рамках общей задачи управления контентом в компании. Определены основные ограничения СУИ при работе с НД и их причины. Рассмотрены модели представления данных: реляционная, объектно-ориентированная - выяснена возможность их применения к описанию НД. Рассмотрен подход к обработке и описанию данных, основанный на технологии Semantic Web, которую предложено использовать для оптимизации модели представления данных и метамодели, в рамках описанных задач автоматизации управления неструктурированными данными.

СПИСОК ЛИТЕРАТУРЫ

1. Информационные технологии и управление предприятием / В.В. Баронов [и др.]. - М: Компания АйТи, 2004. - 328 с.

2. Passin T. B. Explorers's Guide to the Semantic Web / T. B. Passin.: MAN NING, 2004.

- 205 c.

3. Daconta M.C. The semantic web. A guide to the future of XML, web services, and knowledge management / L.J. Obrst, K.T. Smit: WILEY, 2003.

- 312 a

Д.М. Коробкин, С.А. Фоменков

ПОИСК И ВЫДЕЛЕНИЕ СТРУКТУРИРОВАННОЙ ФИЗИЧЕСКОЙ ИНФОРМАЦИИ В ВИДЕ ФИЗИЧЕСКИХ ЭФФЕКТОВ ИЗ ТЕКСТОВ

ПЕРВИЧНЫХ ИСТОЧНИКОВ

В связи с ростом количества электронных источников все более увеличивается потребность в поиске и выделении интересующей пользователя информации. Опыт использования существующих систем, применяющих универсальные модели выделения информации, свидетельствует о необходимости ограничения обрабатываемой в системе информации до конкретной предметной

области (ПО), что позволит более релевантно искать и выделять нужную информацию. В данном исследовании предметная область ограничивается структурированной физической информацией в виде физических эффектов (ФЭ) [1], которые полезны при конструировании принципиально новых высокоэффективных технических систем, разработке новых технологий, научно-

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Антонов Сергей Игоревич, Редько Сергей Георгиевич

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Антонов Сергей Игоревич, Редько Сергей Георгиевич

Текст научной работы на тему «Автоматизация управления неструктурированными данными в рамках системы управления контентом на предприятии»