БИБЛИОГРАФИЧЕСКИЙ СПИСОК
1. Ардашева Е.П. Частно-государственное соуправление развитием регионального нефтегазохимического комплекса в системе отраслевой политики: автореф. дис. ... д-ра экон. наук: 08.00.05. — Казань, 2008. — 40 с.
2. Баннова Н.Э. Исследование природы эволюции экономической системы на основе синергетической парадигмы: автореф. дис. ... д-ра экон. наук. — М., 2004. — 48 с.
3. Бухаров Е.И. Использование синергетических эффектов в стратегическом планировании на промышленных предприятиях (объединениях): автореф. дис. ... канд. экон. наук. — Челябинск, 1998. — 18 с.
4. Ерохина Е. А. Развитие национальной экономики: системно-самоорганизационный подход: дис. ... д-ра экон. наук: 08.00.01. — Томск, 2000. — 414 с.
5. Занг В-Б. Синергетическая экономика: Время и перемены в нелинейной экономической теории. — М.: Мир, 1999. — 335 с.
6. Пригожин И., Стенгерс И. Порядок из хаоса: Новый диалог человека с природой. — М.: Эдиториал УРСС, 2001. — 312 с.
7. Пу Т. Нелинейная экономическая динамика. Регулярная и хаотическая динамика. — М.: НИЦ, 2000. — 198 с.
УДК 004.9:332.146
B.C. Петров (Москва, ОАО УК «Ингосстрах-Инвестиции»)
ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ КАК ИНСТРУМЕНТ ИНФОРМАНАЛИЗА В ИНВЕСТИЦИОННЫХ СТРАТЕГИЯХ
На основе проведенных исследований сделан вывод, что наиболее приемлемой с точки зрения реализации аналитических функций при анализе инвестиционной ситуации является информационная структура, построенная по ROLAP-технологии, с одноуровневой агрегацией по суткам и горизонтальной фрагментацией данных по типам объектов.
Современный анализ инвестиционной ситуации немыслим без привлечения средств информатизации и компьютерных технологий накопления, хранения и анализа данных. При этом анализ многопараметрической и многосвязанной инвестиционной ситуации на основе данных, образующих неполное и искаженное информационное поле, стал возможен, по существу, лишь в последнее десятилетие. В связи с этим, важно рассмотреть современные информационные технологии, образующие инструментальную платформу информационного анализа.
Целью автоматизированной системы анализа инвестиционных ситуаций является реализация управления активами, т. е. совокупности целе-
направленных действий, включающих оценку и прогноз состояния объекта инвестиционного анализа и среды взаимодействия, формирование управляющих решений и их реализацию. Основой для принятия инвестиционных решений служит информация.
В аспекте цели исследования наиболее существенными компонентами автоматизированной системы являются (рис. 1):
- система поддержки принятия решений — аналитическая подсистема автоматизированной системы, обеспечивающая автоматизированную поддержку процессов выработки и принятия инвестиционных решений;
- информационная система — информационная подсистема автоматизированной системы, предназначенная для организации информации, ее хранения, обработки, пополнения и предоставления пользователям в соответствии с их запросами (по данным исследований, проведенных в 2006 г. компанией IDC, 95 % цифровой среды состоит из неструктурированных данных, в организациях неструктурированные данные составляют свыше 80 % всей информации).
Рис. 1. Реализация информационных процессов в автоматизированной системе анализа и управления активами
Одним из основных принципов построения информационной системы информационного анализа является единство информационной базы, подразумевающее создание общего информационного пространства для различных пользователей системы. Вместе с тем, в многоуровневой (иерархической) информационной системе задачи, решаемые на различных инвестиционных уровнях, могут значительно отличаться. Достаточно очевидны существенные отличия в требованиях к информационной системе у краткосрочных биржевых спекулянтов и стратегических инвесторов.
В целом автоматизированную систему информационного анализа можно представить в виде специализированной системы поддержки принятия решений, особенностями которой являются аналитическая обработка данных, полученных в процессе мониторинга инвестиционной ситуации, и
реализация обратной связи через иерархически вышестоящее лицо, принимающее решение. При этом автоматизированная система должна реализовывать функции анализа и оценки инвестиционной ситуации и прогнозирования ее развития. Ее основой, как средства для реализации процессов преобразования инвестиционной информации, является аналитическая информационная система.
Общими особенностями любых автоматизированных систем, в том числе и систем, ориентированных на информационный анализ инвестиционных ситуаций, являются:
- необходимость наличия некоторой среды хранения информации;
- необходимость ориентации на конечного пользователя.
Исходя из общих требований инвестиционного анализа автоматизированная информационная система должна выполнять следующие функции:
- обеспечивать качество данных во все время хранения;
- обеспечивать простой и удобный доступ к данным.
Первое свойство достигается введением универсальной системы управления данным, второе обеспечивается средствами интерфейса.
Бурное развитие информационных технологий показало несостоятельность унифицированного подхода к организации автоматизированных информационных систем различного назначения. Причинами этого является то, что:
- каждая информационная система является уникальной, настроенной на работу конкретных лиц в определенной предметной области;
- информационная система может быть реализована на вычислительных средствах различной конфигурации с незначительным изменением качества системы;
- информационная система находится в постоянном развитии с учетом изменений требований организации;
- информационная система может быть жестко не фиксирована, на рабочем месте в другое время на этих же самых средствах могут решаться другие задачи.
Основными требованиями со стороны информационного анализа к процессу хранения и обработки данных являются своевременность решения задач, достоверность и полнота отображения инвестиционной ситуации.
Далее следует сформулировать требования к информационной системе, ориентированной на задачи информационного анализа:
- быстродействие, достаточное для решения задач обработки, т. е. время формирования сложного аналитического запроса не более 0,51 мин; время формирования ответа на сложный запрос не более 10-12 мин;
- возможность хранения и эффективной обработки данных в соответствии с заданными уровнями полноты и достоверности информационного анализа;
- открытость системы, подразумевающая совместимость с другими автоматизированными системами и доступ в Интернет (в 1996 г. всего 48 млн чел. регулярно использовали Интернет, 2006 г. число пользователей Интернета возросло до 1,1 млрд, к 2010 г., по прогнозам IDC, эта цифра возрастет еще на 500
млн); переносимость системы, т. е. ее независимость от используемой аппаратной платформы и программного обеспечения; масштабируемость, позволяющая расширять перечень решаемых задач без снижения качества их решения;
- гибкость, подразумевающая возможность решения задач как формализованными, так и эвристическими методами;
- функциональность — обеспечение коллективной работы, распределенного преобразования информации, как в составе ЛВС, так и в иерархической структуре обработки.
Следует отметить, что опыт организации информационных систем, ориентированных на аналитическую обработку данных [1, 5, 7], демонстрирует низкую их эффективность при использовании подходов, используемых при традиционном построении и сопровождении распределенных организационно-технических систем. Зависимость вероятности получения своевременного ответа от задержки при передаче в сети и необходимости дополнительной обработки приведена на рис. 2. Факторы, влияющие на эффективность аналитической обработки в операционной информационной системе, можно сформулировать следующим образом:
- для получения необходимой информации необходимо составление сложных запросов, требующее привлечения специалистов, поскольку нормализованные отношения утрачивают первоначально вложенную семантику, схема запроса отлична от языка профессиональной прозы;
- в распределенной среде объединение данных из различных узлов значительно загружает сеть межмашинного обмена;
- получение ретроспективных данных из архивов требует значительных временных затрат. Без предварительной доработки и согласования архивные данные бесполезны и не могут быть непосредственно использованы в задачах анализа;
- необходимые для анализа данные из гетерогенных источников требуют предварительного согласования.
0 0.05 0.1 0.15 0.2 0.25 Рзад
Рис. 2. Зависимость вероятности получения своевременного ответа от задержек при передаче и дополнительной обработки
В результате суммарного воздействия указанных факторов огромные архивные массивы, накопленные за годы мониторинга инвестиционных ситуаций и содержащие самую разнообразную, жизненно важную для управления активами информацию, остаются невостребованными (рис. 3).
1970 1975 1980 1985 1990 1995
Рис. 3. Иллюстрация разрыва между имеющейся и реально используемой
при принятии решений информации
В связи с этим можно сделать вывод о недостаточной эффективности существующих подходов для организации аналитических информационных систем. Поэтому актуальной является задача совершенствования способов организации (разработки и сопровождения) указанного класса информационных систем в интересах информационного анализа.
Центральным элементом любой современной информационной системы являются системы хранения и частичной обработки накапливаемых сведений — базы данных.
К достоинствам концепции базы данных можно отнести:
- унифицированное представление данных ддя различных пользователей;
- устранение избыточности данных и, как следствие, обеспечение их непротиворечивости;
- обеспечение независимости данных от приложений и т. п.
Существенными в аспекте рассмотрения недостатками концепции
базы данных являются:
- снижение эффективности для отдельных приложений;
- необходимость обеспечения управления данными в целях поддержания их целостности;
- рост общего объема данных, вызванный необходимостью введения служебной информации.
База данных представляет собой информационную среду, создающую основу для преобразования массивов данных в искомые знания и играет роль связующего звена, соединяющего технические возможности средств мониторинга с математическими системами решения прикладных и теоретических задач, интегрированными в структуры конкретных функциональных подсистем и бизнес-приложений.
Организация база данных — ее структура и ограничения целостности, которым она должна удовлетворять в каждый момент времени, — определяется более абстрактной моделью предметной области верхнего уровня (интенсиональной моделью). Для информационного анализа в упрощенном виде базу данных информационных факторов можно представить в виде набора электронных таблиц, причем каждая таблица соответствует определенной группе факторов.
При проведении информационного анализа рекомендуется пользоваться, как минимум, двумя основными подходами при формировании содержания базы данных. Первый подход основан на априори заданных характеристиками информационных потребностей пользователей. При втором подходе такие характеристики могут быть заранее неизвестны, и поэтому необходимо стремиться включить наиболее значимые информационные факторы.
Актуализация базы данных сводится к включению в нее новых информационных факторов, удалению или модификации значений существующих параметров, установлению новых связей между информационными факторами базы данных, что легко реализуется средствами метауправления.
Особенностью информационного анализа является использование большого объема информации об анализируемом активе. В этой связи при разработке баз данных необходимо учесть возможность использования техники управления сверхбольшими базами данных.
В аналитических информационных системах, наряду с представлением данных, осуществляется формирование представления знаний. Системы, основанные на представлении знаний, развивались в направлении технологий искусственного интеллекта. Характерным продуктом данного направления, ориентированного на накопление знаний с целью их дальнейшего использования являются экспертные системы. Центральной проблемой систем, основанных на знаниях, является проблема представления знаний с целью удобной манипуляции ими, т. е. средство описания знаний человека, посредством выражения в некоторой формальной системе.
При несомненной привлекательности технологий представления знаний их серьезными недостатками, препятствующими широкому практическому применению, являются:
- высокая стоимость самого процесса приобретения знаний и формирования правил;
- закрытость образованных конструкций;
- потеря управляемости выводом с ростом набора правил и т. д. [3].
По оценке экспертов [6], стоимость генерации одной единицы знаний оценивается в 100-200 долл. США.
Огромный объем накопленных данных, необходимый для анализа и прогнозирования развития сложных ситуаций, а также сложность и неоднозначность аналитических запросов, формируемых в процессе выработки необходимых решений, привел к возникновению новой концепции накопления и хранения данных — концепции информационных хранилищ (хранилищ данных, Data Warehouse). Наиболее известной публикацией по данной тематике является работа У. Инмона [8], предложившего данную концепцию.
В основе концепции хранилищ данных лежат две основополагающие
идеи:
- интеграция ранее разъединенных детализированных данных в едином хранилище, их согласование и агрегация;
- разделение наборов данных, используемых для операционной обработки и наборов данных, применяемых для решения задач анализа.
Основные черты хранилища данных:
- предметная ориентированность;
- стабильность информации;
- интегрируемость данных;
- инвариантность.
Все многообразие вариантов возможных архитектур хранилищ данных основывается на двух основных технологиях (табл. 1): многомерного представления данных конечному пользователю (Relational OLAP, ROLAP) и многомерного представления данных в памяти ЭВМ (Multidimensional OLAP, OLAP). Данные технологии базируются на реляционной и многомерной модели данных соответственно. Проведя сравнительный анализ указанных подходов к организации хранилищ данных и по критерию превосходства выбирается подходящее для построения АС информационного анализа инвестиционных ситуаций.
Для сравнения выбраны: информационная система на основе локальной (нефрагментированной) нормализованной базы данных; хранилище данных на основе реляционной базы данных (ROLAP-технология) и хранилище данных на основе многомерной базы данных (OLAP-технология).
Обобщенная экспертная оценка упорядоченных по важности составляющих вектора показателей качества аналитических информационных систем по 5-балльной шкале приведена в табл. 2.
По критерию превосходства качества базовой информационной структуры автоматизированной системы информационного анализа следует выбрать хранилище данных, основанное на реляционной модели данных (ROLAP-технология).
Дальнейшее повышения качества информационной структуры аналитической информационной системы, ориентированной на задачи информационного анализа, может быть достигнуто различными способами.
Основные технологии архитектур хранилищ данных
Реляционная модель Relational OLAP Многомерная модель Multidimensional OLAP
Основные понятия Атрибут — характеристика информационного объекта; домен — множество значений, которые может принимать атрибут; кортеж — совокупность атрибутов, принадлежащих одному объекту; отношение — плоская таблица, представляющая собой подмножество декартова произведения доменов атрибутов; первичный ключ — атрибут или набор атрибутов, идентифицирующий кортеж; транзакции — неделимый набор операций, переводящий базу данных из одного целостного состояния в другое. Измерение (Dimension), совокупность Измерений образует гипер-кубическую структуру, в которой при фиксации n-2 | neN значений Измерений выделяется срез (Slice). При фиксации всех значений Измерений выделяется ячейка (Cell), в которой может содержаться несколько значений показателей (Measure).
Достоин- ства - автоматическое поддержание целостности данных при модификации содержимого базы данных; - каждый атрибут объекта хранится в единственном экземпляре для обеспечения целостности данных и минимизации информационной базы; - для устранения возможных аномалий, возникающих при добавлении, удалении и модификации записей в исходной таблице введен процесс нормализации, подразумевающий декомпозицию исходной таблицы по соответствующим правилам - высокое быстродействие; - меньший объем по сравнению с реляционными БД вследствие сокращения количества служебных элементов; - эффективность хранения разреженных данных; - адаптацию к задачам многомерного анализа; - удобство хранения агрегированных данных
Недос- татки Атомарность атрибутов объекта, каждое свойство объекта не может быть развернуто в процессе обработки, что препятствует эффективной реализации приложений. - замкнутость относительно внешних источников и аналогичных продуктов других производителей; - невозможность модификации Измерений и, как следствие, значительными временными затратами при обновлении данных; - ограничение на тип хранимых данных — только числовые значения; - относительно небольшим объемом хранимых данных — до 10.. .25 Гбайт по оценке, приведенной в [4]
Экспертная оценка значений векторного показателя качества аналитических информационных систем
Характеристика РБД ЯОЬЛР ОЬЛР
Быстродействие в задачах аналитической обработки — + ++
Поддержка больших массивов данных - ++ -
Универсальность + + -
Удобство управления ++ + ++
Открытость ++ + -
Требуемый объем внешней памяти + - ++
Возможность модификации структуры ++ + -
Защита данных от несанкционированного доступа ++ ++ -
Наиболее распространенным способом повышения производительности аналитической информационной системы вне зависимости от применяемой модели данных является денормализация отношений базы данных.
Данный способ обеспечивает очень высокую производительность, поэтому применяется в хранилищах данных, несмотря на недостатки, наиболее значимыми из которых являются:
- возрастание сложности управления хранилищем данных и расширение функций администратора данных в организации информационной системы;
- значительное возрастание объема данных.
Изложенные причины позволяют говорить о моральном устаревании принципа минимизации информационной базы и замене его принципом оптимизации информационной базы к задачам, решаемым аналитическими информационными системами.
Другим распространенным способом повышения производительности хранилищ данных независимо от используемой модели данных является так называемое предварительное агрегирование данных. Суть данного способа заключается в предварительном вычислении данных по измерениям, например: за неделю, месяц, квартал, год по странам, регионам и т. д. (целесообразность агрегирования данных в иерархических структурах управления показана, например, в [2]).
Существуют два серьезных ограничения данного способа. Во-первых, количество агрегатов (предвычисленных данных) N определяется количеством возможных сочетаний агрегируемых элементов:
^ЫЬ+1’ (1)
где k — число измерений, по которым проводится агрегация.
Близкий к экспоненциальному рост числа агрегатов (рис. 4) получил название «взрыва данных».
Во-вторых, виды агрегатов ограничены возможностями языка манипулирования данными. Тем не менее, агрегирование данных по некоторому интервалу времени может быть полезным при статистической обработке.
к
6 104 4-104 2-104
2 4 6 8
Рис. 4. Иллюстрация явления «взрыва данных»
На основе проведенных исследований был сделан вывод, что наиболее приемлемой с точки зрения реализации аналитических функций при анализе инвестиционной ситуации является информационная структура, построенная по ROLAP-технологии, с одноуровневой агрегацией по суткам и горизонтальной фрагментацией данных по типам объектов. Состав аналитических метаданных уточняется в зависимости от направленности решаемых задач.
Формирование технической структуры автоматизированной системы информационного анализа, в общем случае, проводится исходя из критерия ее пригодности для решения задач заданной предметной области при условии соответствия некоторому априорному набору условий и ограничений, в данном случае, для решения задач информационного анализа.
На основе всего выше сказанного можно привести вариант архитектуры автоматизированной системы информационного анализа, отвечающий критерию пригодности для аналитической обработки.
Основой информационной структуры служит хранилище данных, организованное по ROLAP-тexнoлoгии и оптимизированное для обработки фактографических данных в форме временных рядов наблюдений.
Для реализации функций аналитической обработки в состав операционной структуры необходимо включение следующих элементов:
1) средств защиты данных, обеспечивающих изоляцию автоматизированной системы информационного анализа относительно среды;
2) информационного фильтра, предназначенного для отбора сведений, релевантных решаемым задачам;
3) средств очистки, согласования и распределения данных;
4) системы управления базами данных реализующих методы обработки информации и обеспечивающих визуализацию данных;
5) системы управления базами данных — основного элемента операционной структуры, включающей:
- процессор данных, реализующий операции ввода/вывода данных и управления буферами оперативной и вторичной памяти;
- интерпретатор (компилятор) языка манипулирования данными. В настоящее время стандартом де-факто является SQL (Structured Query Language);
- ROLAP-сервер — приложение, обеспечивающее согласование данных детального и агрегированного слоя.
Техническая структура организована по модели сервера баз данных. Ограничением, обусловленным значительным потоком входной информации, является необходимость высокоскоростных каналов, соединяющих системы функционального уровня: поиска, подготовки и хранения данных.
Элементом организационной структуры является группа администратора данных, обеспечивающая целостность и согласованность массивов данных.
Введение многомерной базы данных и средств управления, строго говоря, относится к достаточным условиям. Ее применение целесообразно
при Т,года < То, где Ткорр — временные затраты на обновление данных в многомерных баз данных.
Следует отметить, что предлагаемая архитектура является базовой и может быть модифицирована в соответствии с уточненными требованиям пользователей и выделенными финансовыми средствами.
БИБЛИОГРАФИЧЕСКИЙ СПИСОК
1. Бирюков А. Системы принятия решений и хранилища данных // Системы управления базами данных. — 1997. — № 4. — С. 37-41.
2. Бушуев С.Н., Осадчий A.C., Фролов В.М. Теоретические основы создания информационно-технических систем. — СПб.: ВАС, 1998. — 404 с.
3. Красилов А. За горизонтом экспертных систем // Открытые системы. — 1996. — № 6. — С. 65-69.
4. Современные хранилища данных на платформе Platinum Technology // Системы управления базами данных. — 1998. — № 1-2. — С. 76-82.
5. Bernson A. Data Warehousing: Architecture and Technology. — Los Angeles: McGraw-Hill Co, 1997. — 512 p.
6. DePompa B. Основные тенденции развития информационных хранилищ // PCWEEK/RE. — 1996. — № 16. — С. 28-29.
7. Edelstein H. Интеллектуальные средства анализа, интерпретации и представления данных в информационных хранилищах // Computer Week.
— 1996. — № 16. — C. 32-33.
8. Inmon W.H. What is Data Warehouse? // Data Warehouse Issues. Butler Group Co., UK, 1993. — 156 p.