Комплексное применение технологий OLAP и Data Mining для поддержки принятия стратегических решений на мезоуровне экономики Complex application of OLAP and Data Mining technologies for strategic decisions’ support at the mesoeconomic level
Плетняков Вадим Александрович
аспирант
кафедра прикладной информатики в экономике Южный федеральный университет v.a.pletnyakov@gmail.com
Аннотация: В работе представлена методика анализа данных,
основанная на комплексном применении технологий оперативной аналитической добычи знаний и методов интеллектуального анализа данных, позволяющая расширить аналитический потенциал систем поддержки принятия решений, используемых для поддержки стратегических решений, принимаемых при управлении мезоэкономическими системами.
Abstract: The methodology, based on the integrated application of On-Line Analysis Mining and Data Mining methods, is presented in the paper. It allows greater analytical potential of decision support systems, used for strategic decisions’ support in management of mesoeconomic systems.
Ключевые слова: системы поддержки принятия решений,
интеллектуальный анализ данных, оперативная аналитическая добыча знаний, коллекции отчетов, объективные модели.
Keywords: decision support systems, Data Mining, On-Line Analysis Mining, collections of reports, objective models.
Успешное решение приоритетных задач экономического развитии России в значительной степени определяется эффективностью разработки и реализации стратегических планов, охватывающих разные уровни экономики и сферы экономической деятельности. В силу специфики современного этапа развития отечественной экономики и особенностей экономических систем различного уровня иерархии в настоящее время особую роль играет качество стратегического управления на мезоуровне (уровень отдельных отраслей, регионов, кластеров, крупных корпораций). Это определяется тем, что институциональные и стратегические ориентиры развития на макроуровне в значительной степени уже сформированы, но успешность реализации соответствующих стратегий во многом определяется качеством их трансляции на мезоуровень и эффективностью практической реализации мезоэкономических проекций стратегических документов.
Сложность управления реализацией мезоэкономических стратегий обусловливает целесообразность использования соответствующих систем, методов, инструментов и технологий принятия управленческих решений. Одним из основных элементов в данном контексте являются системы поддержки принятия решений (СППР), реализующие методы интеллектуального анализа данных (ИАД, «добыча знаний», англ. - Data Mining). ИАД - комплекс методов для обнаружения в данных ранее неизвестных, нетривиальных, практически полезных и доступных для интерпретации знаний, способствующих принятию лучших решений. Особое внимание для решения задачи повышения эффективности реализации мезоэкономических стратегий через повышение качества поддержки принятия соответствующих управленческих решений целесообразно уделить приложениям класса оперативной аналитической обработки данных (англ. OLAP, On-Line Analytical Processing), использующие среди прочего и методы ИАД.
Работа с OLAP-приложением заключается в построении отчетов, являющихся подмножеством многомерного куба, в свою очередь содержащего часть информации из хранилища данных (ХД), и использовании применительно к ним как OLAP-операций 1 , так и специфических методов, например, интеллектуального анализа данных. Аналитическое исследование проблемной ситуации с применением Data Mining представляет собой специфический процесс получения нового знания, построенный на использовании множества методов, в перечень которых входят деревья решений, искусственные нейронные сети, генетические алгоритмы, эволюционное программирование, методы нечёткой логики и др.
Схематично процесс поддержки принятия решений при помощи Data Mining можно представить как процесс трансформации данных (Рис. 1.)
Хранилище
данных
Data Mining-приложение
Знания,
полученные
DM-процессом
Принятие
решений
Рисунок 1. Процесс принятия решений, поддерживаемый Data Mining-
приложением
Таким образом, технологии Data Mining не формализуют предпочтения лица, принимающего решения (ЛПР), и не способствует совершению акта выбора, но помогают построить модель проблемной ситуации. Развитие соответствующих методов идет по нескольким направлениям, в числе которых: совершенствование существующих отдельных методов; совместное использование методов ИАД; а также применение методов ИАД в рамках различных концепций анализа данных, например - OLAP.
Проанализировав особенности и преимущества концепции ИАД, Хан
1 Срезы, вращение, агрегирование, углубление. Подробнее об OLAP-концепции см., например: Pendse, Nigel (2005), "What is OLAP?", in The BI Verdict, Business Application Research Center, 2009. Exposition of "Fast Analysis of Shared Multidimensional Information" (FASMI).
Цзявэй (Han Jiawei) в 1997 году предложил использовать концепцию On-Line Analytical Mining (OLAM, оперативная аналитическая добыча знаний), объединяющую достоинства обоих подходов - ИАД и OLAP 1 . Разработав основные алгоритмы совместного использования технологий («cubing then mining», «cubing while mining» и т.д.), а также охарактеризовав использование основных методов Data Mining применительно к OLAP-кубу, он создал новое направление исследований в области развития СППР .
Использование методов ИАД параллельно с OLAP позволяет получить некоторые новые результаты, но источник информации при этом остается прежним - хранилище данных3. В случае высокой сложности решаемых задач задача поиска каких-либо зависимостей в большом массиве данных осложняется4. Например, при выполнении стратегических планов - из-за свойственной им масштабности и многоаспектности решаемых проблем, большого количества и неоднородных объектов управления. Свойственная объектам мезоуровня экономики комплексность социальных и экономических показателей и наличие множества взаимосвязей между составными элементами таких систем актуализирует поиск более совершенных подходов к анализу в рамках процесса принятия решений.
Другим направлением развития OLAM стало применение комплекса методов не к кубу, а к множеству существующих отчетов. Одной из первых работ, посвященных использованию отчетов, стала вышедшая в 2010 году статья Кевина Чиченга Сюя и Минг-Жонга Ли5. Данная работа до сих пор остается одной из немногих, посвященных этой проблематике. В целях выделения в отдельную категорию данной технологии, отличной от сравнительно распространенного OLAM, действующего в рамках куба или отдельного отчета, обозначим ее как OLAMoR (OLAM of Reports).
1 Его исследования в этом направлении начались еще раньше: первые работы датируются 1995-м годом
2 Han. J. (1997) OLAP mining: An integration of OLAP with data mining: In Proceedings of the seventh IFIP 2.6 working conference on database semantics (pp. 1-9).
3 Хотя куб может содержать не все данные ХД и включать агрегаты, но в своей основе копирует хранилище.
4 Также существует и другие проблемы, например, нехватки данных и их низкого качества.
5 Kevin Chihcheng Hsu , Ming-Zhong Li, Techniques for finding similarity knowledge in OLAP reports // Expert Systems with Applications: An International Journal, v.38 n.4, p.3743-3756, April, 2011
Главной трудностью применения методов Data Mining непосредственно к отчетам является свойственная им гетерогенность. Отличительными особенностями отчетов является то, что они:
1) содержат агрегированные данные;
2) обладают структурой (возможно, уникальной);
3) создаются пользователями в процессе анализа.
В то же время данные в хранилище данных и, соответственно, в кубе:
1) не агрегированы;
2) набор измерений определен заранее и неизменен.
Таким образом, OLAMoR имеет свою специфику и может применяться только для сравнимых отчетов. В связи с этим целесообразно разработать методику определения сравнимых отчетов.
Отчеты создаются в соответствии с потребностями того или иного исследования и отличаются друг от друга. Более того, они создаются динамически, хотя и по определенным правилам. Данные в отчетах представляют собой те же наборы измерений и мер, что и в кубе, но сами отчеты могут значительно отличаться друг от друга.
Работу в рамках OLAMoR-методики с позиции автора можно разбить на несколько этапов:
1) Создание отчетов;
2) Определение сравнимых отчетов - коллекций;
3) Анализ данных коллекций отчетов;
4) Создание рекомендаций по использованию измерений отчетов при рассмотрении конкретной проблемной ситуации.
В рамках OLAMoR условно обозначим первым этапом процесса поддержки принятия решения создание отчетов на основе OLAP-куба.
OLAP-отчет о создается из куба K при помощи языка запросов Q, набора измерений , набора мер Мк и иерархии куба
Ну. Он состоит из трех элементов:
1. Набора мер Ма
2. Набора измерений фактов /¿4
3. Набора срезов 1%, определяемого иерархией
Тогда отчет можно представить следующим образом:
о
'о,¡о принадлежат 1к, М0
принадлежит
Так как при создании отчета любые рассчитываемые агрегаты создаются на основе данных куба, их можно не учитывать в описании.
Далее необходимо оценить сравнимость отчетов, попарно оценив их сходство. Сравнимость двух отчетов определяется сходством их структур (наборов измерений, мер и срезов).
Для того чтобы отчеты о1 и о2 можно было сравнивать, необходимо выполнение нескольких условий:
При этом ОЬАР-отчеты ог и о2 находятся в отношении полной сравнимости если:
1)
О
При этом наборы срезов из обоих отчетов -
и
¡иг =
должны удовлетворять условиям:
1-е измерение набора измерений 1к . - j-ый уровень измерения i
Ч,],к " к-ЫЙ член
11 - 11-ый срез набора срезов
Отношение полной сравнимости отчетов о1 и о2 обозначим как
°1 ^рс °2 . Если бы условие Г ^ не выполнялось, отчеты являлись бы полностью идентичными друг другу, и их сравнение не имело бы смысла. Хотя факт наличия запросов одинаковых отчетов также может служить для определенных выводов, например, о высокой важности содержащейся в отчетах информации.
Также можно выделить частично совпадающие друг с другом отчеты. Два ОЬАР-отчета о1и о2 находятся в отношении неполной сравнимости , если выполняются условия отношения полной сравнимости, за исключением 3.1. Вместо этого выполняется:
3.2) I*1 > 1д2 либо ¡о1 < ¡£2
Отношение неполной сравнимости отчетов о1 и о2 обозначим как °1 °2.
Для применения методов ИАД необходимо использовать в качестве источника данных полностью сравнимые отчеты. Для приведения отчетов, находящихся в отношении неполной сравнимости, обозначим один из отчетов первым, и примем условие, что данный отчет полностью (в максимально возможной степени) отражает потребности в информации, возникающие при решении текущей проблемной ситуации.
Во-первых, если отчеты значительно похожи друг на друга (критерий схожести может меняться в зависимости от целей исследования, иерархического уровня поддержки принятия решений и других факторов), но отчет о7 включает «лишние» измерения, то можно «обрезать» его до состояния отчета о1
Во-вторых, если отчеты в значительной степени похожи друг на друга, то мы можем сделать вывод о том, что один из них включает другой. В случае, если в ХД есть данные, на основании отчета ог может быть создан новый отчет, включающий измерения из о2. Для этого отчет 1 должен быть дополнен отсутствующими В нем измерениями ДО отчета О2 .
Также возможен некоторый компромисс, являющийся комбинацией первого и второго образа действий - приведение отчетов к некоторому
общему знаменателю. Таким образом, можно привести отчеты °1и °г в отношение и далее работать с ними соответствующим образом. Выбор конкретного способа приведения отчетов в состояние полной сравнимости определяется тем, какой из отчетов является более важным.
Набор из нескольких полностью сравнимых отчетов будем называть коллекцией отчетов Ос (далее - коллекцией Ос или просто Ос). в случае, если любые входящие в него отчеты о1г о2 Е Ос, находятся в отношении полной сравнимости Rpc. Опишем это следующим образом:
Ос = {o\olr о2 Е 0^ —o1 Rvc о2\1
Данное определение позволяет добиться выполнения следующих условий при сравнении отчетов:
1) Совпадают меры отчетов.
2) Совпадает структура отчетов (совпадают измерения фактов).
3) В отчетах одинаков набор измерений-фильтров.
Сходство структур таких отчетов делает оправданным применение к ним в совокупности методов Data Mining. Например, имеющие более ранние временные координаты данные могут служить обучающей выборкой для некоторых методов.
Одним из вариантов возможных действий с коллекцией полностью сравнимых отчетов Ос является соединение членов коллекции в один объединенный отчет - метаотчет и работа с ним.
Отношение неполной сравнимости также образует коллекцию отчетов, которую обозначим как коллекцию Огрс, которой соответствует зависимость:
^ ",:т _ '.Р с “"..гг1 ^'2г
Так как случай полной сравнимости отчетов является частным случаем неполной сравнимости, и вероятность того, что некоторые измерения в отчете, служащем отправной точкой, уникальны, достаточно высока, можно
сделать вывод о том, что коллекции типа Огрс гораздо многочисленней Ос Это делает шире возможности их использования.
Наличие (гипотеза о наличии) связей между отдельными измерениями отчета, в совокупностями отобранными с целью получения знаний для решения некоторой проблемной ситуации (ПС) позволяет говорить о существовании не только множества коллекций Опрс , но и множества
типовых проблемных ситуаций А1 . Так как многие из них имеют тенденцию повторяться, можно говорить о существовании некоторых типов ПС.
Таким образом, в случае рассмотрения в рамках процесса управления множества проблемных ситуаций (разных аспектов одной ПС или ее рассмотрения с разных точек зрения1) необходимо определить степень соответствия каждой коллекции и проблемной ситуации.
Соответственно, при наличии некоторой истории наблюдений, можно составить матрицу релевантности устойчивых коллекций отчетов и проблемных ситуаций, что уже само по себе является набором рекомендаций по рассмотрению некоторого набора измерений для решения некоторой конкретной проблемы. Для удобства обозначим её МКП .
В описанном выше простом случае анализировалось сходство отчетов, исходя из того, что измерения равноценны. Высока вероятность, что это не так. При первом приближении, можно выделить два основных подхода к оценке сходства Опрс, где главным критерием при оценке сходства является вхождение в отчеты:
1) Измерений фактов, являющихся «входами» для модели проблемной ситуации. В этом случае можно говорить о достаточно полном учете факторов, воздействующих на работу системы.
2) Измерений, характеризующих целевое состояние объекта управления. Они являются «выходами» в процессе работы управляемой системы и являются индикаторами достижения цели.
1 Целями ЛПР могут быть и увеличение поступлений в местный бюджет, и высокий уровень занятости.
2 «Матрица релевантности Коллекции отчетов - Проблемные ситуации».
При этом могут одновременно полностью управляться подсистемой управления, т.е. быть и входами. Примером являются затраты.
Множество ПС формализовать сложнее, так как они обладают множеством качественных характеристик, не описываемых в современных СППР. Эта проблема частично решается использованием методов экспертных оценок. Тем не менее, может быть проведена некоторая классификация ПС для использования в работе аналитиком, например по иерархическому уровню (например, нижний стратегический, верхний тактический, нижний тактический) или степени важности принимаемого решения.
Следующим шагом реализации OLAMoR-процесса после получения коллекции полностью сравнимых отчетов является применение методов ИАД.
Особенностью предложенной авторской методики является:
1) Возможность «слить обратно» коллекцию сравнимых отчетов в метаотчет и использовать для дальнейшей работы с ним как методы OLAP, так и OLAM.
2) Возможность использования разнообразных методов Data Mining по отношению к коллекции отчетов для нахождения схожих значений. Это позволит, например, в случае, если отчеты различаются по своим временным периодам обнаружить сходство текущей ситуации (причем, по заранее отобранным и важным для целей определенного исследования измерениям многомерного куба) с уже имевшей место ситуацией. Благодаря этому можно как получить представление о возможном дальнейшем развитии событий, так и оценить эффективность принятых в прошлом решений и возможность принятия аналогичных решений в текущий момент времени. Основными используемыми методами в данном случае являются методы Data Mining.
3) Возможность строить и верифицировать с помощью методов ИАД объективные модели проблемной ситуации, имея в качестве источника предварительно отобранные, существенные для исследования данные.
Таким образом, предложенная авторскаяя методика интеграции методов ИАД в OLAP-приложение представляет собой достаточно новый подход к оперативной аналитической добыче знаний, основанный на использовании в анализе качественно иных данных и рекомендаций и позволяющий получить ряд новых результатов. Данные из многомерных OLAP-отчетов отличаются большей содержательностью, чем необработанные данные в ХД. После объединения отчетов в коллекции СППР без участия пользователя может строить и верифицировать объективные модели проблемной ситуации по историческим данным. Также можно построить матрицу релевантности отчетов и ПС, способствующую выбору нужных измерений из множества доступных в многомерном кубе.
Это позволяет использовать для поддержки принятия решения результаты предварительно проведенного анализа для выбора данных в текущем исследовании, показать сходство состояния с другими экономическими системами и использовать успешный опыт решения аналогичных проблем в прошлом. В совокупности предложенное расширение аналитических возможностей СППР дает возможность повысить обоснованность и качество принимаемых решений при разработке и реализации мезоэкономических стратегий развития России.
Библиографический список.
1. Han. J. (1997) OLAP mining: An integration of OLAP with data mining: In Proceedings of the seventh IFIP 2.6 working conference on database semantics (pp. 1-9).
2. Kevin Chihcheng Hsu, Ming-Zhong Li, Techniques for finding similarity knowledge in OLAP reports // Expert Systems with Applications: An International Journal, v.38 n.4, p.3743-3756, April, 2011
3. Pendse, Nigel (2005), "What is OLAP?", in The BI Verdict, Business Application Research Center, 2009. Exposition of "Fast Analysis of Shared Multidimensional Information" (FASMI)