Научная статья на тему 'Интеллектуальный анализ данных как современный инструмент поддержки управленческих решений'

Интеллектуальный анализ данных как современный инструмент поддержки управленческих решений Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
187
25
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ / ИНФОРМАЦИЯ / ПОИСК ЗНАНИЙ / БАЗЫ ДАННЫХ / ПРИКЛАДНАЯ СТАТИСТИКА / МАШИННОЕ ОБУЧЕНИЕ / ЭВРИСТИЧЕСКИЕ МЕТОДЫ / НЕЙРОННЫЕ СЕТИ / ДЕРЕВЬЯ РЕШЕНИЙ / КЛАССИФИКАЦИЯ / КЛАСТЕРИЗАЦИЯ / РЕГРЕССИЯ / УРОЖАЙНОСТЬ / АГРОХИМИЧЕСКОЕ ОБСЛЕДОВАНИЕ / INTELLECTUAL ANALYSIS OF THE DATA / DATA MINING / INFORMATION / KNOWLEDGE DISCOVERY / DATABASES / APPLIED STATISTICS / MACHINE LEARNING / HEURISTICS METHODS / NEURAL NETWORKS / DECISION TREES / CLASSIFICATION / CLUSTERING / REGRESSION / PRODUCTIVITY / AGROCHEMICAL INSPECTION

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Орешков В. И.

Рассматриваются проблемы поиска знаний в больших массивах информации, которые могут быть использованы в процессе принятия управленческих решений, формулируются решаемые при этом задачи. Проводится краткий сравнительный анализ современных направлений такого поиска: прикладной статистики, экспертных систем и интеллектуального анализа данных (ИАД), определяются их преимущества и недостатки. Обосновывается перспективность использования систем ИАД для поддержки принятия решений лицами, интегрированными в бизнес-процессы, в частности в АПК. Дается краткий обзор рынка аналитических систем, приводится пример моделирования урожайности в аналитической платформе Deductor.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

INTELLECTUAL DATA ANALYSES AS A MODERN MEANS OF MANAGEMENT SOLUTIONS SUPPORT

Problems of search of knowledge in the big databases which can be used in the course of acceptance of administrative decisions are considered, problems solved thus are formulated. The short comparative analysis of modern directions of such search is carried out: the applied statistics, expert systems and the intellectual analysis of the data (IAD), their advantages and lacks are defined. Perspectivity of use of systems IAD for support of decision-making by the persons integrated into business processes, in particular in agrarian and industrial complex is proved. The short review of the market of analytical systems is given, the example of modelling of productivity in analytical platform Deductor is resulted.

Текст научной работы на тему «Интеллектуальный анализ данных как современный инструмент поддержки управленческих решений»

го устойчивого роста.

Систему государственного регулирования и поддержки следует выстраивать по целевым программам с тем, чтобы учитывать региональные особенности, стимулировать приоритетные направления развития производства, формировать новые организационно-правовые формы хозяйствования, исключать непроизводственные затраты. Поддержка - это и защита интересов сельскохозяйственных товаропроизводителей,причем используемая не только как тактический прием, но и как стратегический ресурс, позволяющий решать приоритетные, перспективные задачи развития отрасли сельского хозяйства, включая и устранение безработицы на селе, повышение уровня оплаты труда, создание новых рабочих мест, развитие социальной и инженерной инфраструктуры.

Кроме финансовой помощи следует оказывать сельхозпроизводителям информационную, правовую, инновационную, маркетинговую и иные виды поддержки.

Библиографический список

1. Корнеев А.Ф. Планирование государственной поддержки сельхозтоваропроизводителей/

А.Ф. Корнеев, А.А. Капитонов // Экономика, труд и управление в сельском хозяйстве. - 2011. - №3 (8). - С.10-15.

2. Фролова О.А. Экономическая эффективность государственной финансовой поддержки сельскохозяйственных организаций / О.А. Фролова // Экономика сельскохозяйственных и перерабатывающих предприятий. - 2011. - №9. - С. 52-55

УДК 330.43

В.И. Орешков, соискатель, Рязанский ГАТУ

ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ КАК СОВРЕМЕННЫЙ ИНСТРУМЕНТ ПОДДЕРЖКИ УПРАВЛЕНЧЕСКИХ РЕШЕНИЙ

Введение

На большинстве предприятий ведется сбор данных, отражающих различные аспекты их деятельности. Современные компьютерные системы не ограничивают своих владельцев в стремлении накопить как можно больше информации. Одна её часть может лежать мертвым грузом, другая - использоваться для формирования отчетности, которая помогает лицам, принимающим решение и специалистам, непосредственно занимающимся организацией и поддержкой бизнес-процессов, разобраться в том, что происходит на предприятии, как будет развиваться ситуация и что нужно делать. Иными словами, важнейшей составляющей использования накопленной информации является поддержка принятия решений.

В конце 80-х годов XX века в бизнес-сообществе сформировалось понимание, что данные не должны лежать «мертвым» грузом, а их необходимо использовать для получения «ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности» [1]. Совершенствование процесса управления предприятием на основе инновационных информационных технологий стало важнейшей составляющей в достижении конкурентных

преимуществ. Особенно актуально это для отраслей, традиционно характеризующихся высокими затратами и рисками. Именно такой отраслью является российский АПК. Неблагоприятный климат, протяженные коммуникации, недостаточно развитая инфраструктура, высокие цены на топливо и энергию, конкуренция с зарубежными сельхозпроизводителями - все это делает российское сельское хозяйство весьма проблемной областью бизнеса. В этих условиях повышение эффективности управления за счет новых знаний, получаемых с использованием современных информационных технологий, оказывается особенно актуальным [2].

Основные направления использования данных для поддержки принятия решений

Можно выделить три основных направления развития технологии использования данных в процессе поддержки управленческих решений - прикладная статистика, экспертные системы и интеллектуальный анализ данных (ИАД). Кратко рассмотрим преимущества и недостатки каждого направления с точки зрения их использования на предприятиях АПК.

1. Прикладная статистика [4] имеет хорошо разработанную теорию и обладает широким разнообразием методов и алгоритмов анализа дан-

© Орешков В. И., 2011

ных. На рынке представлено большое количество программных продуктов - статистические пакеты Statistica, SPSS, PASW, Minitab, STADIA, Statgraphics и т.д. С другой стороны, статистические методы весьма сложны и требуют математического образования, имеют низкую интерпретируемость результатов, плохо отражают причинно-следственные связи. Поэтому результаты анализа приходится пропускать через «фильтр здравого смысла». Кроме этого, статистические пакеты в основном ориентированы на работу с относительно небольшими, локальными массивами данных и не имеют развитых средств их консолидации и интегрирования [2].

2. Экспертные системы (системы, основанные на знаниях [5]) используют формализованные знания экспертов, помещенные в базу знаний, откуда они извлекаются с помощью средств логического вывода. Преимуществом таких систем является диалог на естественном языке, имитация рассуждений человека, реализуемая с помощью интеллектуального интерфейса, обеспечение высокого уровня понимания как поставленной задачи, так и результатов. Недостатками являются высокая трудоемкость разработки, узкоспециальная

направленность, необходимость привлечения экспертов и инженеров по знаниям, слабые возможности по актуализации. Но главным является тот факт, что пользователь фактически работает не с данными, а с мнением экспертов, принимавших участие в формировании базы знаний.

3. Интеллектуальный анализ данных (Data Mining - DM). Сравнительно новое направление, возникшее на стыке теории БД, искусственного интеллекта, машинного обучения (МО) и прикладной статистики. Сам термин data mining дословно означает «раскопка данных», «разработка данных» и впервые был введен в обиход В.Г Пятецким-Шапиро [1]. В основе технологии DM лежит использование математических моделей, решающих основные задачи анализа данных - классификацию, численное предсказание,кластеризацию, ассоциацию, прогнозирование. Математический аппарат DM включает как статистические методы (регрессию, корреляционный анализ, метод главных компонент, байесовскую классификацию [2]), так и самообучающиеся алгоритмы (нейронные сети, деревья решений, карты Кохонена, ассоциативные правила, последовательные шаблоны и др. [2]). Именно методы, основанные на МО, считаются «ядром» ИАД, поскольку позволяют в автоматическом режиме, практически без вмешательства пользователя, извлекать нетривиальные (т.е. те, которые нельзя определить визуально или рассчитать) зависимости в данных. Благодаря этому, задача аналитика фактически сводится к интерпретации результатов и выработке рекомендаций по принятию управленческих решений. Важнейшим преимуществом DM является то, что аналитик работает непосредственно с данными, сам

ставит цели и задачи аналитической обработки, выбирает алгоритмы и методы анализа.

Для комплексного решения задач DM в последнее десятилетие получил развитие специальный класс программного обеспечения - аналитические платформы (АП). В их разработке «отметились» практически все крупнейшие игроки на рынке информационных технологий (Microsoft, IBM, Oracle, SAS Institute, Silicon Graphics, StatSoft) и множество менее известных (Angross Software, Neuro Solution) [3]. Много свободных продуктов разрабатывается крупными университетами (Weka, RapidMiner, Orange). Ведущими отечественными разработками являются PolyAnalyst (Megaputer) и Deductor (ООО Аналитические технологии).

Основные задачи Data Mining

Поиск глубинных знаний в больших массивах данных - многоэтапный и трудоемкий процесс. Данные могут располагаться в источниках самых разнообразных типов и форматов, что делает их извлечение, интегрирование и консолидацию для дальнейшего анализа едва ли не проблематичнее, чем собственно аналитическая обработка. Кроме этого, данные обычно являются «сырыми» - содержат нарушения структуры, пропуски, дубликаты, противоречия, аномальные и фиктивные значения, наконец, просто ошибки и погрешности различной природы и происхождения. Очевидно, что без предварительной обработки с целью исключения перечисленных факторов корректный анализ данных невозможен, поскольку они не только искажают реальную картину исследуемых процессов и явлений, но и блокируют работу аналитических алгоритмов. Еще одной проблемой является соответствие представления данных используемым методам и алгоритмам анализа, которые могут потребовать данные только числового или только строкового типа, выполнить их квантование и нормировку, агрегирование и изменение масштаба. И, наконец, поскольку данные, описывающие реальные процессы и явления, обычно являются многомерными, требуются развитые средства их многомерной визуализации. Таким образом, АП должны комплексно решать следующие задачи:

- осуществлять извлечение данных из различных источников;

- выполнять их очистку от пропусков, дубликатов, противоречий и других факторов, мешающих их корректной обработке;

- производить предобработку данных с целью преобразования к виду, соответствующему используемым аналитическим алгоритмам;

- содержать широкий набор алгоритмов анализа и построения моделей исследуемых процессов и явлений;

- предоставлять пользователю разнообразные методы визуализации исходных данных и результатов анализа, в том числе многомерные.

Кроме этого, важнейшим требованием к систе-

ме поиска знаний является высокая степень автоматизации и интуитивно понятный, дружественный интерфейс пользователя, что позволило бы использовать их даже специалистам, не имеющим высокого уровня знаний в области математической статистики, баз данных и машинного обучения, но непосредственно интегрированных в бизнес-процессы. Особенно актуально это для сферы АПК, поскольку большинство предприятий территориально расположены в сельской местности и их специалисты не имеют оперативного доступа к научным центрам.

Таким образом, наиболее перспективным направлением создания систем поддержки принятия решений в АПК на основе данных, описывающих те или иные объекты или процессы в экономической и бизнес среде, является использование АП, комплексно реализующих все основные этапы аналитических проектов на основе ДМ.

Разработка аналитических решений на основе технологии DM в АПК представляет не только практический, но и научный интерес, поскольку объем исследований в данной области во всем мире сравнительно невелик. Если по таким направлениям, как финансы и кредит, медицина, торговля, маркетинг, социальная сфера и государственное управление в последнее десятилетие опубликованы сотни работ, связанных с применением ИАД в этих областях, то сельское хозяйство, стратегическая отрасль любой страны, оказалось незаслуженно забыто. В частности, из значительных изданий можно выделить только [6].

Data Mining как симбиоз статистики и машинного обучения

Аналитический аппарат DM сформировался на основе прикладной статистики и МО. Чтобы эффективно применять методы DM и правильно интерпретировать их результаты, аналитик должен представлять ограничения и особенности тех или иных алгоритмов. Статистические методы являются корректными математически (для них сформулированы критерии точности и оптимальности, доказаны соответствующие теоремы), но не всегда корректно отражают закономерности в реальных данных, сложны для понимания и интерпретации, плохо приспособлены для работы с категориальными показателями, требуют значительной априорной информации об исследуемых процессах и явлениях [7,8]. Методы МО, напротив, позволяют строить модели с минимальным вмешательством пользователя, их результаты наглядны и хорошо интерпретируемы, но большинство из них являются эвристическими. Эвристическим называется алгоритм, корректность которого для всех возможных случаев не доказана, но известно, что он даёт достаточно хорошее решение в большинстве практически значимых случаев. Иными словами, это не полностью математически обоснованный, но практически полезный алгоритм.

Важно понимать, что эвристический алгоритм,

в отличие от математически корректного, не гарантирует нахождение лучшего решения; не гарантирует нахождение решения, даже если оно заведомо существует; может дать неверное решение в некоторых случаях. Эвристические алгоритмы широко применяются в задачах, для которых отсутствует общее решение; это делает их незаменимыми при работе с большими массивами динамично изменяющихся данных, содержащих скрытые зависимости и структуры.

Возможность использования эвристических подходов для решения конкретной задачи определяется соотношением затрат на решение точным и эвристическим методом, а также ценой ошибки. Использование статистических методов совместно с эвристическими алгоритмами МО позволяет перейти от простого визуального анализа графиков и таблиц к формированию и восприятию сложных образов, описывающих особенности исследуемых данных, которые могут включать в себя сложные многомерные диаграммы и графы, карты, правила различных типов, формируемые на естественном языке, иерархические древовидные структуры и т.д. Таким образом, ИАД позволяет перейти на когнитивный уровень восприятия, когда пользователь работает не с отдельными показателями, графиками или правилами, а распознает ситуацию в целом.

Моделирование урожайности в аналитической платформе Deductor

Рассмотрим пример реализации аналитического проекта по моделированию урожайности зерновых на базе АП Deductor, как наиболее доступной на российском рынке и, вместе с тем, реализующей все необходимые задачи ИАД.

Растениеводство является основным направлением деятельности АПК. Вырастить хороший урожай с минимальными издержками и потерями в условиях России - задача непростая: техника, топливо, удобрения, дороги, короткий сельскохозяйственный год и непредсказуемые погодные условия делают этот бизнес весьма рискованным. Поэтому повышение урожайности и снижение затрат - приоритетная задача сельхозпредприятий.

Важнейшим фактором повышения урожайности является улучшение питания сельскохозяйственных культур, в том числе за счет применения удобрений, для правильного применения которых необходимо учитывать потребности растений в элементах питания, знать химический состав и физико-химические свойства почвы, которые определяют уровень ее плодородия, условия питания растений. Следует учитывать, что удобрения весьма дороги и рациональное их использование позволяет не только увеличивать выход продукции растениеводства, но и снижать затраты, повышая конкурентные преимущества сельхозпроизводителя.

Одним из направлений повышения эффективности использования удобрений и выработки ре-

комендаций по их рациональному использованию является моделирование урожайности по данным агрохимического обследования почв. В основе такого моделирования лежит восстановление эмпирических зависимостей урожайности от агрохимических параметров: кислотности почв, среднего содержания азота, калия и фосфора (мг/100 г.). Для построения модели урожайности ячменя использовались данные агрохимического обследования 56 земельных участков [10, c.110] в хозяйстве, расположенном в Тульской области. Моделирование проводилось в АП Deductor Academic с помощью нескольких типов моделей: линейной регрессии, нейронных сетей, деревьев решений и карт Кохонена. При этом решались задачи численного предсказания на основе линейной (регрессия) и нелинейной (нейронная сеть) моделей. В работе была произведена содержательная интерпретация результатов моделирования, сравнительная оценка точности построенных моделей и выработаны рекомендации по их практическому применению. Результатом работы является сценарий анализа данных в АП Deductor, который может быть внедрен в практике растениеводства.

В процессе исследования выявлены следующие практически значимые результаты:

1. линейная регрессионная модель [1] на реальных данных показала отрицательную зависимость между кислотностью почв и урожайностью, что противоречит теории и практике растениеводства (повышенная кислотность негативно сказывается на росте большинства зерновых культур [5]).

Урожайность = 0,36 — 0,$9(Кислотность)+ 1Л \(Азот)+ §\1 (Калии) + 0.08 (Фософр)

Данная ситуация отражает тот факт, что высокая кислотность не только непосредственно влияет на урожайность, но и ухудшает усвояемость растениями других макроэлементов - азота, калия и фосфора. Поэтому искомая зависимость оказывается слишком сложной для отражения с помощью линейной модели, что выразилось и в

достаточно высокой среднеквадратической ошибке предсказания урожайности. В то же время, нейронная сеть показала более высокую точность и адекватность и практически вчетверо меньшую ошибку предсказания урожайности.

2. Моделирование с помощью дерева решений [1] показало (с высокой поддержкой и достоверностью полученных правил), что все поля, для которых наблюдалась низкая урожайность, имеют высокую кислотность почв (рН<5,35) независимо от содержания остальных элементов. Для полей, средняя кислотность почв которых лежала в диапазоне 5,35<рН<5,7 наблюдалась средняя урожайность, за исключением случаев, когда одновременно имело место высокое (более 18,4 мг/100 г.) содержание калия (при этом наблюдалась высокая урожайность). И, наконец, все поля, на которых наблюдалась высокая урожайность, имели низкую (рН>5,7) кислотность и высокое содержание калия в почве. Правила, сгенерированные с помощью дерева решений, представлены на рис. 1.

3. Кластеризация на основе карт Кохонена [1] производилась с построением 3-х кластеров, ассоциированных с тремя уровнями урожайности -высоким, средним и низким. Содержательная интерпретация кластеров показала, что все поля, попавшие в кластер, ассоциированный с низкой урожайностью, имеют высокую кислотность почв. Поля, попавшие в кластер, ассоциированный со средней урожайностью, также имеют высокую кислотность, но при этом - высокое содержание калия в почве. И, наконец, для полей, попавших в кластер, ассоциированный с высокой урожайностью, характерна низкая кислотность, либо средняя кислотность с высоким содержанием калия.

Проведенные исследования позволили сделать следующие выводы, которые легли в основу соответствующих управленческих решений, направленных на повышение урожайности и снижение издержек:

- основными агрохимическими показателями,

7 [ерево решений (Целевой столбец: Урожайность (класс)) І

№ 1 — Ноиер правила Цй Успеем* ^Следствие tt Поддержка А Достоверность

Гкждзлтепь Зпачете уровяйиость (класс) Ко 11 % КОЛ-АО %

Ї І 10 Кислотность, pH < S.K 26 52,00 26 100,00

9Л Кислотность, pH >- S.SS

г г Kar**i, иг/ЮОг < 18,Н ■Средмм 12 12 100,00

9-* К ДАМ, ИГ/100Г < 11,575

3 3 М Кислотность, pH >■ 5.35 S 10,00 5 ! 00,00

шзетгася■ 1 - 18Д4

9Л к.дпмй, иг/JOOr >- 11,575 Средмвя

*-• Кислотность, рн < 5*7

*-• Кислотность, pH 5,35

* 9Л к «гм*, мг/100г < 18,14 Swc»:*fl #,00 100,00

J.I Катй, мг/100г »- li,5TS

9Л Кислотность, pH 5,7

5 5 *-• Кислотность, pH >- 5,35 3 6,00 3 100,00

9-i KaihS, мг/lOOr 18Д4

Рисунок 1 - Правила, сгенерированные деревом решений

влияющими на урожайность обследованных полей, являются кислотность почв и содержание в них калия. Поскольку большинство исследованных полей имеет высокую и среднюю кислотность почв, наиболее перспективным мероприятием для повышения урожайности является известкование [5];

- для полей с высоким содержанием калия, где даже при средней кислотности имеет место высокая урожайность, количество вносимых удобрений может быть снижено;

- результаты кластеризации, нанесенные на картографическую основу (рис. 2), обеспечили более наглядное представление расположения полей, нуждающихся в известковании почв, что позволило оптимизировать процесс доставки и внесения удобрений за счет сокращения маршрутов транспорта.

По предварительным расчетам, в результате мероприятий, проведенных с учетом сделанных выводов, экономия удобрений составляет 12-15%, а затраты на доставку и внесение удобрений - 3032%.

Заключение

Таким образом, применение ИАД для повышения эффективности управления предприятием является перспективным направлением современных информационных технологий, поскольку позволяет оперативно и комплексно решать задачи поиска полезных знаний из данных, описывающих экономические и бизнес процессы. Интеллектуальная составляющая ИАД, основанная на использовании самообучающихся моделей, позволяет решать сложные задачи анализа специалистам, непосредственно интегрированным в бизнес-процессы, что повышает оперативность и значимость полученных решений.

Библиографический список

1. Advances in Knowledge Discovery and Data Mining. Edited by Usama M. Fayyad, Gregory Piatetsky-Shapiro. MIT Press, 1996.

2. Паклин Н.Б., Орешков В.И. Бизнес-аналитика: от данных к знаниям (+CD). Изд. 2-е, переработанное и дополненное. - СПб.: Питер, 2010.- 700 с.

3.Васильев, Е.П. Современные аналитические платформы для задач АПК / Е.П. Васильев, В.И. Орешков - Вестник Рязанского гос. агротехнологи-ческого университета имени П.А. Костычева. Рязань: РГАТУ 2011 г. Вып. 1.

4. Орлов А. И. Прикладная статистика. Учебник для вузов. — М.: Экзамен, 2006. — 672 с.

5. Джозеф Джарратано, Гари Райли «Экспертные системы: принципы разработки и программирование»: Пер. с англ. — М.: Издательский дом «Вильямс», 2006. — 1152 стр. с ил.

6. Mucherino A., Papajorgji P. M., Pardalos P. M. Data Mining in Agriculture. - Springer Science+Business Media, LLC 2009. -271 p.

7. Чураков Е.П. Математические методы обработки экспериментальных данных в экономике. -М.: Финансы и статистика, 2004. - 240 с.

8. В.Н. Вапник. Восстановление зависимостей по эмпирическим данным. - М.: Наука, 1979. - 448 с.

9. Смирнов П. М., Муравин Э. А. Агрохимия. -3-е изд., перераб. и доп. -М.: Агропромиздат, 1991.-288 с.

10. Евстропов, А.С. Системы управления и производством сельскохозяйственной продукции на основе информационно-иновационных технологий (монография) / А.С. Евстропов, В.А. Артамонов. - Рязань: ГНУ ВНИМС, 2009. - 196 с.

i Надоели баннеры? Вы всегда можете отключить рекламу.