Научная статья на тему 'Программноалгоритмические средства интеллектуального анализа данных'

Программноалгоритмические средства интеллектуального анализа данных Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
614
137
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Климко Елена Генриховна

Рассматривается интеллектуальный анализ данных (ИАД), его текущее состояние, математические методы и проблемы, которые возникают при внедрении его на практике, и пути их преодоления. Дается понятие “Информационное хранилище”, краткая характеристика вопросов хранения и поиска данных в сверхбольших базах данных, а также процесса обнаружения новых знаний.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Software-algorithmic means of intellectual analysis of data

Intellectual analysis of data (IAD) is a process of analytical study of greater volume information. Result of studies is a determination of relations and regularities between of data. This information describes knowledge. Knowledge uses for new of data. In the work are considered and given features to software-algorithms means IAD and given determination of Data Warehouse.

Текст научной работы на тему «Программноалгоритмические средства интеллектуального анализа данных»

УДК 621. 37/39. 061. 2/4

ПРОГРАММНОАЛГОРИТМИЧЕСКИЕ СРЕДСТВА ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ

КЛИМКО Е.Г.

Рассматривается интеллектуальный анализ данных (ИАД), его текущее состояние, математические методы и проблемы, которые возникают при внедрении его на практике, и пути их преодоления. Дается понятие “Информационное хранилище”, краткая характеристика вопросов хранения и поиска данных в сверхбольших базах данных, а также процесса обнаружения новых знаний.

Введение

Интеллектуальный анализ данных (также называют ИАД, data mining, KDD — knowledge discovery in databases или обнаружение знаний в базах данных) — это новое направление в области информационных систем. Его целью является обнаружение скрытых закономерностей и правил в сверхбольших массивах разнородных данных и возможность их применения для решения задач поддержки принятия решений. Этот процесс состоит из трех основных этапов:

— исследование (выявление закономерностей, ранее неизвестных взаимосвязей);

— использование выявленных закономерностей для построения моделей;

— анализ исключений для обнаружения и объяснения отклонений в найденных закономерностях [ 1 ].

Полученные сведения преобразуются до информации, которая характеризуется как знание и в дальнейшем его можно применить к новым данным. Нахождение нового знания средствами ИАД —направление, которое использует методы искусственного интеллекта, математики и статистики.

Сфера применения ИАД не ограничена—она везде, где существуют какие-либо данные: в экономике, здравоохранении, страховании, торговле, в различных областях, связанных с контролем и прогнозированием состояния сложных динамических систем. Методы ИАД используются при решении таких задач, как обслуживание кредитных карточек, медицинская диагностика, анализ потребительского рынка, прогнозирование объема продаж: и управление закупками, управление ценами и производством, оценка недвижимости, прогнозирование потребления энергии, исследование факторов спроса и многих других [2].

Наряду с явным прогрессом в области интеллектуального анализа данных, при практической реализации этой технологии появились проблемы, которые связаны с особенностями реализации сложных алгоритмических комплексов. Анализ этих проблем и возможность их преодоления рассматриваются в данной статье.

1. Программно-алгоритмические средства ИАД

В ходе проведения интеллектуального анализа данных могут выполняться различные операции, которые реализуются с помощью разнообразных алгоритмов. В основе этих алгоритмов находится мощный аппарат математических, логических и статистический методов. Методы ИАД условно можно разделить на два класса:

— операции проверки гипотез;

— операции поиска зависимостей.

Недостатком первого класса является ограниченность анализа жесткими рамками заранее определенной гипотезы. Отвергаются другие возможные корреляции, если для аналитика они не очевидны. Во втором случае системы ИАД самостоятельно обрабатывают внутренние закономерности. Полученные результаты бывают неожиданными, они приводят к нетривиальным выводам [7].

Большинство фирм, которые разрабатываютпрограмм-но-алгоритмическое обеспечение, не связывают свою продукцию с деятельностью других фирм, работающих в этой же области. У каждой свой собственный интерфейс, собственная технология общения с программным продуктом. Это осложняет внедрение арсенала ИАД в практическое использование.

Рассмотрим ряд математических методов, которые применяются в системах ИАД. Подробнее с характеристикой алгоритмических средств систем подготовки принятия решений (СППР) можно ознакомиться в работах [2-7].

1.1. Статистические методы

Статистические методы обработки данных являются первым направлением развития средств ИАД. Их можно подразделить на следующие разделы:

— предварительный анализ природы статистических данных;

— выявление закономерностей и взаимосвязей;

— многомерный статистический анализ;

— динамические модели и прогноз на основе временных рядов.

В статистических методах более последовательно рассматривается значимость больших массивов данных для решения задачи обучения автоматизированных СППР. Наиболее известны следующие пакеты: SAS, STATISTICA, SPSS, SCENARIO, SYSTAT и др. [3].

1.2. Кибернетические методы

Второе крупное направление связано с кибернетическими методами оптимизации. Они основаны на идеях и принципах саморазвивающихся систем. Основные подразделы этого направления:

— анализ и прогноз на основе нейронных сетей;

—эволюционное программирование;

— генетические алгоритмы;

— метод группового учета аргументов.

Нейронные сети относят к классу нелинейных адаптивных систем, строением условно напоминающим нервную ткань из нейронов.

64

РИ, 2001, № 3

Это набор связанных друг с другом узлов, получающих входные данные, осуществляющих их обработку и вырабатывающих на выходе некоторый результат. На узлы нижнего слоя подаются значения входных параметров, на их основе производятся вычисления, необходимые для принятия решений, прогнозирования развития ситуации и т.д. Эти значения рассматривают как сигналы, которые передаются в вышележащий слой, усиливаясь или ослабляясь в зависимости от числовых значений (весов), приписываемых межнейронным связям. На выходе нейрона самого верхнего слоя вырабатывается значение, которое рассматривается как ответ, реакция всей сети на введенные начальные значения. Так как каждый элемент нейронной сети частично изолирован от своих соседей, у таких алгоритмов имеется возможность для распараллеливания вычислений.

Размер и строение сети должны соответствовать существу исследуемого явления. Построенная сеть подвергается процессу так называемого “обучения”. Нейроны сети обрабатывают входные данные, для которых известны и значения входных параметров, и правильные ответы на них. Обучение состоит в подборе весов межнейронных связей, которые обеспечивают наибольшую близость ответов сети к известным правильным ответам. После обучения на имеющихся данных сеть готова к работе и может быть использована для построения прогнозов поведения объекта в будущем, опираясь на данные его развития в прошлом, может производить анализ, выявлять отклонения и сходства. Достоверные прогнозы могут формироваться, не уточняя вид зависимостей, на основе которых он создан.

Нейронные сети используются для решения задач прогнозирования, классификации или управления.

Достоинство — сети могут аппроксимировать любую непрерывную функцию, нет необходимости заранее принимать какие-либо предположения относительно модели. Исследуемые данные могут быть неполными или зашумленными.

Недостаток — необходимость иметь большой объем обучающей выборки. Окончательное решение зависит от начальных установок сети. Данные должны быть обязательно преобразованы к числовому виду. Полученная модель не объясняет обнаруженные знания (так называемый “черный ящик”).

На основе этого метода известны следующие программные пакеты: NeuroShell, BrainMaker, 4Thought.

В основе эволюционного программирования лежит получение оптимального решения путем имитации процесса эволюции популяции. За исходное решение принимают различные случайные изменения данных. Решения нового поколения подвергаются отбору на основе принятия его допустимости. Полученное решение вновь модифицируется, образуя третье поколение, и т.д. При этом получается самоорганизующаяся оптимизационная последовательность, которая приводит к наилучшему решению. Известен программный пакет PolyAnalyst.

Генетический алгоритм напоминает эволюционное программирование. Для решения задачи, более оптимального с точки зрения некоторого критерия, все решения описываются набором чисел или величин нечисловой природы. Поиск оптимально-

РИ, 2001, № 3

го решения похож на эволюцию популяции индивидов, которые представлены их наборами хромосом. В этой эволюции действуют три механизма:

— отбор сильнейших наборов хромосом, которым соответствуют наиболее оптимальные решения;

— скрещивание — получение новых индивидов при помощи смешивания хромосомных наборов отобранных индивидов;

— мутации — случайные изменения генов у некоторых индивидов популяции.

В результате смены поколений вырабатывается такое решение поставленной задачи, которое уже нельзя дальше улучшить.

Достоинство — метод удобен для решения различ -ных задач комбинаторики и оптимизации, предпочтителен больше как инструмент научного исследования.

Недостаток — возможность эффективно сформулировать задачу, определить критерий отбора хро -мосом и сама процедура отбора являются эвристическими и под силу только специалисту. Постановка задачи в терминах не позволяет проанализировать статистическую значимость получаемого с их помощью решения.

Известен программный пакет Gene Hunter.

Алгоритмы метода группового учета атрибутов являются разновидностью эволюционного программирования. Позволяют оценивать характеристики исследуемого процесса с помощью последовательных уточнений результатов статистической подгонки наблюдений. Зависимость целевых переменных от остальных ведется в форме полиномов, которые поддаются анализу и интерпретации.

Достоинства часто порождают новые проблемы. С помощью кибернетических методов не всегда удается наглядно представить решение, что затрудняет работу экспертам.

1.3. Оптимизационные методы

К третьему крупному разделу средств ИАД относятся методы и алгоритмы решения традиционных оптимизационных задач:

— математическое программирование;

—динамическое программирование;

— методы систем массового обслуживания;

— вариационные методы и др.

Большинство из них существуют в виде программных продуктов в стандартных пакетах прикладных программ. Это: Mathcad, Matlab, Matematica. Хотя методы общеизвестны, в использовании они не просты. Для их применения необходимы высокие математические знания.

1.4. Экспертные методы

К четвертому разделу программно -алгоритмических средств ИАД относят совокупность экспертных методов:

— ассоциативные средства — метод “ближайшего соседа”;

— метод последовательного логического вывода;

— методы представления и визуализации решений;

65

— предметно-ориентированные аналитические системы.

Название этих методов условно, так как их применение связано с использованием опыта эксперта. Сюда относят алгоритмы, которые завершают процесс статистического анализа.

Метод “ближайшего соседа ”. Для оценки корректности и достоверности решения системы находят в прошлом близкие аналогичные ситуации и выбирают тот же ответ, который был правильным. Известен программный пакет Pattern Recognition Workbench.

Последовательный логический вывод — “дерево решений”— используют разбиение данных на группы на основе значений переменных. В результате получается иерархическая структура операторов “Если... То...”, которая имеет вид дерева. Для классификации объекта или ситуации, выбирая решение, проходим по правой или левой ветви дерева и приходим к ветви, которая отвечает окончательному решению.

Деревья решений предназначены для решения задач классификации и поэтому весьма ограничено применяются в области финансов и бизнеса. Их разновидностью является алгоритм деревьев классификации и регрессии.

Достоинство метода — простое и понятное представление признаков для пользователей. В качестве целевой переменной используются как измеряемые, так и неизмеряемые признаки — это расширяет область применения метода.

Недостаток—проблема значимости. Данные могут разбиваться на множество частных случаев, возникает “кустистость “ дерева, которое не может давать статистически обоснованных ответов. Полезные результаты получают только в случае независимых признаков.

Известны программные пакеты: SIRINA, C5.0, ID IS.

Методы визуализации данных и результатов их анализа. Наглядно могут отображать полученные выводы.

Предметно-ориентированные аналитические системы - основаны на фиксированных математических моделях, которые соответствуют определенной теоретической концепции. Эксперт должен выбрать наиболее подходящую систему и интерпретацию полученного алгоритма. Метод прост и доступен в применении, но уступает в достоверности и точности результата. Известны программные продукты: MetaStock, SuperCharts, Wall Street Money и др.

2. Трудности хранения и поиска данных

Традиционные базы данных, которые ориентированы на использование в корпоративных системах обработки данных, не могут быть эффективны в системах ИАД. Это связано с несогласованностью данных из разнородных источников, с задачей привязки к единой шкале измерений, с проблемой хранения очень больших объемов информации, с многомерностью структуры запросов и т.д. Для решения этих проблем необходима новая концепция хранения сверхбольших объемов данных и оперативный поиск нужной разнородной информации в собственных архивах. В качестве варианта решения предложена концепция хранилищ данных.

Информационное хранилище (хранилище данных, Data Warehouse) — оптимально организованные базы данных, которые обеспечивают наиболее быстрый и удобный доступ к информации, необходимой для принятия решений. Хранилище накапливает достоверную информацию из различных источников за большой промежуток времени, которая остается неизменной.

Данные объединены и хранятся в соответствии с теми областями, которые они описывают (предмет-ноориентированы) и удовлетворяют требованиям всего предприятия (интегрированы).

Хранилище данных гарантирует, что одинаково сформированные отчеты для различных аналитиков будут идентичны. Привязанность ко времени означает, что можно восстановить картину за любой момент времени. Неизменность данных говорит о том, что они только добавляются, а не изменяются в отличие от оперативных систем, где они сохраняются в последней версии [4].

В основе концепции хранилищ данных лежат две основные идеи:

1) сбор ранее разъединенных данных в едином хранилище, их согласованность;

2) разделение данных, используемых для операционной обработки и применяемых для решения задач анализа [8].

Для того чтобы правильно понять эту концепцию, необходимо разобраться в следующих моментах:

— концепция хранилищ данных — это концепция подготовки данных для анализа, а не сам анализ данных;

—она говорит, какие процессы должны выполняться в системе, но не где и как они происходят;

— реализует единый интегрированный источник данных, а не просто единый логический взгляд на данные.

3. Процесс нахождения нового знания

Процесс нахождения нового знания на основе данных большого хранилища состоит из ряда этапов:

— определение проблемы (постановка задачи);

— подготовка данных;

— сбор данных: их оценка, объединение и очистка, отбор, преобразование;

— построение модели: оценка и интерпретация, внешняя проверка;

— использование модели;

— наблюдение за моделью.

Рассмотрим эти этапы подробнее [4].

Определение проблемы—необходимо четко представить цели будущего анализа.

Подготовка данных—самый длительный по времени этап, может занимать от 50 до 8 5 % времени всего процесса нахождения нового знания.

Сбор данных—определяются источники получения данных.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

66

РИ, 2001, № 3

Оценка данных — в связи с объединением данных из различных источников возможен различный формат их представления, различные единицы измерения и различное кодирование.

Объединение и очистка данных—происходит построение хранилища данных, исправление всех выявленных ошибок. После проверки согласованности данных они преобразовываются и переформатируются в соответствии с результатами оценки.

Отбор данных—после формирования хранилища и определения типов моделей, которые будут строиться для решения задачи, производим отбор данных, необходимых конкретным моделям. Преобразование идет по количеству записей, количеству полей и по структуре.

Преобразование данных—добавление различных отношений на основе существующих полей, добавление интервалов и критических значений.

Построение модели — это итерационный процесс, необходимо построить несколько моделей, чтобы выбрать одну, наиболее удовлетворяющую поставленным целям. Модель может быть контролируемой (модели классификации, прогнозирования) и неконтролируемой (ассоциация, последовательность). Процесс построения контролируемой модели сводится к определению зависимостей на одной части данных (“тренировка”) и проверке их на другой части данных (“оценка точности”). Модель считается построенной, когда заканчивается цикл “тренировок” и “оценок”. После построения модель используют для предсказания значений на тестовом наборе. Определяем меру точности. После завершения можно построить модель на основе других параметров, другого алгоритма построения. Для каждой модели проводим процедуру оценки, чтобы выбрать самую лучшую. Из-за длительности процесса необходимо применять технологии параллельных вычислений.

Оценка и интерпретация — построив модель, необходимо оценить результаты и объяснить их значимость. Мера точности, которая вычисляется, применима только к тем данным, на основе которых построена модель.

Внешняя проверка — важно проверить модель в реальном мире.

Использование модели—после построения и оценки модель может использоваться различными способами. Аналитик может определить некоторое значение, некоторую запись из базы данных для проведения некоторого анализа. Основываясь на результатах такого использования модели, аналитик может рекомендовать действия, которые необходимо предпринять в данной сфере.

Наблюдение за моделью — после начала работы модели в реальном мире необходимо измерить меру точности модели на реальных данных. Периодически модель необходимо повторно тестировать, так как все системы развиваются, данные меняются, а изменение влияет на поведение людей и факторы, которые воздействуют на это изменение.

Заключение

Основой для возникновения ИАД, как самостоятельного научного и прикладного направления, служит новая концептуальная платформа, которая

позволяет по-новому взглянуть на природу имеющихся данных и получить качественно новые, на первый взгляд, неожиданные результаты. Сюда можно отнести и кибернетику, и теорию систем, и набирающую силу синергетику.

Весомым аргументом для обоснования новой области научных исследований является ее островыраженная практическая направленность. Разработка концепции ИАД еще не завершена. Практическая значимость данного направления столь велика, что его интенсивная реализация началась до того, как сформулирован его научный базис. Рабочие инструменты оказались созданными ранее, до того, как ИАД начал приобретать собственные теоретические очертания.

Средства интеллектуального анализа данных не могут работать без сопровождения специалистов, которые понимают деловую область, данные и характер используемых аналитических методов. Цель современных аналитических систем — обеспечить пользователя всей информацией, которая необходима ему для принятия решения. А конкретно, какая это информация и какое будет принято решение, зависит только от конкретного человека.

Анализ и прогнозирование являются частью современного бизнеса. На их основе можно:

— оперативно получать нужную аналитическую информацию;

— прогнозировать развитие ситуаций;

—оптимизировать существующие бизнес-процессы.

Скорость принятия решений и их точность имеют важное значение. Необходимо, чтобы информация, которая имеется в базах данных, превращалась в знания и использовалась для предсказания будущих значений и для описания текущего состояния. Результат применения методов нахождения нового знания в бизнес-приложениях может использоваться в широком диапазоне: от уменьшения количества расходов до увеличения доходов.

Литература: 1. Щавелев Л.В. Интеллектуальный анализ данных. http://www.citforum.ru/seminars/cis99/ sch_04.shtml, 2. Аналитические технологии для прогнозирования и анализа данных //Учебник, НейроПроект., 1999., http://www.neuroproiect.ru/oglav.html. 3. Киселев М., Соломатин Е. Средства добычи знаний в бизнесе и финансах // Открытые системы. 1997. №4. С. 41-44., 4. Буров К. Обнаружение знаний в хранилищах данных // Открытые системы. 1999. №5-6. http:// www.osp.ru/os/l999/05-06/14.htm. 5. Шапот М. Интеллектуальный анализ данных в системах поддержки принятия решений // Открытые системы, 1998, №1, С. 30-35. 6. Edelstein H. Интеллектуальные средства анализа и представления данных в информационных хранилищах // Computer Week — Москва. 1996. №16. С. 32-35.

7. Кречетов Н, Иванов П. Продукты для интеллектуального анализа данных // Computer Week — М. 1997, №1415, С. 32-39. 8. Сахаров А.А. Концепции построения и реализации информационных систем, ориентированных на анализ данных. // СУБД, 1996. N4. С. 55-70.

Поступила в редколлегию 19.01.2001

Рецензент: д-р техн. наук, проф. Путятин В.П.

Климко Елена Генриховна, ассистент кафедры компьютерных технологий и информационных систем Полтавского государственного технического университета им. Ю.Кондратюка. Научные интересы: аналитический анализ данных. Увлечения и хобби: чтение, вязание на спицах. Адрес: Украина, 36021, Полтава, ул. Алмазная, 1-А, кв. 34, тел. (053-22) 3-43-12.

РИ, 2001, № 3

67

i Надоели баннеры? Вы всегда можете отключить рекламу.