Научная статья на тему 'Методы добычи данных'

Методы добычи данных Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
587
179
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Методы добычи данных»

УДК 004.78:69.05

А.А. АНДРЕЕВА, Е.А. СИМСОВА

МЕТОДЫ ДОБЫЧИ ДАННЫХ

Понятие «добыча данных» определяется как процесс аналитического исследования больших массивов информации с целью выявления определенных закономерностей и систематических взаимосвязей между переменными, которые затем можно применить к новым совокупностям данных. Этот процесс включает три основных этапа: исследование, построение ее модели или структуры и ее проверку.

В идеальном случае при достаточном количестве данных можно организовать итеративную процедуру для построения устойчивой модели. В реальной жизни практически невозможно проверить экономическую модель на стадии анализа и поэтому начальные результаты имеют характер эвристик, которые можно использовать в процессе принятия решений. Эвристики - это общие рекомендации или советы, основанные на статистической очевидности или теоретических рассуждениях.

В последнее время возрос интерес к разработке новых методов анализа данных, особенно в сфере бизнеса (например, «Деревья классификации»). Но в целом системы анализа данных по-прежнему основываются на классических принципах разведочного анализа данных (РАД). Имеется, однако, важное отличие процедуры добычи данных от классического разведочного анализа данных: системы добычи данных в большей степени ориентированы на практическое приложение полученных результатов, чем на выявление природы явления. Иными словами, при добыче данных нас не очень интересует конкретный вид зависимостей между переменными задачи. Основное внимание уделяется поиску решений, на основе которых можно строить достоверные прогнозы. Таким образом, в области добычи данных принят такой подход, который характеризуется словами «черный ящик». При этом используются не только классические приемы разведочного анализа данных, но и другие методы, например, нейронные сети, которые позволяют строить достоверные прогнозы, не уточняя конкретный вид зависимостей, на которых такой прогноз основан.

Очень часто добыча данных характеризуется как «смесь статистики, искусственного интеллекта и анализа баз данных». До последнего времени данная область статистики не признавалась полноценной и находилась на «задворках». Однако благодаря практической значимости эта проблематика ныне интенсивно разрабатывается специалистами и вызывает большой интерес.

Известно, что некоторые СУБД, например, Oracle и Microsoft SQL Server, имеют небольшой инструментарий для анализа данных, но для процесса при-

нятия решений этого мало. Поэтому необходимы системы, которые позволяют подойти к решению проблемы в комплексе. Данная работа посвящена рассмотрению основных методов, применяемых для построения KDD-систем (Knowledge Discovery In Databases) и, в частности, для системы Poly Analyst, разработанной российской компанией «Мегапьютер Интеллидженс». Компоненты системы PolyAnalyst предназначены для автоматического анализа числовых баз данных и обнаружения ранее неизвестных, нетривиальных, практически полезных и доступных пониманию закономерностей, необходимых для принятия оптимальных решений.

Важной чертой KDD-систем является способность интеграции с хранилищами данных (Data Warehousing). Хранилища данных рассматриваются как способ хранения больших многомерных массивов данных, который позволяет легко извлекать и использовать информацию в процедурах анализа. Эффективная архитектура хранилищ данных должна быть организована таким образом, чтобы быть составной частью информационной системы управления предприятием или, по крайней мере, иметь связь со всеми доступными данными. При этом надо иметь специальные технологии для работы с корпоративными базами данных. Приоритетное направление Poly Analyst - работа с источниками данных большой емкости, такими как базы данных, которые включают миллионы или даже миллиарды записей с общим размером в несколько гигабайтов. В PolyAnalyst есть быстрые реализации методов добычи данных, которые загружают в память машины небольшие массивы данных и быстро обрабатывают их. Для выборки таких массивов из большой базы используется специальная методика подготовки SQL-запросов. Таким образом, можно работать с большими базами данных. Именно для реализации такого подхода к добыче данных и реализована поддержка OLE DB for Data Mining; на это направлено участие в Microsoft Data Warehousing Alliance. Также PolyAnalyst позволяет работать напрямую, а не через SQL и ODBQ с IBM Visual Warehousing, Oracle Express и Microsoft Excel. Отчеты генерируются в формате HTML и могут просматриваться любым браузером.

Термин OLAP (или FASMI - быстрый анализ распределенной многомерной информации) обозначает методы, которые дают возможность пользователям многомерных баз данных в реальном времени генерировать описательные и сравнительные сводки («views») данных и получать ответы на различные другие аналитические запросы. Несмотря на свое название, этот метод не подразумевает интерактивную обработку данных (в режиме реального времени); он означает процесс анализа многомерных баз данных (которые, в частности, могут содержать и динамически обновляемую информацию) путем составления эффективных «многомерных» запросов к данным различных типов. Средства OLAP могут быть встроены в корпоративные (масштаба предприятия) системы баз данных и позволяют аналитикам и менеджерам следить за ходом и результативностью своего бизнеса или рынка в целом (например, за различными сторонами производственного процесса или количеством и категориями совершенных сделок по разным регионам). Анализ, проводимый методами OLAP, может быть как про-

стым (например, таблицы частот, описательные статистики, простые таблицы), так и достаточно сложным (например, он может включать сезонные поправки, удаление выбросов и другие способы очистки данных). Хотя методы добычи данных можно применять к любой, предварительно не обработанной и даже неструктурированной информации, их можно также использовать для анализа данных и отчетов, полученных средствами OLAP, с целью более углубленного исследования, как правило, в более высоких размерностях. В этом смысле методы добычи данных можно рассматривать как альтернативный аналитический подход (служащий иным целям, нежели OLAP) или как аналитическое расширение систем OLAP.

Итак, после определения основных концепций добычи данных рассмотрим методы, предназначенные для их анализа.

К вычислительным методам разведочного анализа данных относятся основные статистические методы, а также более сложные, специально разработанные методы многомерного анализа, предназначенные для отыскания закономерностей в многомерных данных.

К первой группе методов относятся:

анализ распределений переменных. Важным способом «описания» переменной является форма ее распределения, которая показывает, с какой частотой значения переменной попадают в определенные интервалы. Эти интервалы, называемые интервалами группировки, выбираются исследователем. Обычно исследователя интересует, насколько точно распределение можно аппроксимировать нормальным. Простые описательные статистики дают об этом некоторую информацию. Например, если асимметрия (показывающая отклонение распределения от симметричного) существенно отличается от 0, то распределение несимметрично, в то время как нормальное распределение абсолютно симметрично. Итак, у симметричного распределения асимметрия равна 0. Асимметрия распределения с длинным правым хвостом положительна. Если распределение имеет длинный левый хвост, то его асимметрия отрицательна. Далее, если эксцесс (показывающий «остроту пика» распределения) существенно отличен от 0, то распределение имеет или более закругленный пик, чем нормальное, или, напротив, имеет более острый пик (возможно, имеется несколько пиков). Обычно, если эксцесс положителен, то пик заострен, если отрицательный, то пик закруглен. Эксцесс нормального распределения равен 0. Более точную информацию о форме распределения можно получить с помощью критериев нормальности (например, критерия Колмогорова-Смирнова или W-критерия Шапиро-Уилка). Однако ни один из этих критериев не может заменить визуальную проверку с помощью гистограммы (графика, показывающего частоту попаданий значений переменной в отдельные интервалы). Гистограмма позволяет «на глаз» оценить нормальность эмпирического распределения. На гистограмму также накладывается кривая нормального распределения. Гистограмма позволяет качественно оценить различные характеристики распределения. Например, на ней можно увидеть, что распределение бимодально (имеет 2 пика). Это может быть вызвано, например, тем, что выборка неоднородна, возможно, извлечена из двух разных

популяций, каждая из которых более или менее нормальна. В таких ситуациях, чтобы понять природу наблюдаемых переменных, можно попытаться найти качественный способ разделения выборки на две части;

просмотр корреляционных матриц с целью поиска коэффициентов, превосходящих по величине определенные пороговые значения. Корреляция представляет собой меру зависимости переменных. Наиболее известна корреляция Пирсона. Корреляция Пирсона предполагает, что две рассматриваемые переменные измерены, по крайней мере, в интервальной шкале. Она определяет степень, с которой значения двух переменных «пропорциональны» друг другу. Важно, что значение коэффициента корреляции не зависит от масштаба измерения. Например, корреляция между ростом и массой будет одной и той же, независимо от того, проводились измерения в дюймах и фунтах или в сантиметрах и килограммах. Пропорциональность означает просто линейную зависимость. Корреляция высокая, если на графике зависимость «можно представить» прямой линией (с положительным или отрицательным углом наклона). Коэффициенты корреляции изменяются в пределах от -1.00 до +1.00. Значение -1.00 означает, что переменные имеют строгую отрицательную корреляцию. Значение +1.00 означает, что переменные имеют строгую положительную корреляцию. Отметим, что значение 0.00 означает отсутствие корреляции. Проведенная прямая называется прямой регрессии, или прямой, построенной методом наименьших квадратов. Последний термин связан с тем, что сумма квадратов расстояний (вычисленных по оси У) от наблюдаемых точек до прямой является минимальной. Итак, первый шаг данного анализа состоит в вычислении корреляционной матрицы всех переменных и проверке значимых (ожидаемых и неожиданных) корреляций. После того как это сделано, следует понять общую природу обнаруженной статистической значимости. Иными словами, понять, почему одни коэффициенты корреляции значимы, а другие нет. Однако следует иметь в виду, если используется несколько критериев, значимые результаты могут появляться «удивительно часто», и это будет происходить чисто случайным образом. Например, коэффициент, значимый на уровне .05, будет встречаться чисто случайно один раз в каждом из 20 подвергнутых исследованию коэффициентов. Нет способа автоматически выделить «истинную» корреляцию. Поэтому следует подходить с осторожностью ко всем не предсказанным или заранее не запланированным результатам и попытаться соотнести их с другими (надежными) результатами. В конечном счете самый убедительный способ проверки состоит в проведении повторного экспериментального исследования. Такое положение является общим для всех методов анализа, использующих «множественные сравнения и статистическую значимость»;

анализ многовходовых таблиц частот. Таблицы частот представляют собой метод анализа категориальных (имеющих конечное множество значений) переменных. Кросстабуляция - это процесс объединения двух (или нескольких) таблиц частот так, что каждая ячейка (клетка) представляется единственной комбинацией значений или уровней табулированных переменных. Таким образом, кросстабуляция позволяет совместить частоты появления наблюдений на разных уровнях рассматриваемых факторов. Исследуя эти частоты, можно оп-

ределить связи между табулированными переменными. Обычно табулируются категориальные переменные или переменные с относительно небольшим числом значений. Если вы хотите табулировать непрерывную переменную (например, доход), то вначале ее следует перекодировать, разбив диапазон изменения на небольшое число интервалов (например, доход: низкий, средний, высокий).

Ко второй группе методов относятся:

кластерный анализ. Общий вопрос, задаваемый исследователями во многих областях, состоит в том, как организовать наблюдаемые данные в наглядные структуры, т.е. развернуть таксономии. Фактически, кластерный анализ является не столько обычным статистическим методом, сколько «набором» различных алгоритмов «распределения объектов по кластерам». Существует точка зрения, что в отличие от многих других статистических процедур, методы кластерного анализа используются в большинстве случаев тогда, когда вы не имеете каких-либо априорных гипотез относительно классов, но все еще находитесь в описательной стадии исследования;

факторный анализ. Главными целями факторного анализа являются: сокращение числа переменных (редукция данных) и определение структуры взаимосвязей между переменными, т.е. классификация переменных. Поэтому факторный анализ используется или как метод сокращения данных, или как метод классификации;

анализ дискриминантных функций. Дискриминантный анализ используется для принятия решения о том, какие переменные различают (дискриминируют) две или более возникающие совокупности (группы). Например, некий исследователь в области образования может захотеть исследовать, какие переменные относят выпускника средней школы к одной из трех категорий: (1) поступающий в колледж, (2) поступающий в профессиональную школу или (3) отказывающийся от дальнейшего образования или профессиональной подготовки. Для этой цели исследователь может собрать данные о различных переменных, связанных с учащимися школы. После выпуска большинство учащихся, естественно, должно попасть в одну из названных категорий. Затем можно использовать дискриминантный анализ для определения того, какие переменные дают наилучшее предсказание выбора учащимися дальнейшего пути. Основная идея дискриминантного анализа заключается в том, чтобы определить, отличаются ли совокупности по среднему какой-либо переменной (или линейной комбинации переменных), и затем использовать эту переменную, чтобы предсказать для новых членов их принадлежность к той или иной группе;

многомерное шкалирование (МНШ). Многомерное шкалирование можно рассматривать как альтернативу факторному анализу. Целью последнего, вообще говоря, является поиск и интерпретация «латентных (т.е. непосредственно не наблюдаемых) переменных», дающих возможность пользователю объяснить сходства между объектами, заданными точками в исходном пространстве признаков. Для определенности и краткости далее, как правило, будем говорить лишь о сходствах объектов, имея в виду, что на практике это могут быть различия, расстояния или степени связи между ними. В факторном анализе сходства между объектами (например, переменными) выража-

ются с помощью матрицы (таблицы) коэффициентов корреляций. В методе МНШ дополнительно к корреляционным матрицам, в качестве исходных данных можно использовать произвольный тип матрицы сходства объектов. Таким образом, на входе всех алгоритмов МНШ используется матрица, элемент которой на пересечении ее 7-й строки и /-го столбца содержит сведения о попарном сходстве анализируемых объектов (объекта [7] и объекта [/]). На выходе алгоритма МНШ получаются числовые значения координат, которые приписываются каждому объекту в некоторой новой системе координат (во «вспомогательных шкалах», связанных с латентными переменными, откуда и название МНШ), причем размерность нового пространства признаков существенно меньше размерности исходного (за это собственно и идет борьба);

логлинейный анализ. Одним из основных методов разведочного анализа данных является кросстабуляция. Например, в медицине можно табулировать частоты различных симптомов заболевания по возрасту и полу пациентов; в области образования можно табулировать число учащихся, покинувших среднюю школу в зависимости от возраста, пола и этнического происхождения; экономист может табулировать число банкротств в зависимости от вида промышленности, региона и начального капитала; исследователь спроса может табулировать предпочтения потребителя в зависимости от вида товара, возраста и пола и т.д. Во всех этих случаях результаты представляются в виде многовходовых (многомерных) таблиц частот, т.е. в виде таблиц сопряженности с двумя или более факторами. Логлинейный анализ предлагает более глубокие методы исследования этих таблиц. Он позволяет проверить статистическую значимость различных факторов и взаимодействий, присутствующих в таблице сопряженности (например, пол, место жительства и т.п.). Анализ соответствий является описательным/разведочным методом, созданным для анализа сложных таблиц, содержащих некоторые меры соответствий между переменными-столбцами и переменными-строками. Получаемые результаты содержат информацию, похожую по своей природе на результаты факторного анализа. Они позволяют изучить структуру категориальных переменных, включенных в таблицу. Термин логлинейный (или логарифмически-линейный) назван так потому, что с помощью логарифмического преобразования можно переформулировать задачу анализа многомерных таблиц частот в терминах дисперсионного анализа. В частности, многовходовую таблицу частот можно рассматривать как отражение различных главных и взаимодействующих влияний, которые складываются вместе линейным образом;

канонический анализ. Каноническая корреляция предназначена для анализа зависимостей между списками переменных;

пошаговая линейная регрессия. Общее назначение множественной регрессии состоит в анализе связи между несколькими независимыми переменными (называемыми также регрессорами или предикторами) и зависимой переменной. Например, агент по продаже недвижимости мог бы вносить в каждый элемент реестра размер дома (в квадратных футах), число спален, средний доход населения в этом районе в соответствии с данными переписи и субъективную оценку привлекательности дома. Как только эта информация собрана для раз-

личных домов, было бы интересно посмотреть, связаны ли и каким образом эти характеристики дома с ценой, по которой он был продан. Например, могло бы оказаться, что число спальных комнат является лучшим предсказывающим фактором (предиктором) для цены продажи дома в некотором специфическом районе, чем «привлекательность» дома (субъективная оценка). Могли бы также обнаружиться и «выбросы», т.е. дома, которые могли бы быть проданы дороже, учитывая их расположение и характеристики. Общая вычислительная задача, которую требуется решать при анализе методом множественной регрессии, состоит в подгонке прямой линии к некоторому набору точек;

нелинейная регрессия. Иногда, при проведении анализа линейной модели, исследователь получает данные о ее неадекватности. В этом случае, его по-прежнему интересует зависимость между предикторными переменными и откликом, но для уточнения модели в ее уравнение добавляются некоторые нелинейные члены. Самым удобным способом оценивания параметров полученной регрессии является нелинейное оценивание. Например, его можно использовать для уточнения зависимости между дозой и эффективностью лекарства, стажем работы и производительностью труда, стоимостью дома и временем, необходимым для его продажи и т.д. Нелинейное оценивание оставляет выбор характера зависимости за вами. Например, вы можете определить зависимую переменную как логарифмическую функцию от предикторной переменной, как степенную функцию, или как любую другую композицию элементарных функций от предикторов. Если позволить рассмотрение любого типа зависимости между предикторами и переменной отклика, возникают два вопроса. Во-первых, как истолковать найденную зависимость в виде простых практических рекомендаций. С этой точки зрения линейная зависимость очень удобна, так как позволяет дать простое пояснение: «чем больше х (т.е. чем больше цена дома), тем больше у (тем больше времени нужно, чтобы его продать); и, задавая конкретные приращения х, можно ожидать пропорциональное приращение у». Нелинейные соотношения обычно нельзя так просто проинтерпретировать и выразить словами. Второй вопрос - как проверить, имеется ли на самом деле предсказанная нелинейная зависимость;

анализ соответствий. Анализ соответствий содержит описательные и разведочные методы анализа двухвходовых и многовходовых таблиц. Эти методы по своей природе похожи на методы факторного анализа и позволяют исследовать структуру группирующих переменных, включенных в таблицу. Одной из наиболее общих разновидностей многовходовых таблиц типа являются частотные таблицы сопряженности. В классическом анализе соответствий частоты в таблице сопряженности стандартизуются таким образом, чтобы сумма наблюдений во всех ячейках была равна 1. Одной из целей анализа соответствий является представление содержимого таблицы относительных частот в виде расстояний между отдельными строками и/или столбцами таблицы в пространстве возможно более низкой размерности;

анализ временных рядов. Существуют две основные цели анализа временных рядов: определение природы ряда и прогнозирование (предсказание будущих значений временного ряда по настоящим и прошлым значениям).

Обе эти цели требуют, чтобы модель ряда была идентифицирована и, более или менее, формально описана. Как только модель определена, вы можете с ее помощью интерпретировать рассматриваемые данные (например, использовать в вашей теории для понимания сезонного изменения цен на товары, если занимаетесь экономикой). Не обращая внимания на глубину понимания и справедливость теории, вы можете экстраполировать затем ряд на основе найденной модели, т.е. предсказать его будущие значения;

деревья классификации. Этот метод позволяет предсказывать принадлежность наблюдений или объектов к тому или иному классу категориальной зависимой переменной в зависимости от соответствующих значений одной или нескольких предикторных переменных. Цель построения деревьев классификации заключается в предсказании (или объяснении) значений категориальной зависимой переменной. Что же такое деревья классификации? Представьте, что вам нужно придумать устройство, которое отсортирует коллекцию монет по их достоинству (например, 1, 2, 3 и 5 копеек). Предположим, что какое-то из измерений монет, например - диаметр, известно и поэтому может быть использован для построения иерархического устройства сортировки монет. Заставим монеты катиться по узкому желобу, в котором прорезана щель размером с однокопеечную монету. Если монета провалилась в щель, то это 1 копейка; в противном случае она продолжает катиться дальше по желобу и натыкается на щель для двухкопеечной монеты; если она туда провалится, то это 2 копейки, если нет (значит, это 3 или 5 копеек) - покатится дальше, и так далее. Таким образом, мы построили дерево классификации. Решающее правило, реализованное в этом дереве классификации, позволяет эффективно рассортировать горсть монет, а в общем случае применимо к широкому спектру задач классификации.

Предварительное исследование данных может служить лишь первым этапом в процессе их анализа, и пока результаты не подтверждены (методами кросс-проверки) на других фрагментах базы данных или на независимом множестве данных, их можно воспринимать самое большее как гипотезу. Если результаты разведочного анализа говорят в пользу некоторой модели, то ее правильность можно затем проверить, применив ее к новым данным и определив степень ее согласованности с данными (проверка «способности к прогнозированию»).

Используя рассмотренные методы анализа данных, система Poly Analyst находит скрытые закономерности в данных и формулирует их в символьном виде, легко понимаемом человеком. В этом состоит главное ее отличие от так называемых суб-символьных (sub-symbolic) систем, наиболее известным примером которых являются нейронные сети (neural nets). Результат работы подобных систем - «обученная» нейронная сеть - не может быть интерпретирована человеком и потому не представляет собой знаний в собственном смысле. Автоматический анализ данных в PolyAnalyst осуществляется следующими машинами исследований (Exploration engines): поиск законов (FL); поиск зависимостей (FD); классификация (CL); дискриминация (DS); кластеризация (FC); многопараметрическая линейная регрессия (LR); деревья решений (DT) и т.д.

Машины строят гипотезы о связях в данных, тестируют эти гипотезы на точность, значимость и простоту, выводят классификационные правила, находят многомерные кластеры, детектируют исключения, строят предсказательные модели. Пользователям PolyAnalyst не надо быть математиками или статистиками, важно разбираться в своей предметной области. Вся сложная «математическая кухня» спрятана внутри системы. Аналитик может сам выбирать степень своего участия в исследовании данных, от активного взаимодействия с машинами исследований до полной автоматической обработки. В последнем случае достаточно указать целевую переменную, запустить одну или несколько машин исследований и через некоторое время получить результат в виде легко интерпретируемого отчета.

Итак, технология Data mining разработана для решения вопросов бизнеса, которые программирование на SQL и средства Query/OLAP не могут решить адекватно. Это не один, а совокупность большого числа различных методов обнаружения знаний. Выбор метода часто зависит от типа имеющихся данных и от того, какую информацию аналитик пытается получить. В данной работе были рассмотрены основные методы, используемые для анализа данных в KDD-системах.

Литература

1. Боровиков В. П. STATISTICA. Искусство анализа данных на компьютере. М.: Питер, 2003.

2. Киселев М., Соломатин Е. Средства добычи знаний в бизнесе и финансах. Открытые системы // 1997. №4.

3. Материалы сайта http://www.statsoft.ru/

АНДРЕЕВА АНТОНИНА АРКАДЬЕВНА. См. с. 322.

СИМСОВА ЕВГЕНИЯ АЛЕКСАНДРОВНА родилась в 1978 г. Окончила Чувашский государственный университет. Ассистент кафедры вычислительной техники Чувашского университета, сотрудник Чебоксарского филиала фирмы «Мегапьютер Tech». Автор 5 научных работ.

i Надоели баннеры? Вы всегда можете отключить рекламу.