Научная статья на тему 'Эффективная методика обработки многоразмерных данных большого объема'

Эффективная методика обработки многоразмерных данных большого объема Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
245
50
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ / ДАННЫЕ БОЛЬШОГО ОБЪЕМА / ДАННЫЕ / НАУЧНАЯ МЕТОДОЛОГИЯ РАБОТЫ С ДАННЫМИ / МАШИННОЕ ОБУЧЕНИЕ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Кадырова Наталья Олеговна, Павлова Людмила Владимировна

На основании современных эффективных подходов предложена методика обработки данных большого объема и большой размерности при решении задачи бинарной классификации. Приведены результаты ее применения к реальным данным.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

A new methodology has been developed for processing and mining of very large data sets of high dimensionality based on the modern efficient approaches for binary classification. Several examples are given of the real life applications.

Текст научной работы на тему «Эффективная методика обработки многоразмерных данных большого объема»

4

Рис. 5. Траектория движения концевой точки и заданная траектория

Оценка быстродействия алгоритма позволяет утверждать о возможности его применения не только для моделирования кинематики, но и в режиме реального времени для задания установок углов и скоростей для управления манипулятором по заданной конфигурации схвата.

Структура алгоритма допускает распределение вычислений между вычислителями ме-хатронных модулей шарниров и использование его в составе встроенного программного обеспечения, позволяющего управлять многозвенным манипулятором из унифицированных модулей.

Статья подготовлена в рамках работ по выполняемому в соответствии с постановлением Правительства РФ № 218 комплексному проекту по договору № 13 G25310026.

СПИСОК ЛИТЕРАТУРЫ

1. Springer Handbook of Robotics [Text] /Siciliano Bruno, Khatib Oussama (Eds.). -Springer, 2008. -LX. -1611 p.

2. Фу, К. Робототехника [Текст] / К. Фу, Р. Гонса-лес, К. Ли; Пер. с англ. -М.: Мир, 1989. -624 с.

3. Turetta, A. Distributed Control Architecture for Self-reconfigurable Manipulators [Text] / A. Turetta, G. Casalino, A. Sorbara //International J. of Robotics Research. -2008. -Vol. 27. -Iss. 3-4. -P.481-504.

4. Hansen, P.C. Regularization Tools: A Matlab package for analysis and solution of discrete ill-posed problems [Text] / P.C. Hansen // Numerical Algorithms. -1994. -№ 6. -P. 1-35.

5. Кирьянов, Д.В. Вычислительная физика [Текст] / Д.В. Кирьянов, Е.Н. Кирьянова. -Полибук Мультимедиа, 2006. -352 с.

6. Гилл, Ф. Практическая оптимизация [Текст] / Ф. Гилл, У. Мюррей, М. Райт; Пер. с англ. -М.: Мир, 1985. -509 с.

УДК 004.043:004.855.5:004.852

Н.О. Кадырова, Л.В. Павлова

ЭФФЕКТИВНАЯ МЕТОДИКА ОБРАБОТКИ МНОГОРАЗМЕРНЫХ ДАННЫХ БОЛЬШОГО ОБъЕМА

Необходимость использования современных эффективных алгоритмов обработки данных обусловлена быстрым ростом объемов корпоративных хранилищ данных, размерность которых может быть сколь угодно большой.

Методы, способные находить скрытые нетривиальные закономерности в больших объемах данных большой размерности, относятся к технологии, названной интеллектуальным анализом данных (ИАД, англ. data mining) [1]. Различные сочетания методов ИАД позволяют решать многие реальные бизнес-задачи.

Выделяют следующие стандартные типы закономерностей, выявляемые методами интеллектуального анализа данных: ассоциацию; последовательность; классификацию; кластеризацию и прогнозирование [1].

Выведенные из статистических данных закономерности и правила используют для описания существующих отношений, принятия решений и прогнозирования их последствий.

Классические методы восстановления зависимостей по эмпирическим данным можно применять лишь в случае небольшой размерности дан-

ных. Точность оценивания истинной зависимости катастрофически падает с ростом размерности входных векторов - признаков. Это явление называют «проклятием размерности».

Для выявления и исследования указанных типов закономерностей целесообразно использовать подходы, практически не требующие дополнительной априорной информации (например, задание распределения шума или функционального вида искомого решающего правила) и преодолевающие «проклятие размерности». Перспективным современным направлением в области извлечения знаний из хранилищ данных представляется статистическое обучение на основе ядерных машин.

Кроме того, ядерные методы устойчивы к выбросам и шуму. В настоящей статье рассмотрено применение этого подхода к закономерностям типа классификация и кластеризация, а также сопутствующие статистическому анализу задачи, касающиеся очистки и подготовки данных. Предложена эффективная методика обработки данных большого объема и большой размерности, приведены результаты ее применения к реальным данным.

Предварительная обработка данных

Рассмотрим современные методы многомерного статистического анализа, обеспечивающие возможность работы с содержащими пропуски зашумленными данными большого объема (тысячи) и большой размерности (сотни) с различными типами признаков.

Очистка данных. Корректность результатов анализа и точность построенных моделей во многом зависит от того, насколько эффективно проведена очистка данных. К первому этапу работы с данными относят обработку аномальных и фиктивных значений (выбросов), пропусков, дубликатов и противоречий, шумов и т. д. Требования к качеству данных могут быть разными для различных методов и алгоритмов анализа данных.

Заполнение пропусков. Простой способ восстановления пропусков, включенный в большинство статистических пакетов, - метод замены пропущенного значения общим средним из присутствующих значений - оказывается несостоятельным даже на простых рядах данных. Эффективным развитием этого метода в случае одиночных пропусков на гладких рядах данных является замена пропущенного значения средним из ближайших

присутствующих значений признака.

В работе [2] проведен сравнительный анализ наиболее известных алгоритмов восстановления пропущенных значений в массивах (рядах, таблицах) данных. При восстановлении групповых пропусков авторы рекомендуют использовать Zet-алгоритм, предложенный в [3]. Для разнотипных переменных рекомендуется применять алгоритм WANGA [3].

Выявление выбросов. Для больших выборок и концентрированных загрязнений особенно эффективна процедура выявления многомерных выбросов, предложенная в работе [4], - метод эксцесса.

Подготовка данных. Нормирование, масштабирование и стандартизация. Перед началом анализа следует провести нормирование, масштабирование или стандартизацию каждого признака. При этом существенно сужается диапазон значений признаков. Основным преимуществом указанных процедур подготовки данных является повышение численной устойчивости алгоритмов, реализующих методы статистического анализа.

Заметим, что данные для тестирования (например, построенного классификатора) должны быть подготовлены так же, как и для тренировочной последовательности, по которой проводится обучение (например, значения параметров сдвига и масштаба должны быть одинаковыми для тестовой и тренировочной последовательностей).

Работа с разнотипными признаками. При использовании методов, предусматривающих вычисление расстояний между объектами (при заполнении пропусков, при кластеризации и т. д.), в случае признаков различного типа необходимо применять корректные метрики. Метрики для разнотипных данных предложены и исследованы, например, в работах [5, 6]. Заметим, что важен не только выбор корректной метрики, но и соответствующее этой метрике масштабирование данных.

Если в исходных данных присутствует качественный признак, принимающий т возможных значений, целесообразно кодировать его значения следующим образом:

если т не велико, то каждому значению признака ставится в соответствие т-разрядное двоичное число, содержащее только одну единицу;

если т велико, то каждому качественному значению ставится в соответствие одно числовое значение.

Отбор признаков - это процесс определения самого эффективного (для кластеризации) или информативного (относительно данного отклика) подмножества из множества исходных признаков.

В работе [7] предложен метод выявления бесполезных относительно данного отклика (целевой переменной) признаков. Эта процедура рекомендуется в качестве первого этапа работы с признаками как средство очищения от шума. На втором этапе процесса отбора существенных признаков для классификации целесообразно использовать методы, предложенные в [8, 9].

Выделение признаков - преобразование исходных признаков для построения новых существенных признаков меньшей размерности. Один из самых известных методов выделения признаков - метод главных компонент (Principal Component Analysis - PCA) - не устойчив к выбросам и шуму.

В процессе решения последовательности оптимизационных задач, к которым приводит PCA, исходные объекты появляются только в составе скалярных произведений, что позволяет воспользоваться ядерным приемом. Ядерный PCA можно проводить с любым ядром, предварительно центрируя ядерную матрицу определенным образом [10]. Метод устойчив к выбросам и шуму.

Кластеризация. Типичный процесс кластеризации состоит из следующих шагов [11]:

1) представление образов (объектов), включающее информацию о количестве классов, количестве имеющихся образцов, количестве, типе и масштабе имеющихся признаков, и не обязательно включающее отбор признаков и/или их выделение;

2) определение меры близости между образами, соответствующей данным;

3) кластеризация или группировка (результат кластеризации может быть четким или размытым);

4) абстрагирование данных (обычно это компактное описание каждого кластера в терминах прототипов или репрезентативных образов, например, таких, как центроид);

5) оценка результата (результатом любого алгоритма кластеризации является набор кластеров (не зависимо от того, содержат ли анализируемые данные кластеры или нет). Если данные действительно содержат кластеры, то одни алго-

ритмы могут производить кластеризацию «лучше», чем другие алгоритмы. Анализ результатов процедуры кластеризации обычно основывается на определенных критериях оптимальности: внешнем (сравнение полученной структуры с некоторой априорной); внутреннем (выяснение, соответствует ли полученная структура имеющимся данным по существу); относительном (сравнение двух структур и определение их достоинств друг относительно друга)).

Разные методы кластеризации могут создавать разные кластеры. Создание схожих кластеров различными методами указывает на корректность кластеризации. Заметим, что данные, которые не содержат кластеров, не следует анализировать средствами кластеризации.

Процесс кластеризации может включать множество экспериментов по выбору разнообразных параметров, например: меры расстояния; типа стандартизации переменных; количества кластеров и т. д.

Алгоритмы кластеризации, разделяющие данные на основе некоторого критерия, например, известный алгоритм К-теаш, можно применять для больших объемов выборок. Особенностями алгоритма К-теаш, не всегда удобными для исследователя, являются: необходимость задания числа кластеров и начального разбиения (от которого существенно зависит окончательное разбиение на кластеры), а также определенная (гиперсферическая) форма строящихся кластеров. На практике алгоритм обычно выполняется несколько раз с различными начальными установками, и лучшая из полученных конфигураций используется как результат кластеризации.

Обобщенный метод К-теаш с ядром вместо метрики был бы недопустимо затратным в вычислительном отношении. Эффективной робастной процедурой является ядерная РСА-кластеризация: сначала применяют ядерный РСА к исходным данным, а затем к преобразованным данным применяют метод кластеризации К-теаш.

В работе [12] предложен метод кластеризации с использованием опорных векторов (SV-кластеризация). В отличие от метода К-теаш, SV-кластеризация не определяет кластеры посредством ряда прототипов и не требует, чтобы количество кластеров было определено заранее, а также строит кластеры произвольной формы. SV-кластеризация является одним из немногих методов, позволяющих работать с выбросами.

Классификация. Современной эффективной методологией машинного обучения с учителем является машина опорных векторов (Support Vector Machine - SVM) [13].

SVM-алгоритмы обладают многими привлекательными свойствами и способны обрабатывать огромные объемы информации. В основе SVM-методов лежит индукционный принцип структурной минимизации риска, сущность которого состоит в минимизации верхней границы ожидаемого риска, что обеспечивает согласованность между качеством обучения и сложностью класса аппроксимирующих функций. Принцип структурной минимизации риска оснащает SV-машины способностью к обобщению, которая и является целью статистического обучения.

Для гильбертовых пространств с репродуктивным ядром существует высокоэффективный прием вычисления скалярных произведений, который состоит в использовании ядерных функций. Функция (машина), определяющая решающее правило классификации, всегда имеет вид i

f (x) = k(xi,x) + b, где k(x, x') - ядерная

функция, соответствующая скалярному произведению в гильбертовом пространстве (пространстве признаков), определяемом ядром к; x . - входные векторы (объекты), i = 1, ..., i; b - вещественный параметр сдвига. Только опорным векторам соответствуют отличные от нуля значения весовых коэффициентов ai (свойство разреженности SV-машин).

Данное множество решающих правил классификации представляет собой богатый класс нелинейных (в зависимости от вида ядра) функций. При этом они линейны по параметрам. Количество свободных параметров равно количеству опорных векторов и не зависит от размерности входных векторов. Таким образом преодолевается «проклятие размерности», и метод опорных векторов можно применять (например, для задачи классификации) при любом числе признаков. К тому же, благодаря свойству разреженности, присущему SV-машинам, число опорных векторов значительно меньше объема тренировочной последовательности (i).

Для построения SV-классификаторов разработан ряд эффективных алгоритмов: SVMLight [14], Sequential Minimal Optimization (SMO) [15], Successive overrelaxation (SOR) [16], Incremental updating (IU) [17].

При построении SV-машин целесообразно соблюдать следующие рекомендации:

• производить масштабирование данных;

• применять гауссовское ядро;

• проводить подбор параметров регуляризации (С) и ядра (ст) сначала на грубой решетке, затем уточнять значения параметров на участке, соответствующем лучшему значению оценки обобщенной точности. Для получения представления об обобщенной точности алгоритмов проводить процедуру ¿-кратной перекрестной проверки (¿-fold cross validation).

Методика обработки данных большого объема и большой размерности

На основании современных эффективных подходов предложена следующая методика обработки данных при решении задачи бинарной классификации.

1. Исключение столбцов, в которых доля пропущенных данных выше некоторого порогового значения.

2. Заполнение одиночных пропусков методом средних из ближайших ¿ присутствующих значений, затем заполнение групповых пропусков с применением Zet-алгоритма.

3. Кодирование качественных признаков.

4. Выявление и удаление незначимых признаков.

5. Выявление и удаление выбросов.

6. Стандартизация данных и выделение главных (новых) признаков.

7. Кластеризация данных.

8. Масштабирование данных и настройка SV-машины для бинарной классификации (подбор параметров).

9. Построение SV-классификатора.

10. Тестирование построенной SV-машины.

Результаты применения предложенной методики

В соответствии с предложенной методикой обработаны реальные web-данные, содержащие информацию о поведении пользователей сети: характеристики визитов пользователей, собранные для категорий сайтов и сети в целом. Сеть объединяет набор сайтов, доступных для фиксации поведения посетителей, категория включает группу сайтов общей тематики. Была поставлена следующая задача: по тренировочной последовательности, содержащей информацию о пове-

Таблица 1

Результаты настройки и тестирования SV-машин

Методика Количество признаков Параметры SV-машины, С и ст СУ_гие Test_true

1. Масштабирование данных и настройка SV-машины на основе SMO-алгоритма 20 13,5, 1 0,6640 0,6660

2. Стандартизация данных, РСА, масштабирование данных и настройка SV-машины на основе SMO-алгоритма 18 20, 0,95 0,6540 0,6700

3. Стандартизация данных, ядерный РСА, масштабирование данных и настройка SV-машины на основе SMO-алгоритма 20 10, 1,23 0,6530 0,6550

дении посетителей (истории визитов) и соответствующие тендерному признаку метки, построить решающее правило, позволяющее распознать гендерный признак нового посетителя. Исследования проводились в среде Ма1ЬаЬ. Максимальный объем использованной в экспериментах выборки - 5000, количество признаков - 266.

Исходные данные перед классификацией предварительно подготовили согласно пунктам 1-4 приведенной методики:

на этапе 1 количество признаков сократилось до 39 при пороговом значении 0,22;

на этапе 2 пропуски были заполнены средним из ближайших к = 3 присутствующих значений;

на этапе 3 кодирование (трех) качественных признаков увеличило общее количество признаков до 53;

на этапе 4 после фильтрации осталось 20 признаков.

Подготовленные данные разбили на две последовательности: тренировочную (объемом I = 4000) и тестовую (объемом т = 1000). По тренировочной последовательности, согласно каж-

дой из трех выбранных методик, с использованием процедуры 10-кратной перекрестной проверки настроили SV-машины для бинарной классификации, построили SV-классификаторы и провели их тестирование. Результаты расчетов приведены в табл. 1.

Отметим, что доля правильно классифицированных образцов, полученная с использованием процедуры 10-кратной перекрестной проверки (СУ_хие), и доля правильно классифицированных образцов в тестовой последовательности (Test_true) при переходе к новым признакам не увеличились.

Результаты исследования влияния объема выборки на качество классификации приведены в табл. 2. Отметим, что увеличение объема тренировочной последовательности (ТП) свыше 4000 не улучшает качества SV-машины.

В процессе работы с данными выяснилось, что удаление выбросов, обнаруженных на этапе 5, не влияет на качество классификации; предварительная кластеризация данных определенно не улучшает качество классификации.

Т а б л иц а 2

Влияние объема выборки на качество классификации

Объем ТП, 1 Параметры SV-машины, С и ст СУ_тие

2000 1, 1 0,5245

3000 0,1, 1,5 0,5723

4000 13,5, 1 0,6640

5000 12,5, 1 0,6720

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

На рисунке представлены ROC-кривые [18], характеризующие классификаторы, построенные по первым двум методикам из табл. 1. Площади под ROC-кривыми (АиС) практически совпадают, т. е. классификаторы обладают одинаковым качеством.

Анализ результатов проведенных экспериментов демонстрирует устойчивость SV-методов к выбросам; позволяет предположить, что увеличение количества тренировочных образцов свыше 4000 не гарантирует построения лучшего классификатора для данных той же природы и структуры; позволяет выдвинуть следующие предположения относительно предложенных к исследованию web-данных:

• данные слабоструктурированы;

• данные не содержат кластеров, поэтому

анализировать их средствами кластеризации бессмысленно;

• применение РСА или ядерного РСА не улучшает качество классификации.

Отметим, что попытка классификации этих же данных классическими методами (такими, как дискриминантный анализ) не дала полезного результата: доля правильно классифицированных образцов варьировалась в пределах 0,52-0,54. Очевидно, что природа исследуемых данных не позволяет использовать такие методы для выявления скрытых закономерностей.

Применение предложенной методики позволило улучшить качество классификации в среднем на 15 %.

СПИСОК ЛИТЕРАТУРЫ

1. Дюк, В. Data mining: Учебный курс [Текст] / В. Дюк, А. Самойленко. -СПб.: Питер, 2001. -368 с.

2. Абраменкова, И.В. Методы восстановления пропусков в массивах данных [Электронный ресурс] / И.В. Абраменкова, В.В. Круглов // Программные продукты и системы. -2005. -№ 2. -Режим доступа: http:// www.swsys.ru/index.php?page=article&id=528

3. Загоруйко, Н.Г. Прикладные методы анализа данных и знаний [Текст] / Н.Г. Загоруйко. -Новосибирск: Изд-во ин-та математики, 1999.

4. Pena, D. Multivariate Outlier Detection and Robust Covariance Matrix Estimation [Text] / D. Pena, F.J. Prieto // Technometrics. -2001. -Vol. 43. -№ 3. -P. 286-310.

5. Wilson, D.R. Improved Heterogeneous Distance Functions [Text] / D.R. Wilson, T.R. Martinez // J. of Artificial Intelligence Research. -1997. -Vol. 6. -P. 1-34.

6. Spencer, M.S. Heterogeneous Distance Measures and Nearest-Neighbor Classification in an Ecological Setting [Text] / M.S. Spencer [et al.] // Missouri J. of Mathematical Sciences. -2010. -Vol. 22. -№ 2. -P. 108-123.

7. Weiss, S.M. Predictive data mining: a practical guide [Text] / S.M. Weiss, N. Indurkhya. -NY: Morgan-Kaufman, 1998.

8. Weston, J. Feature selection for SVM [Text] / J. Weston, S. Mukherjee, O. Chapelle [et al.] // In Neural

Information Processing Systems. -Cambridge, MA: MIT Press, 2001.

9. Lal, T.N. Embedded Methods [Электронный ресурс] / T.N. Lal [et al.]. -2005. -P. 1-20. -Режим доступа: http://edoc.mpg.de/312024

10. Scholkopf, B. Nonlinear Component Analysis as a Kernel Eigenvalue Problem [Text] / B. Scholkopf, A. Smola, K. Mller // Neural Computation. -1998. -Vol. 10. -P. 1299-1319.

11. Jain, A.K. Data Clustering: a Review [Text] / A.K. Jain, M.N. Murty, P.J. Flynn // ACM Computing Surveys. -1999. -Vol. 31. -№ 3. -P. 264-323.

12. Ben-Hur, A. Support Vector Clustering [Text] / A. Ben-Hur [et al.] // J. of Machine Learning Research. -2001. -Vol. 2. -P. 125-137.

13. Vapnik, V.N. The Nature of Statistical Learning Theory [Text] / V.N. Vapnik. -Springer-Verlag, 2000.

14. Joachims, T. Making Large-Scale SVM Learning

Practical [Text] / T. Joachims // Advanced Kernel Methods - Support Vector Learning, MIT Press, Cambridge, USA, 1998. -P.41-56.

15. Platt, J. Sequential Minimal Optimization: A Fast Algorithm for Training Support Vector Machines [Электронный ресурс] / J. Platt // Microsoft Research Technical Report MSR-TR-98-14, Apr. 21, 1998.

16. Mangasarian, O. Successive Overrelaxation for Support Vector Machines [Text] / O. Mangasarian, D. Musicant // IEEE Transactions on Neural Networks. -1999. -Vol. 10. -№ 5. -P. 1032-1037.

17. Cauwenberghs, G. Incremental and Decremental SVM Learning [Text] / G. Cauwenberghs, T. Poggio // Advances in Neural Information Processing Systems. -2001. -Vol. 13. -P. 409-415.

18. Fawcett, T. ROC Graphs: Notes and Practical Considerations for Researchers // [Text] / T. Fawcett. -Kluwer Academic Publishers, 2004.

УДК 681.3.069

И.Ю. Петрова, Т.В. Хоменко МАТЕМАТИЧЕСКАЯ МОДЕЛЬ ВЫБОРА

и метод оценки вариантов физического принципа

ДЕЙСТВИЯ ЧУВСТВИТЕЛЬНОГО ЭЛЕМЕНТА

Существующая тенденция превышения потребности в датчиковой аппаратуре над их производством, обусловленная необходимостью совершенствования (частичного обновления и/или регулярной замены) при определенном по времени жизненном цикле изделий, вызвала необходимость широкого использования автоматизированных систем поискового конструирования [1]. Автоматизация ранжирования вариантов физического принципа действия (ФПД) чувствительных элементов (ЧЭ) на начальных этапах разработки датчиковой аппаратуры позволяет сократить трудоемкость и время создания новых изделий [2].

Основной недостаток данных систем - использование классической постановки задачи выбора наиболее эффективных ФПД ЧЭ, которая в условиях даже частичного отсутствия априорных сведений об объекте проектирования неприменима [3]. Следовательно, для расширения потенциала автоматизированных систем поискового конструирования необходима разработка и реа-

лизация задачи выбора ФПД ЧЭ на этапе концептуального проектирования в условиях различных семантико-синтаксических данных, которая не может считаться решенной при отсутствии механизма оценки решения.

Используя аппарат теории множеств, представим задачу выбора кортежем:

где ПЗ - вариант постановки задачи; Т - информация о множестве альтернатив; Я - информация о компонентах критерия оценивания; 5" - множество шкал; Е - отображение множества альтернатив в множество их оценок по критериям; О -система предпочтений элемента; Р - решающее правило; V - функция выбора.

В рамках различных формализаций выбора [4] информация о ФПД ЧЭ может быть охарактеризована кортежем Т = (Ти, Т2^, где Ти -тип исходов (г = 1 - математическое описание, г = 2 - вербальное описание исходов); Т2- тип компонент исходов (/ = 1 - количественные,

i Надоели баннеры? Вы всегда можете отключить рекламу.