Научная статья на тему 'Обнаружение закономерностей в массивах экспериментальных данных'

Обнаружение закономерностей в массивах экспериментальных данных Текст научной статьи по специальности «Математика»

CC BY
970
124
i Надоели баннеры? Вы всегда можете отключить рекламу.
Область наук
Ключевые слова
ПОИСК ЗАКОНОМЕРНОСТЕЙ / АНАЛИЗ ДАННЫХ / ВЫБОР ИНФОРМАТИВНЫХ ПРИЗНАКОВ / ЦЕНЗУРИРОВАНИЕ / КОНКУРЕНТНОЕ СХОДСТВО / PATTERNS DISCOVERING / DATA MINING / FEATURE SELECTION / CENSORING / RIVAL SIMILARITY

Аннотация научной статьи по математике, автор научной работы — Загоруйко Николай Григорьевич, Борисова Ирина Артемовна, Кутненко Ольга Андреевна, Леванов Дмитрий Александрович

Приведены методы автоматического поиска закономерностей, скрытых в экспериментальных данных, основанные на построении их сжатого описания и очистки от шумов. При этом результаты наблюдений представляются в компактном виде, удобном для восприятия человеком-экспертом и решения классических задач анализа данных.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Загоруйко Николай Григорьевич, Борисова Ирина Артемовна, Кутненко Ольга Андреевна, Леванов Дмитрий Александрович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Process of discovering patterns in experimental data sets

The paper presents methods for discovering patterns hidden in the experimental data sets. The methods are based on the construction of a compressed description of these data and removal the anomalous data. In this case the observations are presented in a compact form, which are convenient for interpretability by a human expert and for solving classical Data Mining problems.

Текст научной работы на тему «Обнаружение закономерностей в массивах экспериментальных данных»

Вычислительные технологии

Том 18, Специальный выпуск, 2013

Обнаружение закономерностей в массивах

экспериментальных данных*

Н.Г. ЗАгоруйко1'2,3, И. А. Борисова1'2,3, О. А. КутнЕнко1,2,3, Д. А. Леванов1,3

1 Институт математики им. С.Л. Соболева СО РАН, Новосибирск, Россия 2 Конструкторско-технологический институт вычислительной техники СО РАН,

Новосибирск, Россия 3Новосибирский государственный университет, Россия e-mail: zag@math.nsc.ru

Приведены методы автоматического поиска закономерностей, скрытых в экспериментальных данных, основанные на построении их сжатого описания и очистки от шумов. При этом результаты наблюдений представляются в компактном виде, удобном для восприятия человеком-экспертом и решения классических задач анализа данных.

Ключевые слова: поиск закономерностей, анализ данных, выбор информативных признаков, цензурирование, конкурентное сходство.

Введение

Методы автоматического поиска закономерностей, скрытых в экспериментальных данных, часто основаны на построении сжатого описания этих данных, а также на очистке их от шумов [1]. В результате из всего множества наблюдаемых признаков выделяется небольшое число наиболее информативных, а из множества наблюдаемых объектов — подмножество наиболее типичных представителей. Этот подход позволяет сокращать объёмы сохраняемой информации, представлять результаты наблюдений в виде, удобном для восприятия человека-эксперта, а также решать классические задачи анализа данных, такие как таксономия, распознавание и прогнозирование.

В общем виде в данной работе решаются две задачи. Одна состоит в цензурировании обучающей выборки, т. е. в выборе из исходного множества M объектов такого подмножества m < M объектов, которое в заданном пространстве N признаков отражает основные закономерности распределения лучше, чем все M объектов, и обеспечивает более высокую надёжность распознавания контрольной выборки. Вторая задача заключается в цензурировании множества признаков, т. е. в выборе из исходного множества N признаков такого подмножества n < N признаков, в пространстве которых M объектов обучающей выборки отражают основные закономерности распределения лучше, чем в исходном признаковом пространстве.

Эти две задачи могут решаться как по отдельности, независимо друг от друга, так и согласованно, в рамках одной задачи комбинированного типа. Полученная подтаблица размерности m на n может использоваться для классификации новых объектов c опорой на эталонные образцы в пространстве информативных признаков. В задаче заполнения

* Работа выполнена при финансовой поддержке РФФИ (грант № 11-01-00156).

пробелов в таблицах объект—свойство и объект—свойство—время такие компетентные подтаблицы строятся отдельно для каждого прогнозируемого объекта и признака.

Для решения сформулированных выше задач предлагается использовать новую меру оценки сходства между объектами в виде функции конкурентного сходства (ЕШБ-функции) [2, 3], что позволяет оценивать компактность экспериментальных данных и при необходимости повышать её, исключая шумящие и дублирующие признаки и объекты. Нами разработаны алгоритмы ЕШБ-СКАВ [4] для выбора признаков и ЕШБ-Сешог для цензурирования объектов. Эти алгоритмы работают при любом распределении объектов и любом соотношении между числом объектов и признаков, позволяют глубже понять связи между объектами и признаками и показали свою высокую эффективность при решении важных прикладных задач из области медицины, криминалистики и пр.

1. Функция конкурентного сходства

При измерении таких характеристик объекта, как вес, длина, сопротивление и т.д., обычно используется сравнение изучаемого объекта с эталонным. Результат измерения определяется свойствами только этих двух объектов и не зависит от свойств других объектов. По этой причине результат измерения имеет характер абсолютной величины. Но объекты могут описываться и такими характеристиками, как "похож—не похож", "близок—далёк", "добрый—злой" и т. д. Эталонов для подобных характеристик не существует, два объекта с несовпадающими свойствами могут считаться "сходными" или "не сходными", "близкими" или "далекими" в зависимости от свойств других объектов. Адекватная мера сходства должна определять величину сходства, зависящую от особенностей конкурентного окружения объекта z.

При распознавании принадлежности объекта z к одному из двух образов A или B важно знать не только расстояние r(z, A) от z до образа A, но и расстояние r(z, B) от z до конкурирующего образа B. Следовательно, сходство в распознавании образов является категорией не абсолютной, а относительной.

Для вычисления сходства между объектами предлагается использовать тернарную относительную меру, которая оценивает сходство объекта z с объектом a в конкуренции с объектом b, которая называется функцией конкурентного сходства или FRiS-функцией:

F(z alb) = r(z,b) - r(z,a) (1)

F (z,a|b) r(z, b) + r(z, a) • (1)

По мере передвижения объекта z от объекта a к объекту b можно говорить вначале о большом сходстве объекта z с объектом a, об умеренном их сходстве, затем о наступлении одинакового сходства, равного 0, с объектом как a, так и b. При дальнейшем продвижении z к b возникает умеренное, а затем и большое отличие z от a. Совпадение объекта z с объектом b означает максимальное отличие z от a, что соответствует величине конкурентного сходства z с a, равной -1.

Конкурентное сходство объектов с образами будем определять по тому же принципу,

что и конкурентное сходство объектов с объектами:

F(z A|B) _ r(z,B) - r(z,A)

F (z,A|B) = r(z, B) + r(z, A) •

В случае нормально распределённых образов с одинаковыми матрицами ковариации конкурентное сходство объекта с данными образами можно вычислять через сходство

с их средними. Если же образы имеют очень сложную структуру, то ориентироваться при вычислении РШЯ-функции можно лишь на локальную окрестность (ближайших соседей) того объекта, для которого она вычисляется.

Одним из способов проявить особенности данных в задаче распознавания является переход к их сжатому описанию е использованием ограниченного множества типичных (или эталонных) представителей каждого образа, сохраняющего основные закономерности распределения образов. Такие эталонные объекты далее будем называть столпами. Чем сложнее структура образов и чем сильнее они пересекаются, тем больше столпов потребуется для описания таких образов. Если удастся перейти от образов А и В к множеству их столпов Б а и Бе , то вычислять конкурентное сходство объекта г с образом А в конкуренции с образом В можно, как ^(х,Ба\Бе), сравнивая г с двумя ближайшими столпами, принадлежащими разным образам.

2. Выбор эталонных объектов. Алгоритм ЕШВ-Б^ф

Для построения сжатого описания данных в виде системы столпов используется алгоритм РШЯ-Я^р [4]. Алгоритм работает при любом отношении количества объектов к количеству признаков и произвольном виде распределения образов. В качестве столпов выбираются объекты, которые обладают высокими значениями двух свойств: обороноспособностью по отношению к объектам своего образа и толерантностью по отношению к объектам других образов. Чем выше обороноспособность эталона, тем меньше будет ошибок первого рода (пропуск цели). Чем выше толерантность эталона, тем меньше будет ошибок второго рода (ложная тревога). Набор столпов считается достаточным для описания выборки, если конкурентное сходство ^ всех объектов обучающей выборки с ближайшими своими столпами в конкуренции с ближайшими объектами других образов превышает пороговое значение ^*, например, ^* = 0.

С помощью рис. 1 проиллюстрируем методику вычисления оценок толерантности и обороноспособности объекта на примере задачи распознавания двух образов А = (ах, ...,амА} и В = (Ьх, ...,ЬмБ}, представленных соответственно наборами из Ма и Ме объектов обучающей выборки.

Проверим, хорошо ли объект а^ защищает объекты aj, ] = 1, ...,Ма, образа А. Для объекта aj определим расстояния r(aj, а^) и г (а^ ), где bjf £ В является ближайшим

Рис. 1. Оценка обороноспособности и толерантности объекта а £ А

соседом объекта aj, т. е. j' = arg min r(aj, bm)\m = 1,..., MB, и по (1) получим значение F(aj, ai\bj/) функции сходства объекта aj с ai в конкуренции с bj/ (см. рис. 1). Выделим объекты aj е A, j = 1,...,Ma, сходство которых с ai не меньше заданного порога F*, т. е. F+ = F(aj, ai\bj') — F* > 0. Эти объекты надёжно защищены ai. Получим оценку D обороноспособности объекта ai:

ma

D(ai) = £ F+\F+ > 0. j=i

Теперь оценим толерантность ai, т.е. меру несходства с ai объектов образа B. Для каждого bn е B, n =1,..., MB, вычислим расстояния r(bn, ai) и r(bn, bn/), где bn/ Е B — ближайший сосед bn. По (1) найдем величину сходства F(bn,bn/\ai) объекта bn с bn/ в конкуренции с ai (см. рис. 1). Выделим те объекты образа B, у которых F- = F(bn,bn/\ai) — F* < 0. Эти объекты больше похожи на ai, чем на ближайшие объекты своего образа, что отрицательно влияет на оценку ai. Получим оценку T "нетолерантности" объекта ai:

mb

T(ai) = £ F-\F- < 0. j=i

Качество выполнения объектом ai роли столпа образа A оценивается величиной

S (ai) = D(ai) — T (ai).

Отметим некоторые особенности алгоритма FRiS-Stolp. Вне зависимости от вида распределения обучающей выборки столпами выбираются объекты, расположенные в центрах локальных сгустков и защищающие максимально возможное количество объектов с заданной надёжностью. При нормальных распределениях столпами в первую очередь будут выбраны объекты, ближайшие к точкам математического ожидания. Следовательно, при приближении закона распределения к нормальному решение задачи построения решающих функций стремится к статистически оптимальному. Если распределения полимодальны и образы линейно неразделимы, столпы будут стоять в центрах мод.

Сжатое описание образов через множество столпов можно использовать для распознавания новых объектов.

3. FRiS-компактность

Для произвольного объекта a е A мера его конкурентного сходства со своим образом в конкуренции с образом B показывает, насколько этот объект похож на свой образ и не похож на образ B. Если эта величина для всех объектов образа A положительна, то можно считать данный образ компактным, так как подобная ситуация хорошо согласуется с интуитивным представлением о компактности как о сходстве объектов внутри образа и несходстве их с объектами конкурирующего образа.

Вычисляя среднее значение FRiS-функции по всем объектам образа A, можно оценить компактность данного образа. Если при этом вычислять FRiS-функцию с опорой на столпы, то такая оценка компактности будет автоматически адаптироваться к особенностям данных.

В случае двух образов А = а\,...,аМА и В = Ъ\,...,ЪМв предлагается следующий вариант оценки компактности (далее — компактности).

1. С помощью алгоритма ЕШ8-81о1р строятся с столпов образов А и В: с = с а + Св, где с а и св — число столпов образов А и В соответственно.

2. Для каждого элемента а е А оценивается сходство со своим ближайшим столпом вА(аг) в конкуренции с ближайшим столпом вв(аг) образа В. Затем вычисляется компактность образа А в конкуренции с образом В:

Са|в = САМА

3. Также вычисляется величина Св|А компактности образа В в конкуренции с А.

4. Далее получим оценку компактности образов А и В путём усреднения величин Са|в и Св|А.

Отметим, что количество столпов са образа А зависит от структуры распределения объектов и величины порога Г *. С ростом Г * увеличиваются количество столпов и точность описания распределения, но растёт и сложность его описания, т. е. множитель с а является штрафом за структурную сложность образа.

Если количество образов К больше двух, то при оценке компактности образа Ак, к Е 1,...,К, объекты всех остальных образов объединяются в один виртуальный образ Вк. После получения оценок компактности СА^вк, к = 1,... ,К, всех образов общая оценка их компактности в данном признаковом пространстве может быть получена

путём арифметического усреднения данных оценок:

1 К

С = К^-^ САк1Вк. к=1

Если мы стремимся к тому, чтобы компактность самого некомпактного образа была максимально большой, то нужно использовать среднегеометрическую оценку:

мА

]>>(аг,вА(аг)1вв(аг)) - с А . (2)

С

\

К

Л САк1Вк. к=1

Наши эксперименты с этими двумя критериями ЕШЭ-компактности показали существенное преимущество второго из них [5].

4. Повышение компактности данных путём цензурирования объектов. Алгоритм FRiS-Censor

Упрощение описания и повышение компактности можно получить за счёт "очистки" данных, устраняя "нетипичные" объекты, которые искажают представление о выборке и влияют на выбор эталонов. Значительные отличия свойств таких объектов от свойств остальных объектов образа могут объясняться их уникальностью, однако чаще причина отличий состоит во влиянии неучитываемых факторов, таких как сбой измерительных приборов, ошибки занесения данных в протокол и пр. Встречаются и объекты, которые

не являются "ошибочными", но находятся на периферии распределения и оказываются глубоко в зоне пересечения с соседними образами. Они также могут неоправданно сильно усложнять решающие правила.

Для исключения (цензурирования) выбросов можно применять алгоритм ЕШБ-Сеп-эог [6], который включает в себя как составную часть алгоритм ЕШ8-81о1р и использует меру ЕШБ-компактности образов в качестве критерия, управляющего процессом повышения компактности данных.

Пусть даны два образа А и В, представленные наборами из Мд и Мв объектов, М = Мд + Мв. Оценка компактности образов А и В вычисляется по формулам (2), (3). Через М* обозначим число объектов обучающей выборки, оставшихся после очередного этапа сокращения выборки. Величину (М*/М)а, а > 0, будем использовать в качестве штрафа за исключение объектов из обучающей выборки. С учётом этого ЕШБ-компактность Нд\в образов на каждом шаге сокращения выборки будем оценивать следующим образом:

Нл\в = (М * /М )а^Сл\в Ов\л.

Выбор оптимального значения параметра а осуществляется методом машинного моделирования путём сравнения результатов работы алгоритма ЕШБ-Сепзог при разных значениях а. Через d е [0, 1] обозначим максимальную долю объектов обучающей выборки, которые можно исключить, ш* — максимальное количество объектов в удаляемом кластере.

Алгоритм ЕШБ-Сепзог тестировался на модельной задаче распознавания двух образов, каждый из которых представлял собой суперпозицию нескольких (от двух до четырёх) нормально распределённых кластеров в двумерном пространстве признаков.

Эксперименты показали, что повышение ЕШ8-компактности обучающей выборки путём цензурирования объектов более чем в 99 % случаев приводит к повышению качества распознавания. Очищенная выборка описывается более простым решающим правилом, что повышает надёжность распознавания контрольной выборки. На рис. 2 показаны гистограммы распределения надёжности Р распознавания контрольной выборки. По оси ординат отложено абсолютное число экспериментов N (из 1000), в которых была достигнута данная надёжность Р. Кривая 1 соответствует надёжности без предварительного повышения ЕШБ-компактности, среднее значение равно 91.6%, а кривая 2 — надёжности с использованием процесса повышения ЕШБ-компактности. Здесь среднее

Рис. 2. Распределение надёжности Р распознавания контрольной выборки

значение равно 95.9%. Среднее значение доли исключённых объектов d*, при котором достигалось максимальное значение критерия Haib, было равно 12.7%.

5. Исключение неинформативных признаков. Алгоритм FRiS-GRAD

Упрощение описания и повышение компактности данных можно получить, устраняя малоинформативные признаки. В настоящее время преобладают задачи, у которых количество признаков N на порядки превышает количество объектов M. При этом информация, полезная для решения конкретной классификационной задачи, обычно представлена в нескольких признаках n ^ N. Выбор этих n признаков не только позволяет в дальнейшем существенно сократить затраты машинных ресурсов, но и повышает компактность образов и надёжность их распознавания. Признаки могут зависеть друг от друга, что не позволяет по оценкам информативности каждого признака в отдельности выбрать подмножество в виде списка из n наиболее информативных признаков. Точное решение можно получить, проверив все сочетания из N признаков по n, что в реальных задачах практически невозможно. По этой причине используются эвристические алгоритмы направленного перебора.

В разработанном нами алгоритме GRAD [3] используется следующий приём. Сначала методом полного перебора формируются информативные системы признаков (гранулы) малой размерности, а затем эти гранулы используются в качестве входных элементов — обобщённых признаков для алгоритма AdDel [3], который представляет собой комбинацию двух известных жадных алгоритмов Addition и Deletion. Эти алгоритмы дают оптимальное решение на каждом шаге, но не обеспечивают глобального оптимума.

В алгоритме AdDel в процессе прямого хода (алгоритм Addition) набирается некоторое количество информативных признаков (гранул признаков) и затем часть из них исключается в процессе обратного хода (алгоритм Deletion). Такое чередование алгоритмов Addition и Deletion продолжается до достижения заданного количества признаков (гранул признаков) n. В алгоритме FRiS-GRAD, использующем вместо отдельных признаков гранулы, в полученной системе некоторые признаки могут встретиться более одного раза.

Как показали эксперименты, по мере увеличения числа признаков качество распознавания вначале растёт, потом рост прекращается и начинается его снижение за счёт добавления неинформативных (шумящих) признаков. Перегиб кривой качества позволяет автоматически определить количество признаков в системе.

Информативность признака или системы признаков может оцениваться разными способами. От того, насколько универсальный и релевантный задаче критерий используется, зависит качество решения этой задачи. В алгоритме выбора признаков FRiS-GRAD [4] в качестве критерия информативности используется величина FRiS-компакт-ности. Такой критерий применим к любому виду распределений и любому соотношению между M иN.

В процессе вычисления FRiS-компактности одновременно происходит выбор системы столпов. Поэтому алгоритм FRiS-GRAD может интерпретироваться как алгоритм сжатия данных за счёт сокращения числа объектов в выборке и числа описывающих выборку признаков. Это сокращённое описание выборки в виде множества столпов в пространстве информативных признаков далее может использоваться для решения

задачи распознавания. Объект г относится к образу, сходство со столпом которого в пространстве выбранных информативных признаков оказалось наибольшим, а величина сходства рассматривается как вероятность правильности принятого решения.

6. Экспериментальная проверка

В работе [7] представлены результаты сравнения десяти наиболее известных методов выбора признаков. Сравнение делалось по результатам решения девяти задач из области генетики. Для каждой выбранной системы признаков строились решающие правила четырёх наиболее известных типов. В результате каждая из девяти задач получала сорок различных решений. Мы выбрали лучшие из них (рекордные результаты) и сравнили их с результатами, полученными комбинацией алгоритма выбора признаков ЕШ8-СИАВ с алгоритмом построения решающего правила ЕШ8-81о1р.

Результаты сравнительных экспериментов представлены в табл. 1. Здесь показаны имена задач, размерность признакового пространства N, количество объектов первого (М1) и второго (М2) образов и два столбца результатов. В последнем столбце показано место, занятое результатами решения всех девяти задач ЕШБ-методами.

Задачи решалась в [7] с использованием десяти методов выбора признаков. Для каждой задачи по результату, полученному каждым методом, можно указать его рейтинг:

Таблица 1. Результаты решения девяти задач

Задача N M1/M 2 max of 40 FRiS-GRAD

ALL1 12625 95/33 100.0 100.0

ALL2 12625 24/101 78.2 88.0

ALL3 12625 65/35 59.1 87.2

ALL4 12625 26/67 82.1 87.4

Prostate 12625 50/53 90.2 95.1

Myeloma 12625 36/137 82.9 95.9

ALL/AML 7129 47/25 95.9 100.0

DLBCL 7129 58/19 94.3 95.0

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Colon 2000 22/40 88.6 98.6

Среднее значение 85.7 94.1

Таблица 2. Суммы рейтинговых мест, занятых методами выбора признаков

Methods of feature selection Rating

Fold change 47

Between group analysis 43

Analysis of variance (ANOVA) 43

Significance analysis of microarrays 42

Rank products 42

Welch t-statistic 39

Template matching 38

Area under the ROC curve 37

maxT 37

Empirical Bayes t-statistic 32

FRiS-GRAD 9

Таблица 3. Сумма рейтиноговых мест, полученных решающими правилами

Решающее правило Рейтинг

Between group analysis (BGA) 35

K-nearest neighbours (kNN) 32

Naive bayes classification (NBC) 25

Support vector machines (SVM) 19

FRiS-Stolp 9

лучший результат занимает первое место, худший — десятое. Если просуммировать места, занятые методом на всех задачах, то можно определить его общий рейтинг. Результаты таких подсчётов представлены в табл. 2, в последней строке которой показана сумма рейтинговых мест, занятых FRiS-методом.

Такой же анализ был проведён и по четырём использованным решающим правилам. Его результаты показаны в табл. 3, в которой так же, как и в табл. 2, чем меньше сумма рейтинговых мест, тем лучше.

Эти эксперименты показывают, что функция конкурентного сходства оказалась эффективным инструментом как для выбора из всего множества наблюдаемых признаков небольшого числа наиболее информативных, так и для выбора из множества наблюдаемых объектов — подмножества наиболее типичных представителей. Предложенные алгоритмы, основанные на FRiS-компактности, эффективны при решении сложных задач когнитивного анализа данных.

Список литературы

[1] Аркадьев А.Г., Браверман Э.М. Обучение машины распознаванию образов. М.: Наука, 1964.

[2] Воронин Ю.А. Введение мер сходства и связи для решения геолого-географических задач // Докл. АН СССР. 1971. Т. 199, № 5. С. 1011-1015.

[3] Загоруйко Н.Г. Когнитивный анализ данных. Новосибирск: Акад. изд-во ГЕО, 2013.

[4] Borisova I.A., Dyübanov V.V., Zagorüiko N.G., Kütnenko O.A. Use of the FRiS-function for taxonomy, attribute selection and decision rule construction // Collective monographic "Knowledge Processing and Data Analysis". Springer, 2010. P. 257-271.

[5] Борисова И.А., Дюбанова В.В., Загоруйко Н.Г., Кутненко О.А. Сходство и компактность // Математические методы распознавания образов: Тр. 14-й Всерос. конф. М., 2009. С. 89-92.

[6] Загоруйко Н.Г., Кутненко О.А. Количественная мера компактности образов и метод её повышения // Интеллектуализация обработки информации: Сб. докл. 9-й Междунар. конф. М.: Торус Пресс, 2012. С. 29-32.

[7] Jeffery I., Higgins D., Cülhane A. Comparison and evaluation of methods for generating differentially expressed gene lists from microarray data. BMC Bioinformatics, 2006, 7:359. (http://www.biomedcentral.com/1471-2[9]5/7/359).

Поступила в 'редакцию 29 ноября 2013 г.

i Надоели баннеры? Вы всегда можете отключить рекламу.