Научная статья на тему 'Классификация объектов с использованием метода ранжирования и генетического алгоритма'

Классификация объектов с использованием метода ранжирования и генетического алгоритма Текст научной статьи по специальности «Математика»

CC BY
638
57
i Надоели баннеры? Вы всегда можете отключить рекламу.
Журнал
Прикладная информатика
ВАК
RSCI
Область наук
Ключевые слова
ОБРАБОТКА ДАННЫХ / DATA PROCESSING / КЛАССИФИКАЦИЯ / CLASSIFICATION / РАНЖИРОВАНИЕ / БАЗОВЫЙ ЭЛЕМЕНТ / BASIC ELEMENT / RANKINGS

Аннотация научной статьи по математике, автор научной работы — Цыганков А. В., Цыганкова И. А.

В работе предложен эволюционный метод классификации, основанный на ранжировании объектов в многомерном пространстве относительно некоторого базового элемента, поиск которого осуществляется с помощью модифицированного генетического алгоритма. Представлены результаты численного эксперимента, иллюстрирующие высокую эффективность предложенного метода.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Classification of biological objects using ranking method and genetic algorithm

Evolutionary classification method of objects is suggested. Method is based on a ranking of objects relative to the basic element in the multidimensional variable space. Search of the basic element is implemented with the help of modified genetic algorithm. The results of a numerical experiment are presented. They demonstrated a high efficiency of the suggested method.

Текст научной работы на тему «Классификация объектов с использованием метода ранжирования и генетического алгоритма»

№ 3 (51) 2014

А. В. Цыганков, док. техн. наук, Санкт-Петербургскийн национальный исследовательский университет

информационных технологий, механики и оптики, [email protected]

И. А. Цыганкова, канд. техн. наук, Санкт-Петербургский институт информатики и автоматизации РАН,

[email protected]

классификация объектов с использованием метода ранжирования и генетического алгоритма

В работе предложен эволюционный метод классификации, основанный на ранжировании объектов в многомерном пространстве относительно некоторого базового элемента, поиск которого осуществляется с помощью модифицированного генетического алгоритма . Представлены результаты численного эксперимента, иллюстрирующие высокую эффективность предложенного метода .

Ключевые слова: обработка данных, классификация, ранжирование, базовый элемент .

введение

Важной задачей, которую необходимо решать в процессе разработки новых методов диагностики и создания биологически активных веществ, является задача классификации биологических объектов по данным об экспрессии генов. Характерной особенностью экспрессион-ных данных является высокая размерность пространства признаков при малом объеме выборки объектов.

В настоящее время известно большое количество разнообразных методов классификации [1-7], эффективность которых существенно зависит от специфики предметной области, в которой эта задача сформулирована, и особенностей исходной информации. Анализ существующих методов показал, что их использование для классификации объектов по геномной информации требует предварительного снижения размерности пространства признаков, или фактическое снижение размерности происходит уже в процессе формирования классифицирующего правила. Специфика геномной информации делает снижение размерности

признакового пространства принципиально недопустимым, так как это может привести к потере значимой информации о заранее неизвестных взаимных связях между генами, что чрезвычайно важно при создании новых методов диагностики и лекарственных средств. Поэтому разработка методов классификации по информации об экспрессии генов является актуальной задачей, требующей дальнейшего развития.

Постановка задачи

В общем случае вся совокупность объектов делится на несколько классов, но в большинстве случаев на основе стратегии «один против всех» [8] классификация может быть сведена к последовательному решению задач с двумя классами. Поэтому в дальнейшем будем рассматривать задачу классификации только для двух классов.

Пусть имеется конечное множество объектов

^ = {1, ..........5п , 5п+1, 3п+2.....5п+т }.

Это множество разделено на два непересекающихся подмножества (класса) К0 и К1:

60 у

№ 3 (51) 2014

Ко = { &>.....Sn },

К1 = {п+1, Sn+2.....'Зп+т },

где п — количество объектов класса К0; т — количество объектов класса К1; п + т = N — общее количество объектов множества в.

Каждый объект множества описывается набором параметров (объекты — точки р-мерного пространства)

^ ={{, У;}, 1 = 1.....П +

т

Здесь

X = (( Х2.....X.....Хр ), 1 =1.....р,

У =

0, если ^ е К0,

1, если е К1,

где X, — вектор входных параметров объекта; у — классифицирующий (целевой) параметр, определяющий принадлежность объекта к одному из классов.

Параметры вектора Х1 могут принимать значения из некоторого множества допустимых значений действительных чисел. Значения отдельных параметров х1 для некоторых объектов sl могут быть не определены, т. е. таблица данных имеет пропущенные значения. Размерность признакового пространства Яр существенно больше объема выборки, т. е. р » N.

Требуется, не снижая размерность признаков, предложить метод, позволяющий с приемлемой точностью классифицировать объект q, заданный вектором Хч = (, х2ч.....хрд).

Метод классификации на основе принципа ранжирования

Рассматриваемая задача классификации является плохо формализованной в силу того, что вся информация об объектах представлена лишь набором входных и выходных

параметров, о которых нельзя сколько-нибудь определенно сказать, что они полны, непротиворечивы и не искажены. В такой ситуации наиболее эффективными становятся методы [9-11], базирующиеся на эволюционном подходе к решению экстремальных задач функции многих переменных, которые в отличие от традиционных методов поиска оптимального решения ориентированы на получение приемлемого решения, лучшего, чем полученное ранее или заданное в качестве начального.

Для решения сформулированной задачи предлагается метод [12], основанный на предположении, что в многомерном признаковом пространстве Яр существует некоторый базовый элемент, относительно которого формируется ранжированная последовательность объектов, сепарирующая обучающую выборку на два класса. Предполагается, что базовым элементом могут быть такие объекты многомерного пространства, как точка, плоскость, линия, поверхность.

Метод реализует двойное ранжирование объектов относительно базового элемента: упорядочение объектов по классам и упорядочение объектов по возрастанию расстояния от базового элемента внутри классов. При формировании ранжированной последовательности объектов рассматриваются следующие варианты порядка следования классов: класс К0 предшествует классу К1 или класс К1 предшествует классу К0.

Поиск базового элемента при заданном типе его представления в пространстве Яр и принятом порядке следования классов в формируемой последовательности объектов является, по сути, самостоятельной задачей. Это позволяет достаточно легко организовать параллельную реализацию алгоритма обучения, что дает возможность оптимизировать вычислительные ресурсы и существенно сократить время поиска решения.

Поиск решения предлагается проводить с использованием эволюционного подхода, реализуемого с помощью модифицированного генетического алгоритма, который

61

№ 3 (51) 2014

представляет собой итерационный вероятностный эвристический алгоритм поиска, особенностью которого является одновременное использование множества точек поиска (популяции) из пространства потенциальных решений.

Пусть базовый элемент

* * =(

Х1, Х2.....Xz

, xp ) —точка в p-мерном

пространстве, а порядок следования классов: класс К0 предшествует классу К1.

Рассмотрим последовательность работы генетического алгоритма для поиска базового элемента.

Шаг 1. Создаем исходную популяцию индивидуумов (хромосом) размером г. Принципиальным является то, что в качестве исходной популяции рассматриваются сами объекты обучающей выборки. Каждое возможное к-е решение представлено строкой (хромосомой), которая представляет собой массив из р действительных чисел (х**,х2.....х*.....хр), где каждый элемент хромосомы — ген имеет ограничения 0 < х* < 1, обусловленные нормировкой значений параметров. Размер популяции г фиксирован и равен объему обучающей выборки (п + т).

Шаг 2. Проведем оценку пригодности каждой к-й хромосомы. Под пригодностью будем понимать способность хромосомы быть базовым элементом, относительно которого объекты обучающей выборки разделяются на два класса с приемлемой точностью. Меру или степень пригодности хромосомы будем оценивать с помощью функции пригодности, которую рассмотрим ниже. Оценка пригодности каждой к-й хромосомы состоит из следующих этапов.

1. Определим вектор расстояния

D = (2..........¿п , «П+1.....т )

i = 1.....п + т, (1)

где = с ((*, Х-1) — расстояние между к-м базовым элементом Х'к и объектом Х1.

2. Проведем ранжирование элементов с11 вектора (1) по возрастанию и сформируем вектор

62

D' = (с;,с2.....с;.....сП,сП+1.....с'п+т), (2)

элементы которого упорядочены следующим образом:

с* < с * < < с * < < с < с * < < с' .

"1 _ 2 —.....— ' — ■■ ■' — "п "п+1' — ■■■' — п+ т

3. Величины с в последовательности (2) интерпретируем как ранги объектов t¡ = t(C(*), задающие упорядочение объектов по расстоянию от базового элемента. Обозначим эту ранговую последовательность как:

Т =((.....I,.....^ .....tn+m ),/ = 1.....п + т.

4. В качестве границы между классами рассматриваем элемент с индексом tn, ранг которого равен количеству объектов класса К0.

5. Оцениваем степень пригодности каждой к-й хромосомы с помощью функции пригодности, которая также называется целевой функцией, или функцией погрешности:

где

Fk = max (f0f ),k = 1.....r,

fo =Y 0 (K )/n + ßo (K* ), f = Yi (K0 )/m + ßi (K0 ).

(3)

(4)

(5)

Здесь: f0 и f1 — аддитивные оценки погрешности классификации объектов по классу К0 и классу К1 соответственно; К\ — подмножество объектов класса К1, ошибочно отнесенных к классу К0, а К0 — подмножество объектов класса К0, ошибочно отнесенных к классу К1. Первые составляющие у0 (К*) и у1 (К0) оценок (4) и (5) учитывают количество неправильно классифицируемых объектов по классу К0 и классу К1 соответственно и вычисляются по формулам

у0(К*) = Х[У >()*0]Л е [Г1,Гп],

/=?1 tn+m

Т1 (К0 )= ![ У; ( )* 1, tl е[+Л+т ].

№ 3 (51) 2014

Вторые составляющие р0 (к*) и р1 (0) оценок (4) и (5) учитывают суммарное расположение всех неправильно классифицируемых объектов от классифицирующей границы по классу К0 и классу К1 соответственно. Расположение каждого неправильно классифицируемого объекта характеризуется коэффициентом w(t), величина которого линейно возрастает от 0 до 1 по мере его удаления от границы классов. Оценки р0 (к*) и в1 (0) вычисляются по формулам

в0 (К)= Xw^е [Г1,Гп],

5, еК*

р1 (к0)= Xw), ^ е^п+т],

где

w ) =

^^, если t¡ е [[,^],

^ еСЛИ 1; е[п+1^п+т ].

__ ((п+т - ^ )'

Шаг 3. Оценим наилучшее значение функции пригодности (3) с помощью критерия вида

I (X' ) = т*п }, к = 1,2.....г.

Шаг 4. Проведем проверку условия останова алгоритма. Работа генетического алгоритма завершается после выполнения одного из условий:

• значение функции I(х*) достигло оптимального ожидаемого значения с приемлемой точностью;

• выполнение заданного количества итераций (поколений) не приводит к улучшению уже достигнутого значения I (х *);

• истек заданный промежуток времени, отведенный на решение задачи.

Следует отметить, что преждевременный останов работы генетического алгоритма может произойти в случае вырождения популяции. Под вырождением понимается сокращение разнообразия хромосом, крайним проявлением вырождения является состоя-

ние популяции, в которой все ее члены имеют идентичные хромосомы.

Шаг 5. Если на шаге 4 не выполнилось ни одно из условий остановки алгоритма, проводим селекцию хромосом с помощью детерминированного способа с использованием элитарной стратегии и частичной замены наименее пригодных хромосом на наиболее пригодные хромосомы. В результате процесса селекции создается родительская популяция размером г, равная размеру текущей популяции.

Шаг 6. К хромосомам, отобранным с помощью селекции, применяем процедуру скрещивания, которая выполняется случайно с вероятностью Рс. Точка скрещивания (позиция гена в хромосоме) разыгрывается случайно по равномерному закону в заданном интервале. В результате скрещивания формируется популяция потомков.

Шаг 7. На популяции потомков, образованных в результате скрещивания, выполняем процедуру мутации, которая заключается в изменении значения гена в каждой хромосоме случайным выбором числа из интервала [0, 1] с вероятностью Рт.

Шаг 8. Переходим к шагу 2 и выполняем шаги 2-4 алгоритма.

Таким образом, в результате процесса искусственной эволюции, включающего селекцию, скрещивание и мутацию хромосом, качество решения в популяции постепенно улучшается. Если одно из условий остановки алгоритма (см. шаг 4) выполнено, то производится переход к завершающему этапу выбора «наилучшей» хромосомы и вывода полученного решения. Лучшим решением считается хромосома с наименьшим значением функции пригодности. Эта «наилучшая хромосома» будет рассматриваться в качестве базового элемента. После этого процедура обучения классификации завершается.

Далее переходим к этапу принятия решения о принадлежности любого объекта q к одному из имеющихся классов. Принадлежность объекта q с известными значениями входных параметров Хя = (, х2ч.....хря)

63

-n journal of applied informatics

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

№ 3 (51) 2014 ' -

к одному из классов определяется с помощью решающей классификационной процедуры, в которой участвуют все объекты обучающей выборки. Для этого сформируем относительно базового элемента, найденного в процессе обучения, ранжированную по расстоянию последовательность объектов выборки, включая и классифицируемый объект q. Тогда принадлежность объекта q к одному из классов будет определяться его рангом tq в упорядоченном ряду объектов. Решение о принадлежности объекта q классу принимается исходя из условия

[K0, если ^ < tn

q е

к,

если tq > tn

Степень принадлежности ) объекта q к какому-либо классу определяется по формуле

n((q ) =

tq

1- J-, если q g K0

tq - tn

tn+m tn

если q g K1

Численный эксперимент

Для проверки эффективности и работоспособности предлагаемого метода был проведен численный эксперимент с использованием реальных экспериментальных данных об уровне экспрессии генов атлантического лосося. В качестве обучающей выборки рассматривалась выборка из 100 рыб. Каждая особь описывалась вектором числовых параметров, которые являлись результатами инструментальных измерений уровня экспрессии различных генов у атлантического лосося. Размерность вектора параметров составляла 967. Обучающая выборка была разделена на классы К0 и К1. Класс К1 включал 50 рыб, зараженных инфекционным лососевым вирусом анемии, а класс К0 — 50 рыб, не зараженных этим вирусом.

Моделирование проводилось при следующих основных параметрах генетического алгоритма:

• размер популяции N = 100;

• вероятность скрещивания Рс = 0,99;

• вероятность мутации Рт = 0,001;

• количество элитарных хромосом — 1;

• количество наименее пригодных хромосом, которые подвергались замене в популяции на наиболее пригодные хромосомы, — 1.

Работа генетического алгоритма завершалась, если выполнение заданного количества итераций (поколений) не приводило к улучшению уже достигнутого значения целевой функции.

Численный эксперимент проводился для двух типов представлений базового элемента в пространстве Яр: точка и гиперплоскость. Для каждого представления базового элемента рассматривалось два варианта порядка следования классов: К0 ^ К1 и К1 ^ К0. Количество пусков задачи поиска для каждого варианта исходных данных составляло 10.

В таблице 1 приведены некоторые «наилучшие» значения функции пригодности (функции погрешности) хромосом, полученные при различных пусках задачи поиска. Результаты, приведенные в табл. 1, показывают, что погрешность классификации объектов существенно зависит от типа представления базового элемента в пространстве Яр. Наиболее предпочтительно в качестве базового элемента выбирать гиперплоскость. В этом случае погрешность классификации составляет 2-6%. Следует отметить, что на погрешность классификации также влияет выбор порядка следования классов в формируемой последовательности. Наименьшая погрешность классификации (Fk = 0,02 ) получена при порядке следования классов К0 ^ К1 и базовом элементе — гиперплоскость.

Результаты численного эксперимента, полученные при выборе базового элемента в виде гиперплоскости, представлены на рис. 1-4.

На рисунках 1-2 приведены графики, демонстрирующие эволюцию процесса обучения, т. е. изменение «наилучших» значений

№ 3 (51) 2014

Таблица 1 «Наилучшие» значения функции пригодности

функции пригодности Fk при последовательной смене поколений для разных пусков задачи поиска и различных вариантах порядка следования классов в формируемой последовательности объектов.

Как видно из графиков (рис. 1, 2) длительность процесса обучения (или количество поколений) может быть разной и зависит от объектов, вошедших в обучающую выборку.

На рисунке 3 приведены гистограммы распределения объектов обучающей выборки по расстоянию от базового элемента при различных порядках следования классов. Объекты класса K0 показаны над осью абсцисс, а объекты класса K1 — под этой осью.

На рисунке 4 представлены ранговые последовательности объектов обучающей выборки, сформированные относительно базового элемента при различных порядках следования классов.

Базовый элемент Порядок следования классов Функция пригодности

Точка Класс K0 < Класс K1 0,14

Класс ^ < Класс K0 0,38

Гиперплоскость Класс ^ < Класс K1 0,02

Класс ^ < Класс K0 0,06

0,15

8

5 0,10

3 0,05

0,00

Класс К0 < Класс К1

100

200

300 400 Поколения

0,15

8

§0,10

3" 0,05

0,00

Класс К0 < Класс К1

1000 2000 3000 4000 Поколения

Рис. 1. Изменение «наилучших» значений функции пригодности при последовательной смене поколений (порядок следования классов К0 < КЛ)

0

0

Класс К1 < Класс К0

Класс К1 < Класс К0

0,00

200 400

600 Поколения

800

1000

2000 3000

Поколения

Рис. 2. Изменение «наилучших» значений функции пригодности при последовательной смене поколений (порядок следования классов К < К0)

65

0

0

№ 3 (51) 2014

Класс K0 к Класс K1

20 3,07

□ Class K1

□ Class K0

I J " " " -

3,37 3,67 3,97 4,27 Расстояние от базового элемента

ю 10 о о m

о 0 (V т s

§ 10 ^

20

Класс K1 к Класс K0

□ Class K1 Г . □ Class K0 a a □ g

2,5 2,7 2,9 3,1 3,3 Расстояние от базового элемента

Рис. 3. Гистограммы распределения объектов двух классов по расстоянию от базового элемента

Класс K0 < Класс K1

Класс K1 < Класс K0

10 20 30 40 50 60 70 Ранги объектов

80 90 100

10 20 30 40 50 60 70 Ранги объектов

100

Рис. 4. Ранговые последовательности объектов обучающей выборки относительно базового элемента

Результаты исследования показали, что сформированная последовательность объектов, ранжированная по возрастанию расстояния относительно базового элемента, разделяется на два класса с достаточно высокой точностью. Погрешность классификации объектов составила 2-6%. Следует отметить (см. рис. 3), что класс К0 располагается относительно базового элемента более компактно, чем класс К1.

Была проведена оценка эффективности метода на контрольной выборке из 10 объектов, не входивших в обучающую выборку. В контрольную выборку было включено по пять объектов каждого класса. Все контрольные объекты были классифицированы правильно.

Таким образом, можно полагать, что предложенный метод классификации, основанный на принципе ранжирования объектов относительно базового элемента, эффективен при решении задач классифика-

ции объектов с высокой размерностью признакового пространства.

Заключение

В работе предложен эволюционный метод классификации, основанный на ранжировании объектов в многомерном пространстве относительно базового элемента, поиск которого осуществляется с помощью модифицированного генетического алгоритма. Метод ориентирован на обработку многомерных массивов информации, особенностями которой являются высокая размерность признакового пространства и малый объем выборки объектов. Предлагаемый метод классификации позволяет не проводить предварительного снижения размерности признакового пространства, что, в свою очередь, позволяет исключить потерю значимой информации и учесть внутренние связи в рассматриваемых информационных массивах.

10

о 0

10

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

4,57

2,3

3,5

0

66 у

№ 3 (51) 2014

Метод обеспечивает построение иерархического класса алгоритмов, моделирующих получение решающей классификационной процедуры с использованием различных типов представления базового элемента в многомерном пространстве и различных вариантов упорядочения классов в формируемой ранжированной последовательности объектов. Метод изначально ориентирован на использование параллельных вычислений, что позволяет оптимизировать вычислительные ресурсы и существенно сократить время поиска решения. Расчетные исследования показали высокую эффективность предложенного метода.

Следует отметить, что разработанный метод классификации не требует восстановления пропущенных значений признаков, выполнения гипотез компактности, и его можно применять при работе с пересекающимися классами объектов.

Список литературы

1. Айвазян С. А., Бухштабер В. М., Енюков И. С., Мешалкин Л. Д. Прикладная статистика: Классификация и снижение размерности. М.: Финансы и статистика, 1989.

2. Айзерман М. А., Браверманн Э. М., Розоно-эр Л. И. Метод потенциальных функций в теории обучения машин. М.: Наука, 1970.

3. Вапник В. Н., Червоненкис А. Я. Теория распознавания образов (статистические проблемы обучения). М.: Наука, 1974.

4. Журавлев Ю. И. Избранные научные труды. М.: Издательство Магистр, 1998.

5. Загоруйко Н. Г. Прикладные методы анализа данных и знаний. Новосибирск: Изд-во Ин-та математики, 1999.

6. Мазуров В. Д. Метод комитетов в задачах оптимизации и классификации. М.: Наука, 1990.

7. Растригин Л. А, Эренштейн Р. Х. Метод коллективного распознавания. М.: Энергоиздат, 1981.

8. Rifkin R, Klautau A. In Defense of One-Vs-All Classification // The Journal of Machine Learning Research. 2004. № 5. Р. 101-141.

9. Емельянов В. В., Курейчик В. В., Курейчик В. М. Теория и практика эволюционного моделирования. Научное издание. М.: Физматлит, 2003.

10. Рутковская Д., Пилиньский М, РутковскийЛ. Нейронные сети, генетические алгоритмы и нечеткие системы. М.: Горячая линия, 2008. — 452 с.

11. Freitas A. A. Data Mining and Knowledge Discovery with Evolutionary Algorithms. Berlin etc.: Springer, 2002.

12. Цыганкова И. А. Эволюционный метод классификации биологических объектов // «Математические методы распознавания образов (ММРО-16)»: 16-я Всероссийская конференция, г. Казань, 6-12 октября 2013 г.: Тезисы докладов. М.: Торус Пресс, 2013.

A. Tsygankov, Doctor of Technical Sciences, St. Petersburg State University of Information Technologies, Mechanics and Optics, [email protected]

I. Tsygankova, Candidate of Technics, St. Petersburg Institute for Informatics and Automation of RAS, [email protected]

Classification of biological objects using ranking method and genetic algorithm

Evolutionary classification method of objects is suggested. Method is based on a ranking of objects relative to the basic element in the multidimensional variable space. Search of the basic element is implemented with the help of modified genetic algorithm. The results of a numerical experiment are presented. They demonstrated a high efficiency of the suggested method. Keywords: data processing, classification, rankings, basic element.

4.....67

i Надоели баннеры? Вы всегда можете отключить рекламу.