Научная статья на тему 'Алгоритм многоклассовой классификации объектов, описанных в ранговых шкалах'

Алгоритм многоклассовой классификации объектов, описанных в ранговых шкалах Текст научной статьи по специальности «Математика»

CC BY
122
23
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МНОГОКЛАССОВАЯ КЛАССИФИКАЦИЯ / ПОРЯДКОВЫЕ ШКАЛЫ / КРИВОЛИНЕЙНАЯ РЕГРЕССИЯ / ВЫБОР ПРИЗНАКОВ

Аннотация научной статьи по математике, автор научной работы — Кузнецов Михаил Павлович, Стрижов Вадим Викторович, Медведникова Мария Михайловна

Предложен метод построения рангового интегрального индикатора на основе ранговой матрицы описаний, заданной экспертами, и трехшаговый итеративный алгоритм оценки параметров и весов признаков. Рассмотрена задача выбора наиболее информативных признаков. Работа проиллюстрирована задачей определения статуса редких видов, включенных в Красную книгу РФ.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Кузнецов Михаил Павлович, Стрижов Вадим Викторович, Медведникова Мария Михайловна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The authors propose a method of an integral indicator construction based on the rank-scaled description matrix given by an expert. The authors propose three-step iterative algorithm to estimate correction parameters and features weights. The feature selection problem is investigated. The method illustrated with the problem of classification of the Red book of Russian Federation rare species statuses.

Текст научной работы на тему «Алгоритм многоклассовой классификации объектов, описанных в ранговых шкалах»

Научно-технические ведомости СПбГПУ 5' 2012 Информатика. Телекоммуникации. Управление

3. Афанасьев, В.А. Индуктор однородного магнитного поля [Текст] / В.А. Афанасьев, Ю.А. Голландцев [и др.] // Патент RU 2 305 357 C1. 27. 08. 2007 Бюл. 24.

4. Голландцев, Ю.А. Обращенный вентильный двигатель [Текст] / Ю.А. Голландцев, О.А. Лозо-

вицкая [и др.] // Положительное решение на заявку № 2011121097/07(031224) от 25.05. 2011. ГОУ ВПО «СПбГПУ», RU.

5. [Электронный ресурс] / Режим доступа: Ы1р:// mashap.maverick.ru/rus/dv/2-140-2,5-0,5-3.html

УДК 519.584

М.П. Кузнецов, В.В. Стрижов, М.М. Медведникова

алгоритм многоклассовой классификации объектов,

описанных в ранговых шкалах

Рассматривается задача построения интегрального индикатора в ранговых шкалах [1-3]. В качестве практического приложения изучается проблема определения статуса угрожаемых видов животных, входящих в список Красной книги РФ [4]. В Красной книге РФ принята следующая категоризация редкости видов (таксонов) по степени угрозы их исчезновения. Имеется шесть различных категорий статуса (меток классов) таксонов: вероятно исчезнувшие; находящиеся под угрозой исчезновения; сокращающиеся в численности; редкие; неопределенные по статусу; восстанавливающиеся. Эта категоризация является монотонной: метки классов ранжированы по возрастанию биологического разнообразия. Назначение категории таксона может быть выполнено одним из методов согласования экспертных оценок [7, 8] или путем аналитического вычисления категории на основе его описания, с учетом предложенной аналитиками модели [9].

Каждый таксон описан набором признаков, отражающих его состояние. Эксперт, владеющий информацией о таксоне, выставляет оценку для каждого признака в ранговой шкале. Таким образом, задана матрица «объект-признак», состоящая из описаний таксонов и вектор-меток классов таксонов. Требуется построить модель, восстанавливающую класс таксона из Красной книги РФ по его описанию.

Задача ревизии Красной книги РФ и построения модели вычисления интегрального индикатора - актуальна из-за постоянного пополнения Книги новыми записями о таксонах. Ранее был предложен ряд алгоритмов решения данной задачи [3, 7]. Так как эти решения не включают про-

цедуру выбора наиболее информативных признаков, ниже предлагается поставить и решить задачу нелинейной коррекции экспертных оценок.

Постановка задачи

Задано множество П = {(п 1, н ¡)},

, е X = {1, ..., т} пар. Каждая пара состоит из описания объекта х . (таксона) и соответствующей ему метки класса у. (категория статуса таксона).

Описание объекта х = [%1,..., Xу, ..., Х„ ], у е 3 = {1, ..., „} - это набор экспертных оценок признаков. Оценки объектов по признакам выставлены в ранговых шкалах. Каждый признак имеет собственную ранговую шкалу Ьу, состоящую из упорядоченных элементов Ьу = {1 ■ 2 ■... ■ kJ} . Значение класса также принадлежит упорядоченному множеству Ь0 = {1 ■ 2 ■ ... ■ к0}.

Рассмотрим постановку задачи многоклассовой классификации в ранговых шкалах, включающую криволинейную модель / (м>, х) и соответствующую ей вектор-функцию / (м>, X) = [/(м>, хД ...,/(м>, Хт)] с матрицей описаний X = [х1, ..., х, ..., хт] и зависимой переменной у = [уи ..., у,., ..., Ут ] где w = ..., ^] -параметры модели. Эта модель должна доставлять минимум заданной функции ошибки 5(/К X), у) .

Криволинейная модель / х1) имеет вид

f (V, п1) = £(Ъ0, п1)), (1)

h(w, п) = £и 7 g (Ъу, Пу). (2)

где вектор параметров V = [Ъ0;Ъх; ...; Ъп;и] = = [Ът, Ъ1т, ..., Ъ„т, ит ]т состоит из векторов Ъу -параметров монотонной коррекции 7-го при-

знака х и весовых коэффициентов признаков и = [и1, ..., и], ..., ип]т. Функция § монотонной коррекции задана следующим образом:

П ^ ь,,

g(b i ^ b, ='

2

j 2'

(3)

При этом соблюдается условие монотонности параметров:

Ord(bj): 0 < bj1 < b j 2 <...< bßi <1 для. = 1, ..., n и Ord(b0):

b01 < b02 <• • •< b0k0

Функция E,(b0,h(w, x,.)) определяет для числа h(w, x t) ближайшую по модулю компоненту вектора b0:

, h(w, х,.)) = arg min | b0. - h(w, x.) |.

jeJ

Введя обозначение для матрицы скорректированных экспертных оценок

G = Я] = [я(bJ,ху)], г е Т,у е

перепишем (1) и (2) в виде модели интегрального индикатора

/ (п, х,.) = №0,[ви],). (4)

Назначим функцией ошибки модели сумму квадратов регрессионных остатков (У) =|| /(у,X) - у |122 У и 112, включающую регуляризующее слагаемое с фиксированным коэффициентом X, где у и и - параметры, которые необходимо оценить.

Оценивание параметров модели

Оценивание параметров у модели / выполняется итеративно. Перед началом итераций значения векторов Ь0,Ь1, ..., Ьп назначены таким образом, что функция я является тождественной, Я = id. Оценивание параметров выполняется в три шага. Сначала при фиксированных значениях векторов Ь0, ..., Ьп оцениваются весовые коэффициенты

и =иешп я([К0; К;«]).

Затем при фиксированных значениях коэффициентов и оцениваются параметры монотонной коррекции

1А; ...; ь„] =ога(41),..,ога(4п) я ([К0; ...; К;и ]) с учетом требования монотонности (3) значений этих параметров. На последнем этапе оценивается вектор ь0: ^ =ога(40) ^([Ьо; ...; К;и])

Итерации выполняются до стабилизации функции ошибки S.

Рассмотрим эти три этапа более подробно. За начальное приближение примем столбцы матрицы G:

G = [gхД g(bn,Xn)] = [Xi, Xn], поскольку, как было сказано выше, g = id, и вектор y = y . Таким образом, векторы b0, b1, ..., bn в начальном приближении в качестве элементов содержат элементы множеств L0, L1, ts, Ln.

Шаг 1. Найдем и при фиксированных значениях b„, ..., b :

0n

и = arg min || y - Gu || +X || и ||.

и

Решение на шаге 1 имеет вид:

U = (Gт G + и )-1 G TT

Шаг 2. При фиксированных b 0, u оценим скорректированную матрицу описаний

G = [g (bl, X1X g (bn , X n )] = [gl, gn ]

Для каждого g. e Жт будем вычислять вектор g., являющийся монотонной коррекцией исходного вектора g.:

Ui> •••> gJ = argminll^(&0,GM)-yll2,

из gVi < gih следует gik < gih ie l,jvj2 e J,

gij G [0,1] 1 s 2, je J, согласно (3).

По векторам g, ..., я„ затем однозначно восстанавливаются векторы b 1, ..., bn как упорядоченные векторы, содержащие различные элементы я1,..., gn. Для решения этой задачи используется алгоритм градиентного спуска.

Шаг 3. При фиксированных b 1, ..., bn,u оценим вектор b0 и y = g(b0, y):

b0 = arg min 11 E,(b0, Gu) - g(bo, y)|12.

Ord(40)

Выбор признаков при классификации

Так как число объектов в данной задаче, определенное составом Красной книги РФ, сопоставимо с числом признаков, необходимо выбрать наиболее информативные признаки. Множество индексов признаков, включенных в модель, назовем активным набором и обозначим Л с J .

Поставим задачу выбора наиболее информативных признаков следующим образом. Разобьем выборку V на две подвыборки, обучающую и тестовую. Обозначим индексы элементов этих подвыборок сооветственно С и Т = Т . Для не-

4

Научно-технические ведомости СПбГПУ 5' 2012 Информатика. Телекоммуникации. Управление

Рис. 1. Изменение весов признаков

которого активного набора признаков Л найдем на обучающей подвыборке Пс оптимальные, согласно заданной функции ошибки 5, параметры

У» Л , У» Л =w 5 (ул 1 Пс )

Затем выберем наиболее информативные признаки - активный набор Л по всем поднаборам индексов признаков Л е 3, доставляющий на тестовой выборке Пс минимум функции ошибки: Л =Лез 5(уЛ 1 П)

Для выбора наиболее информативного подмножества признаков используется итеративный алгоритм добавления признаков.

На первом шаге этого алгоритма принимается активное множество информативных признаков Л = 0 . На каждом следующем шаге к множеству Л добавляется признак с индексом у , такой, что

у = еа\л 5(ул^у} 1 п ) .

Эта процедура продолжается итеративно до тех пор, пока значение функции ошибки 5 на контрольной выборке Пг не достигнет минимума.

Вычислительный эксперимент

Работа алгоритма иллюстрируется данными

из Красной книги РФ. Экспертами заполнена таблица данных для 29 различных объектов. Каждый объект описывается 102 признаками. Отобрано восемь наиболее информативных признаков. В качестве функции ошибки классификации принимается величина

1 т

б = - £5 (/(Уп,, Хх у ), у.),

т 7=1

где утч - вектор параметров, оцененный по всей выборке без учета ¡-го объекта, а Ххч - матрица X, в которой исключена ¡-я строка. Эта метрика представляет собой среднюю ошибку классификации на всех объектах выборки, ее значение составило = 0,75.

На рисунках представлены графики изменения параметров относительно итераций алгоритма. На рис. 1 показано изменение весов регрессии и, на рис. 2 - изменение элементов вектора Ъ0. По оси абсцисс отложено количество итераций, по оси ординат - количественное значение каждого признака. Прекращение изменений наблюдается на десятой итерации.

123456789 Итерации

Рис. 2. Изменение элементов вектора параметров Ъ

Рис. 3. Зависимость функции ошибки от количества выбираемых признаков

На рис. 3 показана зависимость функции ошибки от количества выбираемых признаков. Видно, что ее минимум достигается при семи признаках, и значение средней ошибки равно 0° = 0,75.

Предложен метод построения рангового интегрального индикатора на примере задачи категоризации таксонов Красной книги РФ. Данный

метод отличается от обычной задачи восстановления регрессии тем, что исходные данные представлены в ранговых шкалах и корректируются в процессе вычисления интегрального индикатора. Предложен алгоритм отбора наиболее информативных признаков. С помощью этого алгоритма получена адекватная модель получения категорий новых таксонов.

СПИСОК ЛИТЕРАТУРЫ

1. Стрижов, В.В. Уточнение экспертных оценок с помощью измеряемых данных [Текст] / В.В. Стрижов // Заводская лаборатория. Диагностика материалов. -2006. -Т. 72 (7). -С. 59-64.

2. Strijov, V.V. Integral indicator of ecological impact of the Croatian thermal power plants [Text] / V.V. Strijov [et al.] // Energy. -2011. -Vol. 36 (7). -P. 4144-4149.

3. Стрижов, В.В. Уточнение экспертных оценок, выставленных в ранговых шкалах, с помощью измеряемых данных [Текст] / В.В. Стрижов // Заводская лаборатория. Диагностика материалов. -2011. -Т. 77 (7). -С. 72-78.

4. Красная книга Российской Федерации (животные). -М.: АСТ Астрель, 2001.

5. Литвак, Б.Г. Экспертная информация: Методы получения и анализа [Текст] / Б.Г Литвак. -М.: Радио и связь, 1982.

6. Орлов, А.И. Организационно-экономическое моделирование. Экспертные оценки [Текст] / А.И. Орлов. -М.: Изд-во МГТУ им. Н.Э. Баумана. -2011.

7. Kotlowski, W. Rule learning with monotonic-ity constraints [Text] / W. Kotlowski // Proc. of the 26th Annual International Conf. on Machine Learning. -2009. -Vol 382. -68 p.

УДК 004.451.34

Т.К. Филиппов

ПРИМЕНЕНИЕ ВЕйВЛЕТ-ПРЕОБРАЗОВАНИЯ ИНФОРМАЦИИ ПРИ ТЕХНИЧЕСКОМ АНАЛИЗЕ ЗКОНОМИЧЕСКИХ ДАННЫХ

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Основная задача технического анализа экономических данных - исследование динамики рынков (форекс, акции, фьючерсы и др.), чаще всего посредством графиков. Данная работа характеризуется сложной геометрией, большим объемом

вычислительных задач, связанных прежде всего с ее многомерностью. Организация и управление вычислительными процессами в этих условиях требуют наглядного представления информации - визуализации, позволяющей принимать ре-

i Надоели баннеры? Вы всегда можете отключить рекламу.