Научная статья на тему 'Параметрическое представление объектов в цветовом пространстве на основе метода главных компонент при малой наполненности выборки'

Параметрическое представление объектов в цветовом пространстве на основе метода главных компонент при малой наполненности выборки Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
235
71
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ОБУЧАЮЩАЯ СОВОКУПНОСТЬ / РАСПОЗНАВАНИЕ ОБРАЗОВ / МЕТОД ГЛАВНЫХ КОМПОНЕНТ / ЭЛЛИПС РАССЕЯНИЯ / TRAINING SET / IMAGE RECOGNITION / PRINCIPAL COMPONENT ANALYSIS / SCATTERING ELLIPSE

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Копылов А. В., Ерохин М. А.

Рассматривается алгоритм параметрического представления объектов в цветовом пространстве, основанный на аппроксимации обучающей совокупности набором эллиптических цилиндров вдоль направления главной компоненты. При малой наполненности выборки возможна ситуация, когда данных учителя недостаточно для построения очередного аппроксимирующего цилиндра. В этом случае предлагается использовать метод оценивания параметров эллиптических цилиндров на основе скользящего среднего с учетом предположения о достаточной гладкости описываемой области пространства.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Копылов А. В., Ерохин М. А.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

PARAMETRIC REPRESENTATION OF OBJECTS IN COLOR SPACE ON THE BASIS OF PRINCIPAL COMPONENT ANALYSIS IN THE CASE OF SMALL SAMPLE SIZE

An algorithm for the parametric representation of the training set in the colour space is considered in this paper. The algorithm is based on the approximation of the training set by a set of elliptic cylinders in the direction of the principal component. For a small sample size, it is possible, what there is not enough teach pattern data to build the next approximating cylinder. In this case, we propose to use the method of elliptic cylinders parameter estimation based on moving average with the assumption of sufficient smoothness of the described spatial domain.

Текст научной работы на тему «Параметрическое представление объектов в цветовом пространстве на основе метода главных компонент при малой наполненности выборки»

Середин Олег Сергеевич, канд. физ.-мат. наук, доц., [email protected], Россия, Тула, Тульский государственный университет

A UTOMA TION OF FILM RESISTORS LAZER TRIMMING V. V. Kondrashov, A.V. Kopylov, O.S. Seredin

The process of design system for adaptive control of laser resistor trimming is described. Video stream and workflow automation details are used as initial information. Several methods of image analysis and estimation of optimal laser tracks for resistor trimming are suggested.

Key words: laser trimming, image analysis, workflow automation, film resistors.

Kondrashov Vladimir Vladimirovich, postgraduate, kondrashov. [email protected], Russia, Tula, Tula State University,

Kopylov Andrey Valerievich, candidate of technical sciences, docent, [email protected], Russia, Tula, Tula State University,

Seredin Oleg Sergeevich, candidate of physical and mathematical sciences, docent, oseredin@yandex. ru, Russia, Tula, Tula State University.

УДК 004.93'11

ПАРАМЕТРИЧЕСКОЕ ПРЕДСТАВЛЕНИЕ ОБЪЕКТОВ В ЦВЕТОВОМ ПРОСТРАНСТВЕ НА ОСНОВЕ МЕТОДА ГЛАВНЫХ КОМПОНЕНТ ПРИ МАЛОЙ НАПОЛНЕННОСТИ ВЫБОРКИ

А.В. Копылов, М.А. Ерохин

Рассматривается алгоритм параметрического представления объектов в цветовом пространстве, основанный на аппроксимации обучающей совокупности набором эллиптических цилиндров вдоль направления главной компоненты. При малой наполненности выборки возможна ситуация, когда данных учителя недостаточно для построения очередного аппроксимирующего цилиндра. В этом случае предлагается использовать метод оценивания параметров эллиптических цилиндров на основе скользящего среднего с учетом предположения о достаточной гладкости описываемой области пространства.

Ключевые слова: обучающая совокупность, распознавание образов, метод главных компонент, эллипс рассеяния.

Параметрическое представление объектов обучающей совокупности, представленных векторами в пространстве цветовых компонент, является важной частью решения многих задач компьютерного зрения таких, как сегментация цветных изображений, детектирование и сопровождение объектов, распознавание изображений.

В данной работе рассматривается обработка цветных изображений или последовательностей видеокадров, в которых каждый пиксель представлен вектором цветовых компонент в пространстве RGB. Задача параметризации, или Color Data Modeling [1], состоит в построении такого математического правила или модели, которое позволяет с заданной точностью параметрически описать область интереса в цветовом пространстве признаков. Область интереса, как правило, задается набором точек в цветовом пространстве, указанных экспертом. Например, в задаче обнаружения на изображении областей, потенциально содержащих пламя, требуется параметризация пикселей огня (рис. 1).

О

Рис. 1. Представление цветовых характеристик объекта интереса в пространстве цветовых компонент

Отличительной особенностью данной задачи является то, что пиксели пламени образуют достаточно компактную область в цветовом пространстве. Один из самых распространенных методов моделирования данных эксперта основан на представлении вероятностных свойств распределения цвета в области интереса смесью нормальных распределений [1], [2]:

К К

р(х)= ЕадСхХХш/ =1, (1)

7=1 7=1

где х - вектор цветовых компонент; - веса отдельных составляющих смеси; рI (х) = Ы(х;р, ^I) - трехмерное нормальное распределение, со средним рI (х) = (р^ , ,[в). Как правило, ковариационная матрица выбирается диагональной ^I =diag(^^) или даже с одинаковыми

дисперсиями компонент = сгО^} = аВ . В частности, подобная модель применяется для обнаружения очагов возгорания в работе [3]. Для оценки параметров смеси распределений может использоваться EM-алгоритм [4]

или одна из его упрощенных версий, таких как алгоритм K-средних [5]. Однако для достаточно точного параметрического описания области данных в этом случае может потребоваться значительное число K компонент смеси, что приводит к повышенным затратам времени и вычислительных ресурсов и затрудняет применение данного подхода при обработке, например видеокадров в режиме реального времени.

Альтернативным подходом к параметрическому описанию данных эксперта является метод одноклассовой классификации, предложенный Д. Таксом [6]. Моделью в этом случае служит гиперсфера минимального радиуса, представляющая ближайшую внешнюю оболочку вокруг данных. Для того, чтобы обеспечить возможность описания более сложных форм, чем сфера, осуществляется переход в спрямляющее пространство большей размерности. Экспериментальные исследования [7] подтверждают эффективность применения радиальной базисной функции Гаусса для такого преобразования. Метод одноклассовой классификации не требует априорного знания количества составляющих смеси распределений, необходимых для аппроксимации исходной выборки данных, как первый подход, а также позволяет описать с требуемой точностью достаточно сложно организованные данные. Тем не менее, скорость построения описания трудно предсказуема и сильно зависит от исходных данных, определяющих число опорных объектов

В данной работе так же, как и в [8], предлагается аппроксимировать данные эксперта в пространстве цветовых компонент набором эллиптических цилиндров, упорядоченных вдоль направления главной компоненты. Сначала цветовое пространство подвергается ортогональному преобразованию при помощи метода главных компонент, с целью уменьшения корреляции цветовых координат. Далее преобразованное пространство разбивается на множество двумерных слоев, ортогональных оси, направленной вдоль главной компоненты, и в каждом таком слое строится эллипс рассеяния для элементов данных, попавших в данный слой. Набор параметров эллипсов определяет параметрическое представление области интереса. Однако экспериментальное сравнение методов [9] представления объектов в пространстве цветовых компонент показывает недостаточную устойчивость такого метода к малым выборкам. В данной работе предлагается корректировать параметры эллипсов с учетом значений, полученных в соседних слоях на основе скользящего среднего, что позволяет строить аппроксимацию даже для малых выборок.

Для повышения точности параметризации данных набором эллиптических цилиндров будем выбирать такое направление осей цилиндров, в котором выборочная дисперсия данных максимальна, то есть в направлении главной компоненты. Исходное цветовое пространство цветовых компонент RGB, в котором чаще всего бывают представлены данные эксперта, не является оптимальным с точки зрения компьютерной обработки [10],

поскольку цветовые компоненты при представлении реальных объектов сильно коррелированы, а само пространств не является однородным. Переход в другое цветовое пространство, например, HSV или L*a*b*, не слишком улучшает ситуацию, так как не позволяет принять во внимание пространственное расположение самих данных.

В данной работе используется такое преобразование цветового пространства обучающей выборки, чтобы выборочная дисперсия данных вдоль каждой из цветовых осей была максимальной при сохранении условий ортогональности [11], [12]. Для определения такого преобразования воспользуемся методом главных компонент (англ. Principal component analysis, PCA) [13].

Найдем направления осей новой системы координат. Получим ковариационную матрицу обучающей совокупности и найдем ее собственные векторы U1, U2, U3. Для нахождения собственных векторов симметрической ковариационной матрицы используется метод Якоби (метод поворота матриц). Найденные собственные векторы образуют базис новой системы координат. Графическая интерпретация такой системы координат представлена на рис. 2.

и,

а

б

Рис. 2. Представление данных обучения в пространстве цветовых компонент RGB (а) и в преобразованном пространстве главных компонент (б)

Переход в новую систему координат может быть осуществлен путем суперпозиции преобразований смещения и поворота координатных осей U1, U2, U3.

Разделим обучающую совокупность в новой системе координат набором плоскостей. Таким образом, в каждом слое, определяемом соседними плоскостями, будет находиться щ точек (рис. 3), где i - номер слоя.

Рис. 3. Разбиение пространства главных компонент совокупности

набором плоскостей

Аппроксимируем набор точек в каждом /-м слое эллипсом рассеяния. Для этого снова воспользуемся методом PCA. Определим направление главных компонент при помощи нахождения собственных векторов ковариационной матрицы. Опишем эллипсоид рассеяния в двумерной системе координат главных компонент (рис. 4).

В качестве величины осей щ и Ь; эллипса рассеяния в 1-м слое выберем, например, тройную величину среднеквадратичного отклонения Iи=3:

аг = М°иа = М

пх

I ((«1)

Ч=1

Ч

{Щ)г )2

п

ьг = « 2 = М

п1

^ Ч \2

I ((«2)гч - (и2)г)2 Ч=1

п

Рис. 4. Построение эллипса рассеяния на основе метода главных компонент

Очевидно, что среднеквадратические отклонения компонент вектора являются квадратным корнем из диагональных элементов ковариационной матрицы.

Таким образом, решающее правило для распознавания объектов, принадлежащих заданной экспертом области, строится на основании уравнения эллипса, которое выглядит следующим образом:

'(«2 V

Л п2 г (и1)1

а

+

V

< 1.

Ь

Очевидно, для того чтобы наилучшим образом построить эллипс рассеяния в каждом слое, необходимо, чтобы в нем находилось как можно больше точек обучающей совокупности.

В случае, когда слой имеет всего лишь одну точку, эллипс рассеяния не может быть построен, так как средние квадратичные отклонения аЩ1 и ащ-2 (соответственно величины осей эллипса) будут равны нулю.

Очевидно, в этом случае, если соседние слои будут иметь величины осей эллипса, отличные от нуля, то и рассматриваемый слой должен иметь схожие параметры. Чтобы избавиться от этого недостатка, применим регуляризацию на основе данного предположения о гладкости описываемой области цветового пространства.

Чтобы оценить недостатки разработанного алгоритма, возьмем некоторую генеральную совокупность (рис. 5,а), из этой совокупности возьмем на обучение выборку, равную 1 % от генеральной совокупности. На основе обучающей совокупности построим модель этой генеральной совокупности (рис. 5,б).

а б в

Рис. 5. Генеральная совокупность (а); работа алгоритма метода главных компонент (б); применение регуляризации (в)

На рис. 5,б видно, что у соседних слоев эллипса рассеяния могут быть разные параметры: величины полуосей эллипса, углы поворота эллипсов на плоскости. Очевидно, что при усреднении параметров эллипсов между соседними слоями можно избавиться от проблемы недостатка данных в слое при малой величине обучающей выборки.

Таким образом, на основе рассчитанных ранее параметров для каждого слоя, построим новые слои, которые будут учитывать параметры со-

седних И слоев. Следовательно, новые характеристики слоя-эллипса будут представлять собой усредненные значения соседних слоев:

' -На1 ' -НЬ1

а = —--, ь = —--.

1 н 1 н

Результат работы алгоритма с регуляризацией слоев предоставлен на рис. 5,в, где видно, что сглаживание параметров для каждого слоя позволило избежать «аномальных» параметров для слоев.

Для проведения экспериментальных исследований была использована генеральная совокупность объектов, сформированная точками, располагающимися внутри сфер, радиусы которых меняются по синусоидальному закону, а центры расположены вдоль спиральной кривой в трехмерном пространстве. Полученное «облако» точек не описывает какую-то область реального изображения, однако похожую конфигурацию образует множество точек, принадлежащих пламени. При этом часть генеральной совокупности, выбранная случайным образом, выступала в экспериментах в качестве обучающего множества, а оставшаяся часть - как объекты контроля качества распознавания. Результаты оценки качества работы алгоритма при различном объеме обучающей выборки представлены в виде эмпирической ROC-кривой на рис. 6:

Результаты исследования двух версий разработанного алгоритма - с независимым оцениванием параметров аппроксимирующих эллипсов и с использованием коррекции на основе скользящего среднего показывают существенное увеличение качества его работы на малых выборках при незначительном увеличении времени работы.

Представленный в работе [8] способ параметрического описания данных обучения в цветовом пространстве показывает хорошие результаты как по точности, так и по быстродействию. Однако он плохо подходит для представления сильно разреженных данных, а также для данных, образующих несколько, возможно, не пересекающихся областей в цветовом пространстве. Модифицированный метод аппроксимации области интереса набором эллиптических цилиндров с использованием скользящего среднего, предложенный в данной работе, направлен на устранение первого недостатка. Он в значительной степени основан на предположении о гладкости описываемой области цветового пространства, которое, как показывает практика, оказывается вполне адекватным таким задачам, как распознавания пикселей пламени или обледенения.

а

б

Рис. 6. Ошибки алгоритма при различных обучающих совокупностях: а - без регуляризации; б - с регуляризацией

Проведенные экспериментальные сравнения показывают преимущество разработанного метода по сравнению с [8] по точности при незначительном проигрыше в быстродействии.

Работа выполнена при поддержке грантов РФФИ № 10-07-00489-а и 12-07-92000-ННС а.

Список литературы

1. Rother C., Kolmogorov V., Blake A. Grabcut: Interactive foreground extraction using iterated graph cuts // ACM Transactions on Graphics (TOG). 2004. Vol. 23. No. 3. P. 309-314.

2. Ruzon M.A., Tomasi C. Alpha estimation in natural images // Proceedings IEEE Conference on Computer Vision and Pattern Recognition. CVPR 2000 (Cat. No.PR00662). Vol. 1. June 2000. Р. 18-25.

3. Toreyin B.U. Fire detection algorithms using multimodal signal and image analysis // The institute of engineering and science of Bilkent university, 2009.

4. Schlesinger M.I. Relation between learning and self-learning in pattern recognition // Kibernetika. Vol. 4. No. 2. P. 81-88. 1968.

5. MacQueen J.B. Some methods for classification and analysis of multivariate observations // Proc. of the fifth Berkeley symposium on mathematical statistics and probability. Vol. 1. P. 281-297. 1967.

6. Tax D.M.J. One-class classification; Concept-learning in the absence of counter-examples // Delft University of Technology, 2001.

7. Ларин А.О., Середин О.С. Параметризация цветового представления изображения пламени с использованием одноклассового классификатора // Известия ТулГУ. Технические науки. Вып. 3. 2012. C. 184-193.

8. Ерохин М.А., Копылов А.В., Ларин А.О. Параметрическое представление объектов в цветовом пространстве на основе метода главных компонент // Интеллектуализация обработки информации: 9-я Международная конференция. Черногория, г. Будва, 2012. М.: ТОРУС ПРЕСС. 2012. С. 460463.

9. Ларин А.О., Середин О.С., Копылов А.В. Экспериментальное исследование моделей представления объектов в цветовом пространстве при анализе изображений компонент // Интеллектуализация обработки информации: 9-я Международная конференция. Черногория, г. Будва, 2012. М.: ТОРУС ПРЕСС. 2012. С. 468-471.

10. Paschos G. Perceptually uniform color spaces for color texture analysis: an empirical evaluation // IEEE Transactions on Image Processing. Vol. 10. No. 6. P. 932-937, 2001.

11. Tsaig Y. Automatic segmentation of moving objects in video sequences: a region labeling approach // Circuits and Systems for Video. Vol. 12. No. 7. July 2002. P. 597-612.

12. Abdel-Mottaleb M., Jain A. Face detection in color images // IEEE Transactions on Pattern Analysis and Machine Intelligence. Vol. 24. No. 5. May 2002. P. 696-706.

13. Jolliffe I.T. Principal component analysis // Applied Optics. Vol. 44. No. 30. 2005. P. 6486.

Копылов Андрей Валерьевич, доцент, [email protected], Россия, Тула, Тульский государственный университет,

Ерохин Максим Анатольевич, студент, [email protected], Россия, Тула, Тульский государственный университет

PARAMETRIC REPRESENTATION OF OBJECTS IN COLOR SPACE ON THE BASIS OF PRINCIPAL COMPONENT ANALYSIS IN THE CASE OF SMALL SAMPLE SIZE

A.V. Kopylov, M.A. Erokhin

An algorithm for the parametric representation of the training set in the colour space is considered in this paper. The algorithm is based on the approximation of the training set by a set of elliptic cylinders in the direction of the principal component. For a small sample size,

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

it is possible, what there is not enough teach-pattern data to build the next approximating cylinder. In this case, we propose to use the method of elliptic cylinders parameter estimation based on moving average with the assumption of sufficient smoothness of the described sp a-tial domain.

Key words: training set, image recognition, principal component analysis, scattering

ellipse

Kopylov Andrey Valerievich, docent, [email protected], Russia, Tula, Tula State University,

Erokhin Maxim Anatolievich, student, [email protected], Russia, Tula, Tula State University

УДК 519.688

БАЙЕСОВСКИЙ ПОДХОД К ОЦЕНИВАНИЮ ФАКТОРОВ РИСКА В АНАЛИЗЕ ПРОДОЛЖИТЕЛЬНОСТИ ЖИЗНИ

О.В. Красоткина, В.А. Попов, Т.Ч. Нгуен, В.В. Моттль

Рассматривается задача построения модели регрессии с регулируемой селективностью в приложении к задаче анализа продолжительности жизни, основными особенностями которой являются малый объем обучающего множества и наличие цензурированных наблюдений. Для оценки параметров регрессионной модели предлагается использовать байесовский подход, в котором критерий максимального правдоподобия строится на основании модели пропорционального риска Кокса. Предложенный критерий обладает способностью подавлять факторы, несущественные для решаемой задачи, оставляя в модели факторы, являющиеся значимыми для оценивания продолжительности жизни в исследуемой группе прецедентов. Корректность полученной модели подтверждается экспериментами на модельных и реальных данных.

Ключевые слова: оценивание зависимостей, модель пропорционального риска Кокса, сокращение признакового описания, байесовский подход, отбор признаков, принцип максимального правдоподобия.

Введение

Задача анализа продолжительности жизни (survival analysis) - это задача распознавания образов, в которой пространство ответов имеет смысл времени, прошедшего после наблюдения вектора признаков на некотором объекте. Объектами в такой задаче могут выступать пациенты, изотопы, электрические лампочки и т.д. При распознавании с учителем обычно имеется некоторая обучающая выборка, для каждого объекта ко-

i Надоели баннеры? Вы всегда можете отключить рекламу.