УДК 004.93'11
ПОИСК НАИБОЛЬШЕЙ ГИПЕРПОЛОСТИ В ЛИНЕЙНОМ ПРОСТРАНСТВЕ ДАННЫХ
А. А. Губарева, А. О. Ларин, О. С. Середин, В.В. Сулимова
В данной работе поставлена и решена задача поиска в линейном пространстве наибольшей гиперполости в виде гиперсферы максимального радиуса, не содержащей данные. Данная задача сформулирована как многоэкстремальная задача оптимизации с ограничениями и выражена в терминах признакового пространства и в терминах потенциальных функций. Предложенный подход наследует от одноклассового метода опорных векторов форму представления центра гиперсферы в виде линейной комбинации небольшого количества объектов, являющихся по смыслу опорными. Экспериментальные исследования на модельных данных демонстрируют корректность решения поставленной задачи.
Ключевые слова: Описание данных, поиск гиперполости, многоэкстремальная оптимизация, линейные пространства, потенциальные функции, одноклассовая классификация.
Одной из распространенных задач анализа данных, возникающих в различных прикладных областях, является задача поиска оптимального описания исследуемой совокупности объектов (целевого класса). Такое описание (модель) часто ищется в виде гиперсферы минимального радиуса, окружающей данные [1], и традиционно используется в дальнейшем для принятия решения о принадлежности к целевому классу новых, неизвестных на этапе построения модели, объектов — т.е. для решения задачи одноклассовой классификации.
Однако следует отметить, что построение описания данных может представлять интерес не только как этап обучения при одноклассовой классификации, а и само по себе, например, для исследования свойств пространства, в которое отображаются данные. В частности, ярким примером такой ситуации может служить исследование эволюционного пространства некоторого гена в метагеномике. Под эволюционным пространством гена в данном случае понимается пространство, в котором все возможные варианты гена (существовавшие, существующие или гипотетически возможные, но еще не реализовавшиеся) представлены точками, а расстояния между объектами соответствуют эволюционным расстояниям между вариантами.
Особый интерес для молекулярных биологов представляет исследование эволюционных процессов генов и их отображение в эволюционном пространстве. В частности, в лаборатории микробиологического мониторинга ГНУ ВНИИСХМ (г. Пушкин, Санкт-Петербург), изучающей таксономическую структуру почвенных микробиомов, был выдвинут ряд гипотез о поведении эволюционного процесса, например, гипотеза о том, что в
68
процессе эволюции реализуется схема радиального расширения от некоторого предкового варианта гена и происходит его «вымывание» с образованием гиперполости в эволюционном пространстве (рис. 1) [2].
Таким образом, обнаружение гиперполости в эволюционном пространстве позволило бы определить место локализации общего предка существующих вариантов исследуемого гена и подтвердило бы предположения о ходе глобальной эволюции. Кроме того, обнаружение гиперполости, по-видимому, может оказаться полезным и в других прикладных областях.
Рис. 1. Гипотетическое развитие процесса эволюции гена с образованием гиперполости, связанной с «вымыванием» предковых
вариантов гена
Наиболее распространенные методы визуализации данных, такие как метод главных компонент [3], проецирующие объекты в двух- или трехмерное пространство и используемые в том числе и для отображения процессов эволюции [4] не позволяют наблюдать наличие гиперполости. В то же время, гиперполость может быть видна на некоторых сечениях эволюционного пространства [2]. Однако поскольку положение гиперполости заранее неизвестно, то такой подход, фактически, оказывается связан с необходимостью перебора большого количества различных (по наклону и расположению) сечений исследуемого пространства, которое, как правило, является многомерным. Более того, методы визуализации данных не содержат инструмента для определения формальных параметров гиперполости, например, таких как координаты ее центра и радиус.
В связи с этим, в рамках данной работы ставится и решается задача поиска в линейном пространстве гиперполости наибольшего радиуса. Предложенная постановка задачи и алгоритмы ее решения позволяют найти гиперполость как в линейном пространстве действительных признаков объектов, так и в пространстве, порожденном потенциальной функцией — действительнозначной симметричной функцией двух аргументов, имеющей смысл скалярного произведения [5, 6].
Применение потенциальных функций делает алгоритмы более гибкими, позволяя, оставаясь в рамках одной и той же постановки задачи, идентифицировать гиперполости не только сферической формы, а также
обеспечивает возможность применения предложенного подхода в случаях, когда на объектах не могут быть измерены значения достаточно информативных признаков, что характерно, в частности, для анализа биомолеку-лярных последовательностей, сигналов различной природы и изображений.
Поиск наибольшей гиперполости внутри гиперсферы в линейном пространстве действительных признаков
Пусть дано N объектов, представленных п -мерными векторами их
действительных признаков X; є Яп, І = 1,..^ . Кроме того, пусть в том же
пространстве Яп задана гиперсфера, содержащая предположительную область локализации гиперполости, и полностью характеризующаяся ее центром А є Яп и радиусом Я .
Будем искать гиперсферу с центром а є Яп и максимальным радиусом г, не содержащую объектов и расположенную внутри некоторой заданной гиперсферы с центром А є Яп и радиусом Я (рис.2).
Рис. 2. Гиперполость с центром а и радиусом г внутри гиперсферы
с центром А и радиусом Я
Формально данная задача может быть записана в виде задачи максимизации с ограничениями-неравенствами:
где й(х,у) — расстояние между двумя точками х,у е Яп.
Очевидно, что точка максимума (а, г) не изменится, если целевую функцию и ограничения возвести в квадрат:
г ® тах(а, г), г £ й(а,X;), І = 1,...,N, й(А, а) £ (Я - г),
(1)
2
r ® max (a, r),
r2 £ d2(a,xi), i = 1,...,N,
d2(A, a) £ (R-r)2,
(2)
(3)
Запишем задачу (2) в форме Лагранжа, не учитывая пока последнее ограничение:
2 N Г 2 21
L(г, а, X) = г + X 1 й (х7-,а) - г , 1 > 0, і = 1,...,N
і=1
Приравнивая частные производные L(r, а, X) по г и по а к нулю, получим следующие соотношения:
N N
X *і = 1 а = X *і хі • і =1 і =1
Вернемся к исходной формулировке задачи (1). Заметим, что, поскольку радиус максимизируется, то его значение неизбежно должно оказаться равным расстоянию от центра окружности а до ближайшего к нему объекта:
г = шіп й(а, Хі). і=1,..., N
Таким образом, задача (1) может быть переписана в эквивалентной форме, без N ограничений-неравенств:
шіп й(а, Хі) ® шах(а), і=1,..., N
й(А,а) £ Я - шіп й(а,х7-). і=1,..., N
С учетом найденных ранее соотношений (3), задача (4) примет вид:
(4)
ґ
min d i=1,..., N
N
Е XJ xJ > xi
IJ=1
/
d
N
A, Е1 xi
V i=1
\ Ґ
£ R - min d i=1,...,N
N
Е XJ xJ > xi
V j =1
(5)
N
X 1/ = 1, 1/ > 0, i = 1,...,N i=1
Данный подход во многом опирается на метод Support Vector Data Description (SVDD) для нахождения гиперсферы минимального радиуса, окружающей данные [1], в результате чего наследует некоторые его положительные свойства, обеспечивающие удобство практического применения [7, 8]. В частности, решением задачи (5) являются N коэффициентов,
составляющих линейную комбинацию, определяющую центр гиперсферы. Следует отметить, что на практике лишь небольшое количество коэффициентов оказываются не равными нулю и участвуют в описании центра гиперсферы. Эти коэффициенты соответствуют объектам, расположенным на границе гиперсферы, вследствие чего их естественно назвать опорными, аналогично опорным объектам, определяющим центр описанной гиперсферы в БУББ.
Однако, следует отметить, что в отличие от БУББ, данный подход приводит не к задаче квадратичного программирования, а к многоэкстремальной задаче с ограничениями, решение которой является более трудоемким и обсуждается ниже в соответствующем разделе.
Потенциальные функции и их свойства
В ряде практических ситуаций, например, при анализе биомолеку-лярных последовательностей, сигналов или изображений, трудно заранее указать набор полезных признаков, позволяющих сформировать признаковое пространство, удобное для анализа. В таких случаях часто используют подход, основанный на применении потенциальных функций.
Потенциальная функция — симметрическая действительная функция двух аргументов, матрица значений которой неотрицательно определена для любой конечной совокупности объектов [5,6].
Пусть О — множество из N объектов щ еО, I = 1,...,N, представленных матрицей их попарных сравнений, обладающей свойствами потенциальной функции К(ю,, Wj ), ю,, Wj I = 1,..., N .
Потенциальная функция К (ю,, Wj), согласно [9], порождает евклидову метрику
и погружает множество объектов О в евклидово действительное линейное
Простейшая (линейная) потенциальная функция может быть построена на основе признакового описания объектов X; = х (ю;-), X; е Яп:
или может быть вычислена напрямую [10, 11], минуя явное измерение векторов признаков объектов.
Кроме линейной потенциальной функции принято выделять семейства полиномиальных
(6)
пространство О ^ О, в котором играет роль скалярного произведения
(Ю, оу) = К(ю, оу) •
Кїіп(юі, ) [х(ю )] х(юу) хі ху
(7)
и радиальных потенциальных функций
72
2
Кгаё(«і,«у) = ехР («і,«у) , а> 0,
(9)
где й (ю,, ) — евклидово расстояние между объектами ю,, Wj еО.
Поиск наибольшей гиперполости в линейном пространстве, порожденном потенциальной функцией
Пусть А е Г2 — некоторая точка, определяющая центр внешней гиперсферы, ограничивающей поиск гиперполости, не обязательно совпадающая с каким-либо реальным объектом, и Я — радиус этой гиперсферы.
Если в линейном пространстве выбран базис, то центр и объекты могут быть представлены векторами соответствующей длины, и задача, в сущности сводится к задаче (5) поиска гиперполости в признаковом пространстве, с единственным уточнением, что в качестве евклидова расстояния й в формуле (5) используется расстояние, порожденное потен-
циальной функцией (6).
В более общем случае, когда базис не выбран, центр может быть задан в виде линейной комбинации реальных объектов
N
В частности, именно в такой форме определяется центр гиперсферы минимального радиуса, согласно традиционному методу опорных векторов для описания данных при обучении одноклассовому распознаванию —
По-прежнему, будем искать гиперсферу максимального радиуса г , не содержащую объектов, только в данном случае будем делать это не в терминах признакового пространства, а в терминах евклидова линейного пространства с метрикой (6), порождаемого потенциальной функцией. Соответственно, и центр гиперсферы будем искать среди элементов этого пространства а є ГІ.
Следует обратить внимание, что для радиальной потенциальной
функции (9) исходная евклидова метрика і и евклидова метрика
р , порождаемая потенциальной функцией согласно (6) принципи-
ально не совпадают. В результате, геометрическое место точек, определяющее гиперсферу в пространстве с метрикой р не является ги-
персферой в пространстве с метрикой і , что делает предложенный
подход более гибким, позволяя находить гиперполости не только сферической формы.
Аналогичную ситуацию можно наблюдать и для полиномиальной потенциальной функции.
(10)
і=1
БУББ [1].
С учетом выражения для евклидовой метрики, порождаемой потенциальной функцией (6), а также с учетом линейности потенциальной функции относительно сложения и умножения на коэффициент, задача поиска гиперполости (2) примет вид:
Ґ \
2 NN
r = т т 1 ,'itK (w і, wt
N
ТIj 1 tK(wj,wt)+ min ІК(w,,w,)- 2Т 1 jK(wi,Wj)
V
J=1 у
j=1t=1 i=l,-> N,
N N 2
H ^(w,wj)(m;mj+hhj -21imj)£ (R- r) , (11)
i=1 j=1
N
x 1i = 1, 1i > 0, i = 1,...,N. i=1
Следует обратить внимание, что в формуле (11), как и в (5), оптимизация ведется исключительно по коэффициентам линейной комбинации X, а радиус r полностью выражается через них и присутствует в формулировке задачи с целью сокращения формы записи ограничения-неравенства, фактически имея статус условного обозначения конструкции, определяющей критерий оптимизации.
Поскольку задача (11) представляет собой ни что иное, как запись в других терминах (в терминах потенциальных функций) задачи (5), то она наследует ее основные свойства, которые обсуждались ранее.
Решение многоэкстремальной задачи максимизации с ограничениями
Задачи (11) и (5), возникающие при поиске гиперполости, имеют похожую структуру. По своей природе это многоэкстремальные задачи с линейным ограничением-равенством, а также линейными и нелинейными ограничениями-неравенствами.
Вообще говоря, известно достаточно много методов глобальной оптимизации, которые могут быть применены для решения данной задачи [12, 13, 14], поэтому разработка специального метода для решения сформулированных задач не является предметом данной статьи.
В рамках проведенного экспериментального исследования для оптимизации был выбран алгоритм GlobalSearch, реализованный, в частности, в рамках пакета глобальной оптимизации (Global Optimization Toolbox) в среде MatLAB.
Основная идея алгоритма GlobalSearch заключается в многократном запуске процедуры локальной оптимизации и включает в себя эвристическую процедуру ScatterSearch для генерации дополнительных начальных точек, опирающуюся на уже найденные локальные экстремумы, с целью улучшения глобального решения [15].
Данный алгоритм является достаточно надежным и эффективным,
позволяя в большинстве случаев достигать глобального максимума [15], и не требует специальной настройки.
Экспериментальное исследование
В рамках данной работы экспериментальное исследование проводилось на модельных данных, в качестве которых использовались сгенерированные случайным образом точки на плоскости.
На первом этапе поиск полости (в данном случае окружности максимального радиуса) проводился в исходном признаковом пространстве в соответствии с задачей (5). Результаты, полученные для нескольких вариантов исходных данных представлены на рисунке 3. Из рисунка 3 видно, что в каждом случае предложенный подход позволил верно идентифицировать полость.
Рис. 3. Результат поиска полости в исходном признаковом
пространстве
На втором этапе поиск полости осуществлялся в пространстве, порожденном потенциальной функцией. На рисунке 4 приведены результаты поиска полости в пространстве, порожденном радиальной (9) потенциальной функцией для разных значений параметра а.
При поиске полости с применением радиальной потенциальной функции использовался тот же набор точек, что и на правом примере на рисунке 3.
Рис. 4. Результат поиска полости в пространстве, порожденном потенциальной функцией с разными значениями параметра а
Из рисунков 3 и 4 видно, что поиск гиперполости в пространстве, порожденном потенциальной функцией, позволяет более точно определить границы полости. Однако, как и в ряде других задач анализа данных, в данном случае появляется структурный параметр а от выбора конкретного значения которого существенным образом зависит решение задачи. Естественным является желание осуществлять автоматический выбор наиболее подходящего значения данного параметра, но этот аспект является предметом отдельного исследования, которое планируется провести в дальнейшем.
Заключение
В данной работе поставлена и решена задача поиска в линейном пространстве оптимальной гиперсферы максимального радиуса, не содержащей данные.
Данная задача, которую можно отнести к классу задач описания данных, сформулирована как в терминах признакового пространства, так и в терминах потенциальных функций, что делает предложенный подход более гибким и применимым в случаях, когда на объектах не могут быть измерены векторы достаточно информативных признаков, а также позволяет идентифицировать гиперполости не только сферической формы.
С математической точки зрения сформулированная задача является многоэкстремальной задачей с линейным ограничением-равенством и линейными и нелинейными ограничениями-неравенствами. Многоэкстре-мальность является неизбежной, поскольку является следствием естественной разреженности данных.
Как и следовало ожидать, решение многоэкстремальной задачи, является трудоемким и существующие методы глобальной оптимизации не всегда позволяют найти глобальный экстремум. В то же время, проведенное экспериментальное исследование на модельных данных показывает, что выбранные средства глобальной оптимизации в большинстве случаев позволяют достичь глобального максимума целевой функции и верно идентифицировать полость. К тому же проблема многогоэкстремальности полностью снимается при наличии доступа к вычислителям, позволяющим осуществлять параллельную обработку данных, поскольку поиск глобального экстремума может быть естественным образом разбит на серию параллельных поисков локальных решений из различных начальных приближений и последующим выбором из них глобального решения.
Следует отметить, что в приведенной постановке задачи никак не учитывается возможное наличие так называемых "случайных выбросов" (outliers), аналогично случайным выбросам в задаче поиска гиперсферы минимального радиуса, описывающей данные.
В ряде практических ситуаций может оказаться, что, исключая некоторые объекты (небольшое количество), можно построить гиперсферу значительно большего радиуса, чем учитывая все данные. В этом случае
естественным является рассмотрение таких объектов как "случайных выбросов", допуская возможность нахождения объектов внутри гиперполости, но ограничивая их количество путем введения в целевую функцию соответствующего штрафа. Формулирование расширенной постановки задачи с учетом наличия возможных случайных выбросов, а также проведение экспериментального исследования на реальных данных для исследования эволюционного пространства гена 16S рРНК составляет план ближайших дальнейших исследований.
Список литературы
1. Tax D. One-class classification; Concept-learning in the absence of counterexamples // Ph.D thesis. Delft University of Technology, ASCI Dissertation Series. 2001. 146 p.
2. Дольник А. С., Тамазян Г. С. и др. Концепция универсальной таксономической системы бактерий: эволюционное пространство гена 16S-pPHK v. 1.0 // Сельскохозяйственная биология, 2012. No. 12. P. 111-120.
3. Gorban A.N., Kegl b., Wunch D., Zinovyev A.Y. (Eds.) Principal Manifolds for Data Visualization and Dimension Reduction // Series: Lecture Notes in Computational Science and Ehgineering 58. Springer. 2008. XXIV. 340 p.
4. Lee S.H., Hwang K.S., Lee H.R. at al. Embedding operational taxonomic units in three-dimensional space for evolutionary distance relationship in phylogenetic analysis // Proc. 5th WSEAS Int. Conf. on circuits, systems, electronics, control and signal processing. USA, 2006. P. 192-196.
5. Mercer T. Functions of positive and negative type and their connection with the theory of integral equations // Philosophical Transactions of the Royal Society of London. Series A, Containing Papers of a Math. or Phys. Character (1896-1934), 1909. Vol. 209. № 1. P. 415-446.
6. Айзерман М.А., Браверман Э.М., Розоноэр Л.И. Метод потенциальных функций в теории обучения машин. Москва: Наука, 1970. 384 с.
7. Ларин А.О., Середин О.С. Параметризация цветового представления изображения пламени с использованием одноклассового классификатора //Известия ТулГУ, Серия Технические науки. Тула: Изд-во ТулГУ. Вып. 3. 2012. C. 201-211.
8. Ларин А.О., Середин О.С. Модели представления объектов в
пространстве цветовых компонент при анализе изображений // Известия ТулГУ, Технические науки. Тула: Изд-во ТулГУ. Вып. 2, 2013.
С. 207-216.
9. Моттль В.В. Метрические пространства, допускающие введение линейных операций и скалярного произведения // ДАН. 2003. Т.67, №1.
10. Scholkopf B., Tsuda K., Vert J. P. eds. Kernel Methods in Computational Biology. MIT Press, 2004.
11. Ben-Hur A., Ong S., Sonnenburg S., Scholkopf B., Ratsch G. Support Vector Machines and Kernels for Computational Biology // PLoS Computational Biology, 2008.
12. Horst R., Pardalos P.M., Thoai N.V. Introduction to Global Optimization, Second Edition. Kluwer Academic Publishers, 2000.
13. Neumaier A. Complete Search in Continuous Global Optimization and Constraint Satisfaction // Acta Numerica, Cambridge University Press, 2004. P. 271-3б9.
14. Mongeau M., Karsenty H., Rouze V., Hiriart-Urruty J.-B. Comparison of public-domain software for black box global optimization // Optimization Methods and Software 13 (3), 2000. P. 203-22б.
15. Zslot U., Lasdon L., John C., Plummer C., Kelly J., Marti R. Scatter Search and Local NLP Solvers: A Multistart Framework for Global Optimization // INFORMS Journal on Computing, 2007. Vol. 19. № 3. P. 328-340.
Губарева Анна Александровна, студент, [email protected], Россия, Тула, Тульский государственный университет,
Ларин Александр Олегович, аспирант, ekzehox agmail. com, Россия, Москва, Московский физико-технический институт,
Середин Олег Сергеевич, канд. физ.-мат. наук, доцент, [email protected], Россия, Тула, Тульский государственный университет
Сулимова Валентина Вячеславовна, канд. физ.-мат. наук, доцент, [email protected], Россия, Тула, Тульский государственный университет
FINDING THE LARGEST HIPERCAVITY IN A LINEAR DATA SPACE GubarevaA.A., LarinA.O., Seredin O.S., SulimovaV.V.
This paper proposes the definition and the decision of the problem of finding a hypercavity as a data-free hypersphere with a maximal radius. This problem is formulated here as multiextremal problem with constraints in a linear feature space and in a linear space, produced by a kernel function. In accordance with the proposed approach, which succeeds to the one-class SVM, a center of a hypersphere is found as a linear combination of some small quantity of so called "support" objects. Experiments with the model data demonstrates that obtained decisions are true.
Key words: Data description, finding hypercavity, multiextremal optimization, linear spaces, kernel functions, one-class classification.
Gubareva Anna Alexandrovna, student, a. a. gubare va cr yandex. ru, Russia, Tula, Tula State University,
Larin Alexander Olegovich, PhD student, ekzebox@^gmail.com, Russia, Moscow, Moscow physical technical institute,
Seredin Oleg Sergeevich, candidate of physical and mathematical sciences, docent of chair of information security, [email protected], Russia, Tula, Tula state university,
Sulimova Valentina Vyacheslavovna, candidate of physical and mathematical sciences, docent of chair of information security, [email protected], Russia, Tula, Tula state university