Научная статья на тему 'Приложение задачи о -медиане с предпочтениями клиентов для кластерного анализа клеток рака'

Приложение задачи о -медиане с предпочтениями клиентов для кластерного анализа клеток рака Текст научной статьи по специальности «Математика»

CC BY
88
12
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КЛАСТЕРНЫЙ АНАЛИЗ / ДИСКРЕТНАЯ ОПТИМИЗАЦИЯ.

Аннотация научной статьи по математике, автор научной работы — Климентова Ксения Борисовна

Рассмотрено приложение задачи о -медиане с предпочтениями клиентов к решению задачи кластерного анализа клеток рака по образцам экспрессии генов и действия медикаментов.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Приложение задачи о -медиане с предпочтениями клиентов для кластерного анализа клеток рака»

МАТЕМАТИЧЕСКОЕ МОДЕЛИРОВАНИЕ В ЗАДАЧАХ ДИНАМИКИ И УПРАВЛЕНИЯ

Климентова К.Б.

УДК 519.854.2

ПРИЛОЖЕНИЕ ЗАДАЧИ О Р-МЕДИАНЕ С ПРЕДПОЧТЕНИЯМИ КЛИЕНТОВ ДЛЯ КЛАСТЕРНОГО АНАЛИЗА КЛЕТОК РАКА

1. Введение. Технологическое развитие последних десятилетий ведет к накоплению большого количества информации в различных областях науки. В связи с этим все более актуальными являются задачи, связанные с обработкой данных, в частности, задачи кластерного анализа [4]. В таких задачах имеется некоторое множество объектов, которое необходимо разбить на заданное число групп схожих объектов, называемых кластерами. Затем в каждой группе выявляется наиболее «типичный» представитель - медиана. Схожесть объектов обычно оценивают расстоянием между векторами, описывающими объект, вычисленным в определенной метрике. Для решения задачи кластерного анализа известно большое количество методов, таких как K-means, linkage [4, 7, 9]. Одним из альтернативных подходов к решению задачи кластеризации является использование методов дискретной оптимизации. Например, задача кластерного анализа может быть сформулирована в виде хорошо известной задачи комбинаторной оптимизации - задачи о p -медиане [5]. В данной задаче рассматривается граф, в котором каждой вершине сопоставлен один из объектов. Расстояние между вершинами (вес дуг) определяется схожестью соответствующих объектов. Таким образом, чтобы разбить исходное множество на определенное количество кластеров (скажем, p), необходимо найти p медианных вершин графа, минимизирующих сумму весов дуг до остальных вершин.

На практике применение такого подхода к решению задачи кластеризации мало распространено, так как его применение связано с серьезными вычислительными трудностями. Используемые задачи дискретной оптимизации оказываются NP -трудными, т.е. сложность решения задачи растет экспоненциально относительно ее размерности. Однако накопленный опыт решения такого сорта

задач позволяет успешно работать с примерами достаточно большой размерности [2, 5].

Большое значение играют задачи кластерного анализа данных в генетике. Например, в [12, 13] рассматривалась задача выявления взаимосвязей между образцами экспрессии генов и действия медикаментов в злокачественных клетках. Авторами работы [12] было проведено исследование 60 колоний человеческих клеток (п = 60) из 9 различных видов рака (Ь = 9): рак прямой кишки, почек, яичек, молочной железы, простаты, легких, ЦНС, а также лейкемия и меланома. Для каждой клетки измерены образцы экспрессии генов с помощью технологии кДНК микроматриц для 1375 генов, кроме того, оценены 40 молекулярных мишеней. Помимо этого для каждой колонии клеток протестировано 1400 лекарственных препаратов [12], некоторые из которых применяются на практике для борьбы с раком.

Таким образом, исследуемые 60 колоний клеток представлены двумя матрицами. Первая матрица А - (т1 х п) -матрица действия медикаментов, т1 = 1400; вторая матрица Т значений экспрессии генов имеет размерность (т2 х п) , т2 = 1415. Стоит задача разбить колонии клеток на определенное количество групп сходных друг с другом колоний (кластеры), используя информацию из обеих матриц А и Т [12, 13]. В данной задаче кластеризации возникают две матрицы, определяющие расстояние между каждой парой колоний клеток. Как правило, в такой ситуации применяются различные свертки двух матриц.

В данной работе предлагается использовать для решения задачи кластеризации колоний клеток задачу о р -медиане с предпочтениями клиентов [1-3]. Такая задача относится к классу двухуровневых задач целочисленного линейного программирования, поэтому имеющиеся матрицы расстояний могут быть использованы в целевых

функциях верхнего и нижнего уровней данной задачи. Для предложенного подхода был проведен вычислительный эксперимент с использованием различных метрик для вычисления расстояния между клетками и различными значениями параметра р (количество кластеров). Сравнение с расчетами для классической задачи о р -медиане подтвердило эффективность такого подхода для рассмотренной практической задачи кластеризации колоний клеток.

2. Задача о р -медиане с предпочтениями клиентов. Задача о р -медиане с предпочтениями клиентов представляет собой специальный случай классической задачи о р -медиане, где предполагается, что прикрепление немедианных вершин к медианам осуществляется не на основании матрицы схожести объектов, а из некоторых предпочтений. В связи с этим в такой задаче возникает двухуровневая структура, которая создает дополнительные трудности при решении. Прежде чем переходить к постановке задачи, обратимся к вопросу вычисления матрицы схожести. Как уже упоминалось, для измерения схожести объектов,

представленных векторами в пространстве Ят, можно использовать различные способы, например, метрики (евклидова, Манхэттен), коэффициент корреляции [12, 13]. В данном случае было выбрано два вида измерений.

В первом способе измерения расстояния между колониями клеток используется коэффициент корреляции Пирсона. Значения экспрессии генов и действия медикаментов для каждой колонии были отцентрованы, поэтому значение коэффициента корреляции для каждой пары векторов равно косинусу угла между ними

corrij = cos(v!, v}) =

v , v

vv

где V, V1 е Ят1(Ят2) - это столбцы матрицы А ( Т, соответственно), 1,] = 1,...,п . Тогда расстояние между двумя колониями 1 и ] может быть выражено следующим образом:

dist11 = 1 - соггу. (1)

Второй способ измерения расстояния, который использовался для данной задачи, это евклидова метрика. Отметим, что для этой метрики векторы-столбцы матриц А и Т не были отцентрованы. Таким образом, расстояние между двумя колониями клеток в данном случае выражается следующей формулой:

distj = v - vj I = £ v - vi )2,

(2)

(i=i

где д = т1 или т2, соответственно, для матриц А и Т , 1,1 = 1,.,п .

Обозначим через О и О матрицы расстояний, вычисленные по одному из правил (1) или (2), для матриц А и Т , соответственно.

Перейдем к постановке задачи о р -медиане с предпочтениями клиентов. Пусть дан полный, взвешенный ориентированный граф О(У, А), где

V = {1,..., п} - множество вершин графа, А = {у:1 еV, ] еV,i Ф]} - множество дуг графа. Матрица С = {су}, 1] е А, определяет веса дуг (расстояние между объектами), матрица В = {Ьу}, 1] е А, задает предпочтения: если

Ъу < Ь2у, то вершина ] будет прикреплена к вершине 11 в случае, если обе вершины 11 и 12 являются медианами. Причем в общем случае предполагается, что су Ф Ьу . Кроме того, задан параметр

задачи число р еЪ+, определяющий количество кластеров. Стоит задача выбрать в точности р медианных вершин, минимизируя суммарное расстояние до немедианных вершин и учитывая при этом предпочтения.

Для представления математической модели данной задачи в виде задачи целочисленного линейного программирования (ЦЛП) введем следующие бинарные переменные:

Г1, если вершина 1 - медиана,

у = 10

10 в противном случае;

X,- = <

|1,

если j вершина относится к кластеру, определяемому медианой i,

10 в противном случае, где i е V, ij е A . Тогда сформулированная задача может быть записана в виде следующей двухуровневой задачи ЦЛП:

min £ cijXj(y\ (3)

У ijeA

£ У = P, (4)

ieV

yf е {0,l}, i eV, (5)

где x(y) - решение задачи нижнего уровня:

mxin £ bJXj, (6)

ijeA

£ Xj + yi = 1, Vi eV, (7)

jeV j

МАТЕМАТИЧЕСКОЕ МОДЕЛИРОВАНИЕ В ЗАДАЧАХ ДИНАМИКИ И УПРАВЛЕНИЯ

Ху < У,, , ^, у е А,

Ху е

{0,1},

у е А.

(8) (9)

Целевая функция (3) задачи верхнего уровня минимизирует суммарный вес дуг от медианных вершин к немедианным. Целевая функция (6) задачи нижнего уровня гарантирует, что прикрепление к медианам будет осуществляться согласно предпочтениям. Ограничение (4) на верхнем уровне определяет количество медиан. Ограничение (7) на нижнем уровне гарантирует, что каждая вершина является либо медианой, либо имеет одну входящую дугу из медианной вершины. Неравенства (8) исключают существование выходящих дуг из немедианных вершин, ограничения (5) и (9) задают условия бинарности переменных.

Сформулированная таким образом задача имеет естественную двухуровневую структуру. На верхнем уровне выбирается множество медианных вершин, минимизируя расстояние до немедианных (3), в то время как на нижнем уровне происходит прикрепление немедианных вершин к выбранным на верхнем уровне медианам, минимизируя функцию предпочтений (6). Допустимая точка в такой задаче представляет собой р «звезд», вершины которых образуют кластеры с медианами посредине (см. рис. 1).

Рис. 1. Допустимая точка в задаче о р -медиане с предпочтениями клиентов

Таким образом, предлагается использовать матрицы расстояний О и О на верхнем и нижнем уровнях представленной задачи о р -медиане с предпочтениями клиентов. Множество вершин V = {1,...,п} в этом случае будет представлять собой множество колоний клеток. В результате решения такой задачи будет получено некоторое разбиение колоний клеток на кластеры, учитывающее информацию о действии медикаментов и образцы экспрессии генов.

Известно [1, 3, 8], что для рассмотренной двухуровневой задачи ЦЛП (3)-(9) можно предложить формулировку в виде одноуровневой задачи ЦЛП.

С этой целью введем обозначения Жу = {к е V:Ьу < Ьку } у е А . Тогда рассмотренную

двухуровневую задачу (3)-(9) можно записать в виде следующей одноуровневой задачи ЦЛП:

(10) (11) (12) (13)

Ш1П

У

X

уеА

С Х

у у

У' + XХу < 1,, е V,у е А,

кеШ„

X у, = Р'

iеV

XХу + у, = 1, УiеV,

jеV ¿Ф у

Ху < у,, , еV ,у е А, (14)

у, Ху е{0,1}, , еV ,у е А. (15)

Для оптимального решения такой задачи ЦЛП все ограничения исходной задачи (3)-(9) будут выполнены, а ограничения (11) гарантируют

выполнение предпочтений, т.е. матрица х е {0,1}А будет оптимальным решением задачи нижнего уровня при любом выборе у е {од}к'. Действительно, если , - медиана (т.е. у, = 1), то вершина у не будет прикреплена к менее предпочтительным вершинам множества Шу . Отметим, что формулировка (10), (12)-(15), т.е. без ограничений (11), представляет собой формулировку классической задачи о р -медиане, в которой не учитывается матрица предпочтений В .

Традиционным методом решения задач ЦЛП является метод ветвей и отсечений [11], в основе которого лежит стратегия «разделяй и властвуй». Допустимая область (т.е. множество допустимых точек) разделяется на непересекающиеся подобласти, и задача решается на каждой из них в отдельности. Кроме того, данный метод предполагает использование неравенств (отсечений), с помощью которых улучшается нижняя оценка оптимального значения задачи. Для многогранника задачи (10)-(15) известен ряд семейств неравенств [2, 6]. Эти неравенства использовались при поиске оптимального решения в задаче (10)-(15) методом ветвей и отсечений.

3. Вычислительный эксперимент. Для решения задач ЦЛП при проведении вычислительного эксперимента использовался коммерческий

решатель Хрге88-МР [10], в котором реализован упомянутый выше метод ветвей и отсечений.

Результаты работы для задачи о р -медиане с предпочтениями клиентов сравнивались с расчетами для классической задачи о р -медиане, т.е. без учета второй матрицы (формулировка (10), (12)-(15)).

Для оценки качества получаемых кластеров принято пользоваться различными коэффициентами [13]. Для указанного типа задач обычно под-считывается средний коэффициент корреляции Пирсона

р 2

1 F

R=1 £

n^

j=1K -

1 £ corrik, 1

,keKj i<k

где К. - это . -й кластер. Чем больше значение

коэффициента Я, тем лучше результаты кластеризации с точки зрения сходства внутри кластера согласно коэффициенту корреляции. Средний коэффициент корреляции Я вычислялся двумя способами. В первом случае в качестве матрицы корреляции использовалась матрица, подсчитанная для матрицы А (значений действия медикаментов) соггО, в этом случае мы будем обозначать соответствующий средний коэффициент Пирсона через ЯО. Во втором случае использовалась матрица корреляции экспрессии генов еогг°, и соответствующий коэффициент будет обозначаться Я°.

Кроме того, вычислялось значение энтропии для полученных кластеров [13]

/ \ N..

K

1 ^

Е=- п ££ Nfl

п . =1 I=1 ^ ^

где Ь - это количество органов, из которых были взяты клетки, N. - это количество клеток из органа I в . -м кластере. Чем больше значение энтропии, тем меньше отвечает структура кластеров распределению по органам, из которых были получены данные колонии клеток.

Проведенные вычислительные эксперименты можно разбить на две группы.

В первом случае в качестве матрицы верхнего уровня С выступает матрица О , а в качестве матрицы нижнего уровня В - матрица ° . В классической задаче о р -медиане в данной группе используется только матрица О, а матрица ° не учитывается.

Во втором случае наоборот, на верхнем уровне используется ° , а на нижнем - О .В

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

классической задаче о p -медиане используется лишь матрица G .

Для каждой группы проводились расчеты с двумя значениями параметра p (количество кластеров), а именно, 9 и 16, а также с использованием двух способов измерения схожести объектов (см. раздел 2).

Таким образом, результаты для первой группы экспериментов представлены в табл. 1, 2, соответственно, для двух различных способов вычисления расстояний между объектами.

В таблицах использовались следующие обозначения. Name - имя задачи, которое конструируется следующим образом: p - (type) - (matrix(,

где p - количество кластеров(медиан) ; (type) -

тип задачи, BL обозначает, что решалась задача о p -медиане с предпочтениями клиентов, и pmed означает, что решалась классическая задача о p -медиане без учета второй матрицы (формулировка (10), (12)-(15)); (matrix) - главная матрица (D,

если C = D, и G , если C = G). Time - время поиска оптимального решения. Жирным шрифтом в таблицах выделены лучшие значения коэффициентов.

В табл. 1 расстояние вычислялось с помощью коэффициента корреляции.

Таблица 1

Значения коэффициентов C = D и B = G. Расстояние вычислялось с использованием коэффициента корреляции

Name Time E rd rg

9-BL-D 70.81 0.985 0.7379 0.4699

16-BL-D 12.11 0.6305 0.7733 0.4854

9-pmed-D 0.06 1.1732 0.7955 0.3398

16-pmed-D 0.06 0.9577 0.7283 0.3215

Результаты работы для задачи 16-ВЬ-Б выглядят лучшими для данной серии расчетов. Несмотря на то, что значение коэффициента ЯО в этом случае хуже на 0.02, чем лучшее значение, тем не менее оба коэффициента лучше, чем в литературе [13]. В работе [13] наилучшие из полученных авторами значения коэффициентов не превосходят 0.35.

Результаты вычислений для евклидовой метрики представлены в табл. 2.

МАТЕМАТИЧЕСКОЕ МОДЕЛИРОВАНИЕ В ЗАДАЧАХ ДИНАМИКИ И УПРАВЛЕНИЯ

Таблица 2

Значения коэффициентов C = D и B = G. Евклидова метрика

Name Time E rd rg

9-BL-D 36.5 0.9098 0.6982 0.4553

16-BL-D 12.84 0.5559 0.7392 0.4869

9-pmed-D 0.06 1.2936 0.7915 0.3544

16-pmed-D 0.17 0.9946 0.7139 0.3225

Данные результаты согласуются с результатами для расстояний, вычисленных с помощью коэффициента корреляции. Вновь результаты для задачи 16-БЬ-Б выглядят наиболее удачными. Кроме того, здесь было получено лучшее значение энтропии.

Результаты расчетов для второй группы экспериментов представлены в табл. 3, 4. Как упоминалось, в классической задаче о р -медиане и на верхнем уровне задачи о р -медиане с предпочтениями клиентов использовалась матрица О .

Таблица 3

Значения коэффициентов C = О и B = О. Расстояние вычислялось с использованием коэффициента корреляции

Name Time E rd rg

9-BL-G 34.45 1.1482 0.793 0.4115

16-BL-G 77.22 0.8553 0.7361 0.4138

9-pmed-G 0.05 0.6984 0.6506 0.5415

16-pmed-G 0.06 0.5558 0.5559 0.5189

Таблица 4

Значения коэффициентов C = G и B = D. Евклидова метрика

Name Time E Rd rg

9-BL-G 9.5 1.0786 0.7943 0.4114

16-BL-G 14.48 0.8939 0.7308 0.4071

9-pmed-G 0.05 0.8214 0.6502 0.5109

16-pmed-G 0.05 0.6346 0.6356 0.5329

Как ни странно, результаты для задачи о р -медиане с предпочтениями клиентов (9-БЮ и 16-БЮ) в данных таблицах по коэффициентам RО оказались хуже, чем в табл. 1, 2, несмотря на то, что матрица О использовалась на верхнем уровне.

По результатам проведенных вычислительных экспериментов можно также заметить, что

наилучшие значения коэффициентов RD и RG были получены при решении классической задачи о p -медиане с соответствующими матрицами расстояний. Однако, если анализировать оба коэффициента одновременно, то результаты работы для задачи о p -медиане с предпочтениями клиентов выглядят более сбалансированными. Действительно, например, в табл. 1 для задачи 9-pmed-D было получено лучшее значение коэффициента

Rd , однако Rg имеет одно из самых худших значений среди всех экспериментов.

Резюмируя вышеизложенное, можно сделать вывод, что задача о p -медиане с предпочтениями клиентов более адекватно отражает специфику данной задачи, благодаря учету информации из обеих матриц и может быть использована для решения такого сорта задач кластеризации.

БИБЛИОГРАФИЯ

1. Алексеева, Е.В. Генетический локальный поиск для задачи о p -медиане с предпочтениями клиентов / Е.В. Алексеева, Ю.А. Кочетов // Дискретный анализ и исследование операций.

- 2007. - T. 14, № 1. - C. 3-31.

2. Васильев, И.Л. Новые нижние оценки для задачи размещения с предпочтениями клиентов / И.Л. Васильев, К.Б. Климентова, Ю.А. Кочетов // Журн. выч. мат. и матем. физики. - 2009.

- Т. 49, № 6 (в печати).

3. Горбачевская, Л.Е. Двухуровневая задача стандартизации с условием единственности оптимального потребительского выбора / Л.Е. Горбачевская, В.Т. Дементьев, Ю.В. Шамардин // Дискретный анализ и исследование операций. - 1999. - Т. 6, № 2. - С. 3-11.

4. Мандель, И.Д. Кластерный анализ / И.Д. Ман-дель. - М: Финансы и статистика, 1988. - 176 с.

5. Avella, P. Computational study of large-scale p-median problems / P. Avella, A. Sassano, I. Va-sil'ev // Mathematical Programming. — 2007. - V. 109, № 1. - P. 89-114.

6. Cánovas, L. A strengthened formulation for the simple plant location problem with order / L. Cánovas, S. García, M. Labbé, and A. Marín // Operations Research Letters. - 2007. - V. 35, № 2. - P. 141-150.

7. Eisen, M.B. Cluster analysis and display of genome-wide expression patterns / M.B. Eisen, P.T. Spellman, P.O. Brown, D. Botstein // Proc. of the National Academy of Science of the USA. Genetics. - 1998. - V.95. - P. 14863-14868.

8. Hanjoul, P. A facility location problem with clients' preference orderings / P. Hanjoul and D. Peeters // Regional Sci. Urban Econom. - 1987. -V. 17. - P. 451-473.

9. MacQueen, J.B. Some methods of classification and analysis of multivariate observations / J.B. MacQueen // Proc. of the fifth Berkeley symposium of mathematical statistics and probability. -Berkley: University of California Press, 1967. - P. 281-297.

10. Xpress-MP. - http://www.dashoptimisation.com

11. Nemhauser, G.N. Integer and Combinatorial Optimization / G.N. Nemhauser and L.A. Wolsey. -

Косов А.А., Овrцненко Е.В.

N.Y.: A Wiley-Interscience Publication, 1999. -766 p.

12. Scherf, U. A gene expression database for the molecular pharmacology of cancer / U. Scherf, D.T. Ross, M. Waltham, L.H. Smith et al // Nature Genetics. - 2000. - V. 24. - P. 236-244.

13. Zhang, B.T. Analysis of gene expression profiles and drug activity patterns by clustering and baye-sian network learning. Methods of Microarray Data Analysis II / B.T. Zhang, J.H. Chang, K B. Hwang. - Dordrecht: Kluwer Academic Publishers, 2002. - P. 169-184.

УДК 004.94

ИНФОРМАЦИОННАЯ СИСТЕМА ДЛЯ АНАЛИЗА И ПРОГНОЗИРОВАНИЯ ГРУЗОПЕРЕВОЗОК НА ВСЖД НА ОСНОВЕ ОБРАБОТКИ СТАТИСТИЧЕСКИХ ДАННЫХ И ЭКСПЕРТНЫХ ОЦЕНОК

Введение. Данные по грузовым перевозкам на железных дорогах вводятся, корректируются, хранятся и обрабатываются в различных существующих информационных системах, местных или доступных для персонала различных дорог. Каждая такая информационная система предназначена для узконаправленных целей и выполняет определенные задачи. Проанализировав существующие системы, их функции и технологическую схему передачи данных между ними, можно сказать, что функции ввода информации по грузоперевозкам, ее корректировки осуществляются, отлажены и полностью удовлетворяют предъявляемым требованиям в различных системах, но задачи системного анализа данных и особенно прогнозирования не соответствуют современным требованиям, необходимо их дальнейшее развитие. В существующих системах предусмотрены функции вывода информации в табличном виде для статистической отчетности. Задача динамического анализа информации, накопленной более чем за 10 лет, более масштабная, чем вывод и сравнение отчетов, не реализована ни в одной системе, как и задача прогнозирования - получения прогнозов на будущее, которые, в свою очередь, могли бы повлечь за собой некоторые управленческие решения. Для ре-

шения задач прогнозирования на основе статистических данных о ходе процесса на предшествующем интервале времени существует множество математических методов и подходов, сравнительный анализ эффективности некоторых из них приведен в [1]. Необходимо отметить, что при применении любого математического метода обработки статистических данных прогнозирование по существу связано с экстраполяцией выявляемых тенденций на будущее, что далеко не всегда позволяет адекватно учесть непосредственно в математической модели имеющиеся у специалистов высокого уровня (экспертов) сведения о возможных и даже вполне ожидаемых изменениях хода протекания процесса. В такого рода ситуациях прогнозирование поведения сложных технических, экономических, экологических, социальных, военных, гуманитарных и других систем может быть успешным и должно осуществляться не только с учетом статистических данных, но и с обязательным привлечением экспертной информации [2]. Такой комплексный подход, основанный на одновременном использовании статистической и экспертной информации, давно и успешно применяется [3] и хорошо себя зарекомендовал при решении разнообразных прикладных задач.

i Надоели баннеры? Вы всегда можете отключить рекламу.