Опыт применения метода информационного структурного резонанса в задачах анализа данных ДНК микрочипов

Дюк В.А.; Толстоногов Д.А.

2

Биомедицинская информатика

УДК 577.71:528.854

В. А. Дюк, д-р техн. наук,

Д. А. Толстоногов, канд. физ.-мат. наук,

Санкт-Петербургский институт информатики и автоматизации РАН

Опыт применения метода информационного структурного резонанса в задачах анализа данных ДНК-микрочипов

Ключевые слова: биоинформатика, ДНК-микрочип, интеллектуальный анализ данных, информационный структурный резонанс.

Рассматривается специфика биомедицинских данных. Анализируются современные проблемы интеллектуального анализа данных. Описывается технология поиска логических закономерностей в данных на основе эффекта информационного структурного резонанса. Рассматривается приложение данного метода к решению задач медицинской диагностики на основе данных ДНК-микрочипов в рамках конкурса RSCTC'2010 Discovery Challenge. Полученные результаты показывают, что, несмотря на использование упрощенных процедур препроцессинга, бустинга, бэг-гинга и метода случайных подпространств, метод информационного структурного резонанса эффективен и конкурентоспособен. Указаны ресурсы увеличения эффективности метода в задачах анализа ДНК-микрочипов.

Введение

В модернизации современного общества ВйЖНЕЯ роль принадлежит биомедицинской информатике — науке, изучающей структуру и свойства информации в живых системах, а также вопросы, связанные с ее сбором, хранением, переработкой, преобразованием и использованием в различных целях на разных уровнях организации живых систем. Сегодня в биомедицинской информатике фундаментальный интерес представляют две цели:

• создание новых биологически активных веществ;

• разработка новых способов медицинской диагностики.

Как подчеркивают авторитетные специалисты, только изыскания в указанных областях дают надежду на получение результатов, позволяющих российской науке вступить на инновационный путь развития [1]. Успешное достижение поставленных целей обеспечивается благодаря комплексу качественно новых научно-технических решений в об-

ластях молекулярной биологии, физики, биохимии, нанотехнологий, высокопроизводительных информационно-компьютерных технологий и др. [2]. Его важным компонентом являются разработка и совершенствование новых математических инструментов для анализа нетривиальной биомедицинской информации. Этому вопросу посвящена настоящая статья. Прежде всего, рассматривается специфика биомедицинских данных, описываются современные подходы так называемого интеллектуального анализа данных (Data Mining), представлена характеристика технологии поиска логических закономерностей в данных на основе эффекта информационного структурного резонанса, анализируются результаты и оцениваются перспективы применения этого метода в задаче медицинской диагностики на основе данных ДНК-микрочипов.

Специфика биомедицинских данных

Развитие биологии и медицины издавна обеспечивалось за счет эмпирических данных, их анализа и обобщения. Однако информационный прорыв этих областях начался только в середине XX века, когда благодаря техническим средствам исследователи получили возможность работать с постоянно увеличивающимися потоками данных о биологических объектах. В конце прошлого века в связи со стремительным совершенствованием микроэлектроники и компьютерной техники этот поток стал напоминать лавину. Вместе с тем формальное возрастание потока информации больше придает актуальности вопросам о методах ее обработки, чем дает ответов. Эти вопросы отражают общие проблемы информационных технологий в части, касающейся анализа данных в предметных областях со сложной системологией.

С позиций специалистов по прикладной статистике в задачах исследования живых систем, как в фокусе, сконцентрированы многие проблемы анализа данных. Решая задачу поиска взаимосвязи комплекса измерений с целевыми переменными, напри-

мер диагностическими или прогностическими, в первую очередь обращает на себя внимание ряд особенностей анализируемых данных:

• пропущенные значения;

• несбалансированные выборки;

• разнотипность описания;

• неопределенность описания;

• нечеткость критериев;

• русла и джокеры;

• асимметрия классов;

• неоднородность классов;

• нечеткие интервалы;

• высокая размерность;

• выбросы.

Особо следует отметить современную концепцию русел и джокеров, которая была сформулирована специалистами по синергетике и определяет особенности построения моделей для объектов со сложной системной организацией [3]. Русла представляют собой подпространства общего пространства описания объектов, в которых можно построить модели, с высокой точностью отражающие устойчивые взаимосвязи между эмпирическими данными. Джокеры — области пространства описания, где таких устойчивых связей нет, и поэтому надо полагаться на случай. Поиск русел и джокеров связан с оперированием огромным количеством возможных подпространств и моделей в исходном пространстве описания.

Описанная специфика биомедицинских данных определила отнесение задачи разработки и развития методов анализа таких данных к разряду необходимого условия решения фундаментальных проблем биомедицинской информатики. «Будущее анализа данных может привести к большому прогрессу, к преодолению реальных трудностей, к оказанию большой помощи всем областям науки и техники. Будет ли это так? Это зависит от нас, от нашего желания встать на каменистый путь реальных проблем вместо гладкой дороги нереальных предпосылок, произвольных критериев и абстрактных результатов, не имеющих реалистической направленности» — эти слова Дж. Тьюки, сказанные еще в 1962 году, становятся все более актуальными в наши дни.

Интеллектуальный анализ данных

Поиск, описание и структурирование закономерностей в предметных областях с нечеткой систе-мологией требуют особых математических и алгоритмических подходов. Сегодня последние наиболее активно развиваются в рамках направления интеллектуального анализа данных. К настоящему времени по теме «интеллектуальный анализ данных» написаны десятки книг. Количество статей тоже весьма велико: при подготовке данной статьи мы получили примерно 2,5 млн ссылок на это словосо-

четание в поисковике Google. Кратко охарактеризуем основные аспекты этого обширного направления в анализе данных.

В результате совершенствования технических средств для получения, записи и хранения информации специалисты вынуждены работать с колоссальными потоками разнородных данных. Вместе с тем традиционная математическая статистика оказалась неспособной обеспечить продуктивное решение ряда актуальных задач, относящихся к различным предметным областям (поиск закономерностей в многомерных данных, построение диагностических и прогностических моделей, выявление сложных непериодических паттернов в динамических рядах и др.). Одна из причин — концепция усреднения по выборке, приводящая к тому, что совершаются операции с фиктивными величинами. Кроме того, практически отсутствуют аналитические критерии для оценки достоверности взаимосвязей и ре-гулярностей в многомерных данных и др.

Направление «интеллектуальный анализ данных» сформировалось как один из вариантов выхода из сложившейся проблемной ситуации. В настоящее время термин «Data Mining» (раскопка данных) является синонимом появившегося позже, в 1989 году, термина «обнаружение знаний в базах данных». В русском языке область, очерченная вышеупомянутыми терминами, нередко обозначается словосочетанием «интеллектуальный анализ данных» (НАД).

Исходное определение дал наш бывший соотечественник Г. И. Пятецкий-Шапиро: «Data mining — это процесс обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности» [4].

В настоящее время НАД развивается в двух направлениях. Ряд специалистов делают акцент на обработке сверхбольших объемов данных. Здесь предъявляются повышенные требования к быстродействию алгоритмов, естественно, в ущерб оптимальности результатов. Другая группа специалистов, к которой принадлежат авторы данной статьи, концентрирует внимание на глубине раскопки данных в контексте задач биомедицинской информатики. С их точки зрения, технология НАД обладает следующими характеристиками:

• НАД — это всегда сугубо многомерные задачи: поиск связи между значением целевого показателя и набором значений группы других показателей базы данных.

• Технология НАД позволяет обрабатывать разнородную информацию, то есть поля могут быть представлены количественными, качественными и текстовыми переменными.

• Технология НАД не претендует на поиск взаимосвязей, характерных для полного объема данных (всей выборки), что отличает ее от традиционных

биотехносфера

| № 5-Б (11-123/2010

статистических методов. Ведется поиск правил, связывающих значения показателей, для подвыборок данных (см. выше о руслах и джокерах). При этом правила всегда высокоточные, а не «размытые» по всей выборке, общие и неточные статистические тенденции.

• Алгоритмы НАД производят поиск указанных выше подвыборок данных и точных взаимосвязей для них в автоматическом режиме.

Таким образом, ключевые слова — точность, многомерность, разнотипность данных, автоматический поиск. Конечно, еще нужно добавить важное требование интерпретируемости получаемого результата, особенно актуальное для медико-биологических исследований.

Дополнительную информацию можно найти на многочисленных сайтах Ннтернета, среди которых один из самых информативных — портал упомянутого выше Г. Н. Пятецкого-Шапиро [5]. Также весьма полезным является популярный ресурс [6] — репозиторий данных иС1 Университета г. Нрвин (Калифорния, США), история которого началась в 1987 году. Здесь можно найти множество данных и ссылок на примеры решения задач из самых разных областей, в том числе относящихся к теме исследования живых систем.

Методы НАД имеют много общего с методами решения задач классификации, диагностики и распознавания образов. Как отмечалось выше, одной из их главных отличительных черт является функция интерпретации закономерностей, положенных в основу правил вхождения объектов в классы эквивалентности. Поэтому большое распространение получили логические методы. Есть еще одна важная причина, обусловившая приоритет логических методов. Она заключается в сложной системной организации областей, составляющих предмет приложения современных информационных технологий. Как правило, эти области относятся к надки-бернетическому уровню организации систем, закономерности которого не могут быть достаточно точно описаны на языке статистических или иных аналитических математических моделей. Гибкость и многообразие логических конструкций индуктивного вывода нередко позволяют добиваться успешных результатов при описании таких сложных систем.

Другие методы НАД для построения диагностических и прогностических моделей имеют менее прозрачную интерпретацию. Сюда относятся байесовские классификаторы, дискриминантный анализ, нейросетевой подход, метод ближайших соседей, метод опорных векторов, генетические алгоритмы и др. Как показала практика последнего десятилетия, в ряде задач (особенно в бизнес-приложениях, где требуется анализировать огромные базы данных) требование интерпретируемости результатов стало отступать на задний план. Делается акцент на стабильности получаемых решений. Более того, на передний план начали выходить методы работы

с комитетами, содержащими сотни и тысячи методов и алгоритмов. Как выяснилось, подобные комитеты, состоящие даже из слабых алгоритмов, способны превосходить по точности изолированные сильные алгоритмы, нацеленные на поиск глубоких закономерностей в массивах данных. Эта тенденция современного НАД нуждается в самостоятельном рассмотрении. Здесь наблюдается явное отступление от изначальных идеалов НАД, связанных с попытками извлечения знаний из данных, а не построением моделей в виде «черных ящиков».

При работе с комитетами алгоритмов сегодня широко используются два общих технологических приема или метода, имеющих чрезвычайную важность для НАД. Это бустинг (boosting) и бэггинг (bagging — сокращение от «bootstrap aggregation»). Эти приемы предназначены для повышения обобщающей способности получаемых моделей — способности выдавать правильные результаты не только для примеров, участвовавших в процессе обучения, но и для любых новых, не участвовавших в процессе обучения данных. Кратко охарактеризуем эти два приема.

Ндея бустинга предложена в конце 1980-х годов в контексте вопроса об эквивалентности слабого и сильного обучения. Бустинг реализует процедуру последовательного построения композиции алгоритмов машинного обучения, когда каждый следующий алгоритм стремится компенсировать недостатки композиции всех предыдущих алгоритмов. В течение последних 10 лет бустинг остается одним из наиболее популярных методов НАД. Основные достоинства: простота, универсальность, гибкость (возможность построения различных модификаций) и, главное, высокая обобщающая способность.

Бустинг деревьев решений считается одним из наиболее эффективных методов решения задач классификации. В ряде экспериментов наблюдалось практически неограниченное уменьшение частоты ошибок на независимой тестовой выборке по мере наращивания композиции. Более того, на тестовой выборке качество часто продолжало улучшаться даже после достижения безошибочного распознавания всей обучающей выборки. Это изменило существовавшие долгое время представления о том, что для повышения обобщающей способности необходимо ограничивать сложность алгоритмов. На примере бустинга стало понятно, что хорошим качеством могут обладать сколь угодно сложные композиции, если их правильно настраивать.

Теоретическое обоснование эффективности бустинга связано с тем, что взвешенное голосование сглаживает ответы алгоритмов, входящих в комитет. Эффективность бустинга объясняется тем, что по мере добавления базовых алгоритмов увеличиваются отступы обучающих объектов. Причем бустинг продолжает раздвигать классы даже после достижения безошибочной классификации обучающей выборки.

Бэггинг — это метод формирования ансамблей классификаторов с использованием случайной вы-

борки с возвратом или бутстрепа. Он был предложен в 1994 году [7].

При формировании бутстреп-выборок из множества данных случайным образом отбирается несколько подмножеств. Так как отбор производится случайно, набор примеров в этих подмножествах будет различным: некоторые из них могут быть отобраны по нескольку раз, а другие — ни разу. Затем на основе каждого подмножества (выборки) строится классификатор. Выходы полученных классификаторов комбинируются (агрегируются) путем голосования или простого усреднения. Считается, что результат будет намного точнее любой одиночной модели, построенной на основе исходного набора данных.

В целом, как было отмечено выше, за последнее десятилетие в области интеллектуального анализа данных произошли существенные изменения. Слово «интеллектуальный» теперь нужно воспринимать скорее в контексте автоматического построения классифицирующих и прогнозирующих моделей. Поиск индивидуально сильных методов и алгоритмов для основной массы специалистов НАД стал не столь привлекательным: их интересы сместились в сторону умений работать с большими коллективами слабых методов и алгоритмов.

Вместе с тем проблема построения сильных моделей, на наш взгляд, не потеряла своей актуальности. По-видимому, сильные модели являются более пригодными для интерпретации и объединяются в менее громоздкие коллективы для достижения эффективных результатов при решении задач классификации и прогнозирования. Ниже будет рассмотрен подход к поиску в данных сильных логических правил, основанный на представлениях локальной геометрии и эффекте информационного структурного резонанса.

Метод поиска логических правил в данных на основе эффекта информационного структурного резонанса

Наиболее часто в матрице данных X = {xtj}, i = 1, N; j = 1, p производится поиск if-then правил в виде конъюнкции элементарных логических условий:

R- : IF ^ = (условие 1) л (условие 2) л... л (условие L) THEN В- = (условие М), (1)

где условие I задает область значений на признаках xk, I = 1, L, а условие М, как правило, задает значение (область значений) так называемого целевого показателя х^ , не входящего в антецедент^. Значение L называют рангом конъюнкцииА;.

Для характеристики if-then правила удобно использовать два основных показателя — точность и полноту. Точность правила Rij — это доля случаев В; среди случаев Полнота правила — это доля

случаевА; среди случаев В у. Если какое-либо правило Я;у при заданной точности имеет полноту больше, чем правило Ящ Ц Ф к), то правило Я;у называют более сильным. Также нередко говорят, что Я;у является более информативным, чем Яу.

Поиск в матрице данных X наиболее сильных правил является экстремальной комбинаторной задачей и в общем случае требует полного перебора всех допустимых конъюнкций элементарных логических условий. Уже при сравнительно небольшом количестве признаков полный перебор становится невозможным даже при использовании высокопроизводительной вычислительной техники. Поэтому на практике получили распространение алгоритмы поиска логических правил, использующие различные эвристические допущения. Наиболее популярные среди них — деревья решений, строящиеся в соответствии с принципом локальной оптимальности, и алгоритмы ограниченного перебора с рангом конъюнкции не более трех. Достаточно полный обзор подобных алгоритмов приведен в работе

[8]. Указанные алгоритмы способны находить сильные конъюнкции только в случаях простых структур данных в условиях независимости анализируемых признаков. При исследовании данных, отражающих сложные системные связи предметной области, эти алгоритмы выявляют главным образом слабые логические правила, обладающие низкой информативностью.

Нами ранее была предложена новая технология поиска логических закономерностей в данных, основанная на представлениях локальной геометрии и эффекте информационного структурного резонанса

[9]. Суть этой технологии заключается в следующем.

На подготовительном этапе производится переход от исходных признаков х; к бинарным переменным (^ равно 0 или 1), кодирующим элементарные события Т. Под элементарными событиями понимаются события (хг = а), (хг Ф а), (а < х; < Ъ), (х; < а), (х; > а), где а и Ъ — возможные значения х;. Выбор способа кодирования зависит как от типа признаков х;, так и от личных предпочтений исследователя.

С одной стороны, в бинарном пространстве, любой объект §; изображается точкой, расположенной в какой-либо вершине д-мерного единичного гиперкуба: = (§;, ..., §;)т, где д — общее количество бинарных переменных. С другой стороны, этот же объект представляет собой конъюнкцию элементарных событий. За счет такой двойственности представления объекта дальнейшая комбинаторная процедура поиска логических закономерностей получает геометрическое истолкование.

Комбинаторные ситуации выглядят как точки в образованном бинарном пространстве. Задача поиска логических закономерностей может быть сведена к проецированию точек исходного пространства событий в подпространства событий меньшей размерности, где логические закономерности выглядят как

биотехносфера

| № 5-6(11-12) 2010

точки этих подпространств, в которые попадает определенное количество объектов одинакового класса.

Для решения этой задачи выбирается объект gi, который называется опорным, для него конструируется собственное локальное пространство и определяется контекстно-зависимая локальная взвешенная метрика gj) того или иного типа, обеспечивающая релевантную контексту иерархию близостей (удаленностей) объектов (у = 1, N) относительно объекта gi.

В случае бинарных признаков наиболее естественной метрикой является локальная взвешенная метрика Хэмминга

Ъ (§) = ^Ду . (2)

где = - gjl\^ \gi2 - gj2|, - , \giq - gjq\)T; Щ =

= Щц, Wi2, ..., — весовой вектор. Следователь-

но, задача определения контекстно-зависимой локальной метрики заключается в нахождении линейного преобразования новой векторной переменной Д=\ gi ^ \. Ограничение на вид преобразования накладывается требованием неотрицательности компонент весового вектора (к = 1, q), так как различие объектов gi и gj по какому-либо бинарному признаку gfl должно обязательно приводить к увеличению расстояния gj) либо в случае = 0 вообще не сказываться на изменении расстояния gj).

Выделим некоторые важные свойства локального пространства:

• опорный объект gí располагается в начале координат локального пространства;

• линейная функция в локальном пространстве с неотрицательными коэффициентами имеет смысл взвешенного расстояния (в нашем случае взвешенного расстояния Хэмминга) от опорного объекта gí;

• если для некоторого подмножества объектов выполняется условие щТД^ где щ — весовой вектор с неотрицательными элементами, то на этом подмножестве истинно следующее логическое высказывание:

(= Ч) Л (ч= ч) л -л (Ч = Ч), (3)

где ц (I = 1, г) — индексы при ненулевых компонентах весового вектора щ; ^ = (0,1) — элемент бинарного вектора gi.

Еще одно свойство касается обратного перехода

от бинарных векторов • к элементарным логиче-

У/

ским условиям Т.- , заданным наисходных призна-

У/

ках х^ Оно заключается в следующем

№. = ^ при % = 1, (4)

К ^ \ пРи ч =

Для построения локальной метрики могут использоваться различные методы, ориентированные на максимизацию заданного критерия. Продуктивной зарекомендовала себя процедура активного фор-

мирования эффекта информационного структурного резонанса. В роли резонатора используется математическая модель метода наименьших квадратов щ = = )_1 , где — бинарный вектор зна-

чений целевой переменной в локальном пространстве; О^ — матрица бинарных данных в локальном пространстве. С помощью модели в локальном пространстве определяется ракурс, относительно которого около опорного объекта стремятся сгруппироваться объекты только его собственного класса. Применяемая далее итерационная процедура изменения указанного ракурса основана на исключении из анализа объектов с относительно высокими значениями невязки, что способствует увеличению жесткости модели-резонатора. Это выражается в ухудшении обусловленности матрицы и приводит в конечном итоге к известному феномену, когда незначительные возмущения в данных дают скачкообразные изменения значений весовых коэффициентов в уравнении множественной регрессии. Указанный эффект в традиционном понимании является негативным, и разработано достаточно большое число подходов для борьбы с ним, например метод гребневой регрессии. Однако в нашем случае все манипуляции с выборкой данных в итерационном процессе поиска логической закономерности, наоборот, направлены на получение этого эффекта, усиливающего выраженность явления информационного структурного резонанса. Конечно, при этом должны быть приняты специальные меры для обеспечения стабильности матричных операций на границе устойчивости.

В процессе исключения из анализа объектов с высокими невязками наступает такой момент, когда весовые коэффициенты Wi скачком изменяют свои значения и становятся равны 0 либо 1. При этом одновременно в точку опорного объекта gi так же скачком стягивается группа объектов его собственного класса. Эта группа описывается логическим выражением (3). Описанный метод назван нами методом информационного структурного резонанса (НСР).

На большом количестве специальных тестовых примеров метод НСР продемонстрировал способность находить в многомерных данных сильные правила вида (1). Эффективность метода НСР подтверждена рядом успешно решенных практических задач, относящихся к области медико-биологических исследований [10]. Ниже анализируется первый опыт применения этого метода в медико-диагностической задаче анализа данных ДНК-микрочипов.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Анализ ДНК-микрочипов методом информационного структурного резонанса

В последние годы исследованию данных биологических, в том числе ДНК-микрочипов, уделяется большое внимание. Экспоненциально растущий интерес в значительной степени мотивирован мно-

гочисленными важными практическими приложениями в медицинской диагностике, в разработке лекарственных препаратов и др.

Напомним, что биологический микрочип устроен следующим образом: на матрице-подложке расположено множество специальных ячеек, в которых содержатся молекулы-зонды. Это могут быть фрагменты ДНК, РНК или белки. Каждая ячейка является аналогом микропробирки, в которой происходит реакция между молекулами-зондами и молекулами исследуемой пробы, обработанными светящимися метками. Если эти молекулы подходят друг к другу как ключ к замку, происходит так называемая гибридизация: молекулы соединяются химическими связями. Ячейка, в которой произошла реакция, флуоресцирует. По интенсивности свечения ячеек в ДНК-микрочипах судят о величине экспрессии в биопробе тех или иных генов.

При анализе данных микрочипов исследователи сталкиваются с весьма специфической ситуацией, когда число изучаемых генов на два порядка превышает количество имеющихся образцов. Большинство стандартных алгоритмов классификации плохо справляются с решением задач столь высокой размерности и при малом числе примеров (объектов) почти гарантированно переобучаются. Кроме того, как правило, только малая часть из огромного числа проверяемых генов актуальна в контексте решаемых задач.

Исходные данные и критерий оценки результатов анализа. Исходные данные взяты из репозито-рия конкурса RSCTC'2010 Discovery Challenge [11], в котором мы приняли участие. Эти данные содержали от 20 000 до 65 000 признаков в зависимости от типов используемых микрочипов. Участникам конкурса (их было более 100) было предложено на основе представленных данных разработать алгоритмы для диагностики 24 классов медицинских пациентов, сгруппированные в шесть отдельных задач.

Помимо огромного количества признаков, анализируемые данные имели еще одну особенность: ряд диагностических классов в обучающей (и тестовой) выборке был представлен чрезвычайно малым количеством объектов. В ряде случаев количество объектов в классе не превышало 10.

Представленные конкурсантами решения оценивались с помощью критерия со сбалансированной точностью, не чувствительного к сильно различающимся объемам различных классов. Сбалансированная точность рассчитывается как усредненная точность классификации для каждого класса в отдельности. Таким образом, каждый класс имел одинаковый вклад в конечный результат независимо от его объема. Это существенно увеличивало цену ошибки на одном объекте для малых классов.

Процедура анализа. В условиях большого количества признаков (десятков тысяч) и малого объема диагностических классов чрезвычайно важное значение придается специально разработанным ме-

тодам предварительного отбора признаков с использованием методов кроссвалидации и различным процедурам, связанным с повышением обобщающей способности конструируемых диагностических алгоритмов. При этом в силу высокой трудоемкости упомянутых процедур для их реализации необходимо привлечение внушительных вычислительных ресурсов.

В период конкурса мы не располагали доступом к специальным вычислительным ресурсам (использовался обычный компьютер с двухъядерным процессором), и, кроме того, наши аналитические программы не были объединены в единый комплекс: препроцессинг осуществлялся с помощью Matlab, процедуры бустинга, бэггинга и генерации случайных подпространств производились в Excel, и поиск логических закономерностей в данных по методу информационного структурного резонанса проводился с помощью отдельной программы.

В силу указанных причин расчет на успешность результатов анализа данных ДНК-микрочипов был основан на высокой эффективности метода информационного структурного резонанса как такового. Вместе с тем все другие составляющие анализа были сильно загрублены. Так, предварительная селекция признаков производилась с помощью не достаточно изощренных методов, применявшихся другими участниками конкурса, а наиболее простого критерия Вилкоксона. Кроме того, из-за ограниченности в ресурсах для каждого диагностического класса отбиралось всего 30 наиболее информативных по этому критерию признаков. Н наконец, при реализации процедур бустинга, бэггинга и метода случайных подпространств мы ограничивались в среднем 50 генерациями случайных выборок.

Обсуждение результатов анализа. На рисунке приведены финальные результаты участников конкурса, показанные на тестовой (контрольной) выборке. Наивысший результат — сбалансированная

40

®

Щ30

к g

^

а >

® g

ОЧОЧОЧОЧО^О Ч О «1 о ч о о о о о о о о о о о о о о о о о Сбалансированная точность

Распределение финальных результатов

биотехносфера

| № 5-Б(11-12)/2010

точность по 24 диагностическим классам, равная 0,74. Результаты, идущие вслед за наивысшим, расположены очень плотно. Это свидетельствует о том, что в международном научном сообществе в настоящее время довольно много специалистов высокого класса, которые владеют инструментами ИАД и работает на близком уровне. Наш результат составил 0,67 и совпал с модой распределения. Мы преодолели все три квалификационные планки (baseline), которые установили организаторы соревнования, — 0,63; 0,64 и 0,65.

После окончания соревнования организаторы предоставили участникам доступ к реальным классифицирующим меткам объектов, что позволило более детально разобраться в ошибках. Анализ показал, что были явные успехи: несколько диагностических классов на тестовой выборке были распознаны нами со 100 %-й или близкой к этой величине точностью. Вместе с тем, как выяснилось, серьезные ошибки применения в конкретной задаче были допущены на шести малых классах (как говорилось выше, ошибки на объектах малых классов имеют большой вес при расчете сбалансированной точности). Подробный разбор причин ошибок показал, что они были сделаны в основном там, где по нашим критериям классифицируемые объекты попадали в зоны неопределенности (по нашей терминологии, это джокеры). Следовательно, мы должны бы были отказаться от принятия решения в зонах неопределенности. Тогда для оставшихся объектов точность классификации оказалась бы 0,9 и выше. На наш взгляд, при решении задач анализа данных в предметных областях со сложной системной организацией, было бы полезно использовать критерий оценки результатов, включающий и учитывающий категорию «отказ от принятия решения». Это особенно актуально, например, как в данном случае, для задач медицинской диагностики: нередко правильнее отказаться от принятия решения для определенной доли объектов, чем ставить сомнительные диагнозы.

Заключение

Несмотря на весьма упрощенную процедуру пре-процессинга и предварительной селекции признаков, метод информационного структурного резонанса

продемонстрировал свою эффективность и конкурентоспособность для решения задач медицинской диагностики по данным ДНК-микрочипов.

Ресурсы увеличения эффективности метода в задачах анализа ДНК-микрочипов прозрачны: эти задачи необходимо решать с использованием высокопроизводительных вычислительных средств, которые позволят тестировать в динамике различные виды препроцессинга исходных данных, делать предварительную селекцию значительно большего количества признаков и существенно расширить число вариантов генерации выборок в процедурах бустин-га, бэггинга и генерации случайных подпространств.

| Л и т е р а т у р а |

1. Арчаков А. И., Лисица А. В. Биоинформатика и биоинформационные технологии // Bioinformatix. Биоинформатика и познания: [Электронный ресурс]. Режим доступа: http: //www.bioinformatix.ru/bioinformatika/bio-informatika-i-bioinformatsionnyie-tehnologii.html. Дата обращения: 01.04.10.

2. О современной биоинформатике: Интервью с Н. А. Кол-чановым // Bioinformatix. Биоинформатика и познания: [Электронный ресурс]. Режим доступа: http:// www.bioinformatix.ru/content/view/346/35. Дата обращения: 01.04.10.

3. Капица С. П., Курдюмов С. П., Малинецкий Г. Г. Синергетика и прогнозы будущего. 2-е изд. М.: Эдиториал УРСС, 2001. 288 с.

4. Интеллектуальный анализ данных // MachineLearning.ru: [Электронный ресурс]. Режим доступа: http://www.machi-nelearning.ru/wiki/index.php?title=Data_Mining. Дата обращения: 01.04.10.

5. KDnuggets: [Электронный ресурс]. Режим доступа: www.kdnuggets.com. Дата обращения: 01.04.10.

6. UCI. Machine Learning Repository: [Электронный ресурс]. Режим доступа: http://archive.ics.uci.edu/ml. Дата обращения: 01.04.10.

7. Breiman L. Bagging predictors // Machine Learning. 1996. N 24. P. 123-140.

8. Воронцов К. В. Лекции по логическим алгоритмам классификации: [Электронный ресурс]. 2007. 48 с. Режим доступа: http://www.ccas.ru/voron/download/LogicAlgs.pdf. Дата обращения: 01.04.10.

9. Дюк В. А. Обработка данных на ПК в примерах. СПб.: Питер, 1997. 240 с.

10. Дюк В. А. Эмануэль В. Л. Информационные технологии в медико-биологических исследованиях. СПб.: Питер, 2003. 528 с.

11. Tunedit: [Электронный ресурс]. Режим доступа: http:// tunedit.org/challenge/RSCTC-2010-A. Дата обращения: 01.04.10.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Дюк В. А., Толстоногов Д. А.

Текст научной работы на тему «Опыт применения метода информационного структурного резонанса в задачах анализа данных ДНК микрочипов»