УДК 004.852 + 577.112
ИСПОЛЬЗОВАНИЕ ГРАДИЕНТНОГО БУСТИНГА ДЕРЕВЬЕВ РЕШЕНИЙ ДЛЯ ПРЕДСКАЗАНИЯ СТАБИЛЬНОСТИ ВОДОРОДНОЙ СВЯЗИ В БЕЛКЕ
П.Н. Дружков, Н.Ю. Золотых
Метод градиентного бустинга деревьев решений используется для предсказания стабильности водородной связи в молекуле белка. Данный подход позволяет улучшить качество предсказания по сравнению с методом [1], использующим одиночные деревья решений.
Ключевые слова: деревья решений, градиентный бустинг, водородная связь, белок.
Наиболее распространенным в настоящее время методом определения стабильности водородной связи молекул белка является энергетический подход. К сожалению, он не позволяет с большой точностью прогнозировать время существования связи. Для более точного предсказания можно использовать свойства локального окружения связанных атомов. Например, в [1] стабильность водородной связи предсказывается на основе 32 показателей, что позволяет существенно повысить качество по сравнению с моделью, использующей лишь энергию связи. В качестве модели в [1] используется дерево решений с алгоритмом CART [2], модифицированным с учетом специфики задачи. В настоящей работе вместо одиночного дерева используется градиентный бустинг деревьев решений (gradient boosting trees) [3, 4]. Эксперименты показали, что качество предсказания при этом улучшается.
В качестве меры стабильности водородной связи Н возьмем функцию ст(H, с, Д), где с - конфигурация белка в нулевой момент времени; Д - промежуток времени, для которого рассчитывается стабильность (подробности см. в [1]). Задача заключается в построении аппроксимации с для этой функции. В качестве предикативных переменных рассматриваются 32 показателя, среди которых есть как постоянные во времени характеристики (атомы, между которыми существует связь, аминокислотные остатки, содержащие эти атомы и т.д.), так и изменчивые кинематические показатели (расстояния, углы и т.д.). Чтобы снизить влияние температурного шума на значения кинематических характеристик, выполняется их усреднение по 50 предыдущим по времени конфигурациям белка.
Обучение модели и оценка ее качества проводилась следующим образом. Поочередно данные о водородных связях траектории каждого белка из 6 рассматриваемых [1] объявлялись тестовыми. Из показателей существующих связей оставшихся 5 траекторий формировалась выборка, на которой производилась настройка модели, причем из данных для каждого белка случайным образом выбиралось лишь 10% от общего числа присутствующих водородных связей. Эксперимент повторялся 10 раз для каждого тестового белка. Таким образом, всего было обучено 60 моделей. Такой подход позволяет оценить не только качество предсказания стабильности связи, но и независимость данного подхода от исследуемого белка.
Использовались следующие параметры алгоритма градиентного бустинга деревьев решений: функция штрафа - квадратичная; число деревьев - 1000; максимальная глубина деревьев - 3; параметр регуляризации (shrinkage) - 0,05; доля обучающей выборки, используемая на каждой итерации алгоритма - 0,6.
На тестовой выборке вычислялись следующие показатели качества модели: корень квадратичной ошибки RMSE(c) (Root Mean Square Error) и уменьшение ошибки относительно оптимальной константной модели с0: RBED(c, с0) (Relative Base Error Decrease). В таблице приведены средние значения RBED для каждого тестового набора данных для построенной модели и для метода [1], использующего одиночное дерево глубины 5. Применение градиентного бустинга позволило добиться лучших результатов по сравнению с одиночным деревом решений, а, следовательно, и с энергетической моделью. Значительное улучшение получено на данных complex.
Белок 1c9oA 1e85A 1eia 1g9oA 1 1g9oA 2 complex
Дерево решений [1], % 46,92 59,37 42,6 50,93 45,29 37,9
Градиентный бустинг, % 50,09 60,7 44,93 52,84 47,78 47,65
Таблица. Средние значения RBED для каждого тестового набора (белка)
Работа выполнена в рамках программы «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2007-2013 годы», государственный контракт № 11.519.11.4015.
1. Chikalov I., Yao P., Moshkov M., Latombe J.C. Learning probabilistic models of hydrogen bond stability from molecular dynamics simulation trajectories // Journal of Intelligent Learning Systems and Applications. - 2011. - № 3. - P. 155-170.
2. Breiman L., Friedman J., Olshen R., Stone C. Classification and Regression Trees. - Wadsworth, 1983. -232 P.
3. Friedman J.H. Greedy function approximation: a gradient boosting machine. Technical report. - Stanford University, Dept. of Statistics. - 1999. - 22 р.
4. Дружков П.Н., Золотых Н.Ю., Половинкин А.Н. Программная реализация алгоритма градиентного бустинга деревьев решений // Вестник Нижегородского государственного университета им. Н.И. Лобачевского. - 2011. - № 1. - С. 193-200.
Научно-технический вестник Санкт-Петербургского государственного университета информационных технологий, механики и оптики, 2011, № 6 (76)
Дружков Павел Николаевич - Нижегородский государственный университет им. Н. И. Лобачевского, студент, [email protected]
Золотых Николай Юрьевич - Нижегородский государственный университет им. Н. И. Лобачевского, кандидат физ.-мат. наук, доцент, [email protected]
УДК 004.89
КОНТЕКСТНЫЙ ПОДХОД К РЕАЛИЗАЦИИ ИНТЕЛЛЕКТУАЛЬНЫХ СИСТЕМ И.А. Бессмертный, А.С. Балгайракова, Д.В. Ковбаско
Развивается контекстный подход к представлению и извлечению знаний в интеллектуальных системах, обеспечивающий автоматическое расширение контекста во время выполнения поискового запроса. Ключевые слова: контекст, интеллектуальные системы, допущение открытого мира.
Интеллектуальные системы традиционно дискриминируются в зависимости от используемого допущения открытого или замкнутого мира. В замкнутом мире применяется принцип «отрицание как неудача» (negation as failure), часто приводящий к ложным выводам. При допущении открытого мира результат умозаключения, вытекающего из отсутствия факта, порождает состояние «неизвестно». Однако возведение концепции открытого мира в абсолют может привести к тому, что единственный ответ, который сможет дать информационная система - это сократовское «Я знаю, что ничего не знаю». Развитие концепции семантической паутины делает возможным создание глобальной интеллектуальной системы [1], для которой извлечение знаний представляет более сложную проблему, чем наполнение контентом, что делает проблему логического вывода в сложных интеллектуальных системах весьма актуальной.
В настоящей работе предлагается контекстный подход к когнитивным рассуждениям, заключающийся в том, что каждая аксиома в базе знаний привязывается к контексту с, в котором является истинной. Множество контекстов С={с} образует иерархическую структуру. Если факт принадлежит некоторому контексту, то его истинность сохраняется в контекстах нижних уровней, но не наоборот. Подобный подход реализован в проекте CYC компании CyCorp (www.cyc.com) в виде микротеорий. Микротеория объединяет в себе множество знаний, относящихся к данной предметной области, и поисковый запрос ограничивается ею, реализуя тем самым допущение замкнутого мира. Кроме того, необходимость явного указания микротеории в качестве одного из атрибутов поискового запроса делает невозможной автоматическую генерацию запросов интеллектуальным агентом, поскольку только разумный выбор контекста определяет успех поиска решения.
Отличие подхода авторов состоит в том, что семантическая сеть, описывающая базу знаний некоторого контекста, может содержать понятия из других контекстов. Такие понятия оформляются в виде внешних ссылок вида ext(a, c), где a - атом, принадлежащий контексту с. Если в ходе выполнения запроса развертывается вершина семантического графа с внешней ссылкой, происходит переключение контекста, и дальнейшие рассуждения выполняются в новом контексте. Тем самым обеспечивается автоматическое расширение контекста за счет внешних атомов, вовлекаемых в процесс рассуждений. Результатом поискового запроса будет не только установление истинности или ложности проверяемой гипотезы или присвоение значений переменным, но также и уровень контекста, на котором решение найдено.
Таким образом, предлагаемый подход с управляемым контекстом позволяет автоматически расширять пространство поиска решений, делая поиск доступным для интеллектуального агента. Данный подход в настоящее время развивается в программе Semantic, предназначенной для исследования методов онтологического инжиниринга и визуализации знаний, а также в лабораторном практикуме дисциплин «Искусственный интеллект» и «Интеллектуальные системы» [2].
1. Бессмертный И.А. Семантическая паутина и искусственный интеллект // Научно-технический вестник СПбГУ ИТМО. - 2009. - № 6 (64). - С. 77-83.
2. Bessmertny I.A. Knowledge Visualization Based on Semantic Networks // Programming and Computer Software. - М., 2010. - V. 36. - № 4. - P. 197-204.
Бессмертный Игорь Александрович - Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики, кандидат технических наук, доцент, [email protected] Балгайракова Аида Саиновна - Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики, студент, [email protected]
Ковбаско Дмитрий Васильевич - Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики, студент, [email protected]
Научно-технический вестник Санкт-Петербургского государственного университета информационных технологий, механики и оптики, 2011, № 6 (76)