ИНТЕЛЛЕКТУАЛЬНЫЕ СИСТЕМЫ ДЛЯ АНАЛИЗА МЕДИЦИНСКИХ ДАННЫХ. Часть 1

В.К.Финн; В.Г.Блинова; Е.С.Панкратова; Е.Ф.Фабрикантова

Анализ данных

Мр

W-ЩШШ

kJH

I и информационные

технологии

В.К.ФИНН, В.Г.БЛИНОВА, Е.С.ПАНКРАТОВА, Е.Ф.ФАБРИКАНТОВА,

Всероссийский институт научной и технической информации Российской Академии наук, г.Москва

ИНТЕЛЛЕКТУАЛЬНЫЕ СИСТЕМЫ

ДЛЯ АНАЛИЗА МЕДИЦИНСКИХ ДАННЫХ.

Часть 1*

В статье представлен метод качественного анализа данных посредством компьютерных интеллектуальных систем и его применение для задач фармакологии и медицинской диагностики.

Части 2 и 3 статьи будут опубликованы в следующих номерах.

-----------------f

ВВЕДЕНИЕ

Клинические исследования воздействия лекарственных препаратов на больных с различными индивидуальными особенностями, в результате которых могут быть установлены эффективность и безопасность этих препаратов в зависимости от параметров, характеризующих индивидуальные особенности больных, могут быть поддержаны автоматизированным анализом клинических данных посредством интеллектуальных систем типа ДСМ («Джон Стюарт Милль») [1]. В данной статье рассмотрены различные применения интеллектуальных систем для задач фармакологии и медицинской диагностики.

ДСМ-системы основаны на следующем принципе: «сходство объектов вызывает наличие эффекта и его повторяемость, а не наоборот».

Эти системы реализуют ДСМ-метод автоматического порождения гипотез, который является формализованной эвристикой для установления причин (наличия или отсутствия) изучаемых эффектов, представленных в открытых (пополняемых) базах структурированных фактов, сходство которых выявляется посредством автоматизированных правдоподобных рассуждений. ДСМ-метод автоматического порождения гипотез состоит из трех познавательных процедур: индукции (порождения причин эффектов на основе обнаруженных сходств фактов), аналогии (правдоподобных выводов, использующих наличие положительных или отрицательных причин в фактах с неопределенной оценкой, требующей уточнения - наличия или отсутствия изучаемого эффекта) и, наконец, абдукции [2] (принятие гипотез посредством объяснения начального состояния базы фактов с помощью ((±)-причин, то есть гипотез, ответственных за наличие эффекта ((+)-причины) и за отсутствие эффекта ((-)-причины)). Метод анализа данных посредством ИС называется интеллектуальным анализом данных (ИАД) [3].

Таким образом, ДСМ-метод, будучи нестатистическим методом анализа данных, в состоянии учитывать индивидуальные особенности изучаемых объектов исследования, если их структура представлена информативно так, что используемые параметры достаточны для выявления сходства - генератора эффекта (то есть причины изучаемого явления).

*Работа выполнена при финансовой поддержке РФФИ (проект № 05-01-00914).

Анализ данных

Второй важной особенностью ДСМ-метода является его способность порождать полезные гипотезы на малых массивах данных благодаря выявленному сходству объектов, характеризуемых существенными параметрами.

Третья особенность ДСМ-метода анализа данных состоит в том, что он работает с открытыми массивами данных (а не с замкнутыми таблицами!), указывая на необходимость расширения базы фактов, если таковая возникает (это осуществляется посредством аб-дуктивного объяснения базы фактов). Сказанное является аргументом в пользу утверждения о том, что ДСМ-метод является полезным аппаратом доказательной медицины [4]. В самом деле, (±)-гипотезы о причинах эффектов, обнаруженные в базе фактов посредством выявления сходства, являются аргументами или контраргументами в пользу порождаемой интеллектуальной системой гипотезы о наличии или отсутствии изучаемого эффекта.

Примерами применения интеллектуальных систем типа ДСМ являются прогнозирование биологических активностей химических соединений (в том числе прогнозирование токсичности, канцерогенности и мутагенности с учетом дозы и способа введения вещества), прогнозирование результирующего канцерогенного эффекта (суммирования, синергизма и антагонизма активностей) при совместном введении двух химических соединений, прогнозирование путей биотрансформации ксенобиотиков посредством порождения достаточных условий метаболизма (с использованием необходимых условий - реакционных преобразований).

Логико-комбинаторные средства ДСМ-метода создают возможность изучения откликов различных подсистем организма на возникающие воздействия, если данные и знания информативно представлены в интеллектуальной системе и определено сходство на соответствующих объектах и их отношениях. В этом смысле интеллектуальные системы типа ДСМ являются инструментом поддержки медицинских исследований со сложно структурированными данными и множеством фактов, не обозримых без использования компьютерных технологий.

www.idmz.ru 2006, №5

ГЧЯЯ

I Ы.МЯЯ

I. ДСМ-МЕТОД АВТОМАТИЧЕСКОГО ПОРОЖДЕНИЯ ГИПОТЕЗ В ИНТЕЛЛЕКТУАЛЬНЫХ СИСТЕМАХ

Охарактеризуем теперь ДСМ-метод автоматического порождения гипотез (ДСМ-метод АПГ) как метод анализа данных [3, 5].

ДСМ-метод АПГ применим к данным и знаниям, для которых выполняются следующие условия: (а), (в)

и (с):

(а) Для применимости ДСМ-метода АПГ знания могут быть слабо формализованы, но данные должны быть хорошо структурированы, а это означает соответственно:

1) что предметная область описана неполно и возможна лишь частичная ее аксиоматизация (для медицинских данных характерна роль параметров, выражающих индивидуальные особенности организма и ситуационные факторы - например, условия жизни больного);

2) что определена операция сходства исследуемых объектов (например, описаний клинических данных больных; или химических веществ, имеющих изучаемые биологические активности и т.п.), такая, что ее результат имеет осмысленную интерпретацию (подчеркнем здесь снова, что ДСМ-метод АПГ - нестатистический метод анализа данных, реализующий принцип: сходство объектов определяет наличие эффекта и его повторяемость, а не наоборот).

(в) Предметная область, описание которой представлено в базе данных (далее будем ее называть базой фактов (БФ)), должна содержать позитивные примеры, негативные примеры и примеры неопределенности изучаемого эффекта (например, наличие или отсутствие биологической активности химических соединений или исследуемого заболевания, отображаемого в БФ историей болезни).

БФ для ДСМ-метода АПГ образована фактоподобными высказываниями вида «объект С имеет множество свойств А», которым приписаны оценки: «фактически истинно (1)», «фактически ложно (-1)», «фактически противоречиво (0)», «неопределенно (Т )». То есть фактом (в БФ) будем называть фактоподобные высказывания с приписанными оценками: 1, -1, 0, Т .

Анализ данных

Мр

W-ЩШШ

kJH

I и информационные

технологии

(с) В БФ в неявном виде содержатся зависимости причинно-следственного типа, которые могут быть представлены высказываниями вида «подобъект (часть объекта) В есть причина наличия (отсутствия) множества свойств А».

Условие (с) является весьма существенным для нестатистического анализа данных (то есть фактов из БФ). Оно характеризует предметную область посредством следующего допущения о ее природе: всякий позитивный факт из БФ ((+)-факт) имеет причину, в силу которой объект обладает соответствующим эффектом (множеством свойств); аналогично всякий негативный факт из БФ ((-)-факт) имеет причину, в силу которой объект не обладает соответствующим эффектом (множеством свойств). Эти допущения о позитивных и негативных причинах ((±)-причинах) будем соответственно называть аксиомами каузальной полноты (АКП(±)).

БФ такую, что для нее выполняются АКП(±), будем называть совершенной. Очевидно, что в такой БФ содержатся сведения об изучаемом эффекте, представленные достаточно информативно, что делает возможным порождение гипотез о причинно-следственных зависимостях, посредством которых может быть предсказано наличие или отсутствие эффектов у изучаемых объектов. Следует отметить, что реально существующие БФ имеют некоторую степень каузальной полноты § - отношение числа множества фактов, имеющих установленные причины ч(Ф"), к числу всех фактов из БФ ч(Ф):

ч(Ф') ,

ч(Ф) '

где Ф" и Ф множество фактов, имеющих (±)-причины, и множество всех фактов из БФ. Цель формирования информативной БФ - максимально возможное увеличение §, что делает моделируемость в БФ изучаемых эффектов более правдоподобной.

В науках о жизни (и, в частности, в медицине) поиск причинно-следственных зависимостей является важным аспектом научных исследований. Выявление таких зависимостей является не только средством объяснения изучаемых эффектов, но и основанием для

конструирования полезных объектов и методов (например, лекарств, методов анализа клинических данных, технических устройств для медицинских исследований и т.п.).

Таким образом, первой составляющей ДСМ-ме-тода АПГ являются точно характеризуемые условия его применения.

Второй составляющей ДСМ-метода АПГ являются правдоподобные рассуждения, формализующие эвристики типа «индукция + аналогия + абдукция». Эти рассуждения, называемые ДСМ-рассуждениями, реализованы в специальных компьютерных системах, называемых интеллектуальными системами. Это такие компьютерные системы, которые принимают решения посредством автоматизированных рассуждений, использующих базу эмпирических фактов (БФ) и необходимые дополнительные знания (они содержатся в базе знаний - БЗ).

ДСМ-рассуждение состоит из последовательного применения правил, порождающих гипотезы о причинах эффектов (правила 1-го рода), представленных в БФ (это правила выявления закономерностей причинно-следственного типа, представляющие обобщения посредством индукции - результата обнаружения сходства фактов), и правил для прогнозирования наличия (отсутствия) эффектов объектов из БФ -правила 2-го рода (аналогии).

Правила 1-го рода (индукция) осуществляют поиск и извлечение закономерностей причинно-следственного типа (гипотез о (±)-причинах) из БФ посредством, как уже говорилось, установления сходства объектов, имеющих определенную структуру. Например, таким сходством могут быть фрагменты химических соединений, цитологические признаки, объективные характеристики организма как в норме, так и при отклонении от нее и т.п., и обладающие изучаемым эффектом (например, наличием биологических активностей химических соединений, их способностью к биотрансформации, наличием или отсутствием рассматриваемых заболеваний и т.п.).

БФ, к которой применяются правила правдоподобного вывода 1-го рода (п.п.в.-1), содержит представления фактов посредством высказываний вида

Анализ данных

«объект С имеет множество свойств А» имеет истинностное значение (v,0), где тип истинного значения V = 1, -1, 0, Т , а «0» означает, что число применений правил правдоподобного вывода равно нулю, то есть в БФ представлен факт, оценка которого соответственно либо «фактическая истина» - «1» (С обладает множеством свойств А), либо «фактическая ложь» - «-1» (С не обладает множеством свойств А), либо «неопределенность» - «Т » (неизвестно, обладает ли С множеством свойств А).

БФ для применения ДСМ-метода, как уже было сказано, содержит (+)-факты, (-)-факты и (Т ^факты, представленные высказываниями с истинностными значениями (1,0), (-1,0) и (Т ,0), соответственно. Для формулировки п.п.в.-1 используются условия Mn+(V,W) и Mn-(V,W), где V - переменная, значениями которой являются сходства (+)-фактов (то есть их общая часть) для Mn+(V,W) и сходства (-)-фактов (то есть их общая часть) для Mn-(V,W), W - переменная, значениями которой являются множества свойств, представляющие изучаемый эффект или его часть, а n - параметр, выражающий число применений п.п.в.-1 и п.п.в.-2 (n=0,1,2,...).

Условия Mn+(V,W) и Mn-(V,W) являются логическими функциями, называемыми предикатами. Областью определения этих функций, как было сказано выше, являются упорядоченные множества, состоящие из двух элементов (С,А), где С - общая часть сходных объектов (предполагаемая причина) эффекта А (множества свойств). Таким образом, С - значение, подставляемое вместо переменной V, а А -значение, подставляемое вместо переменной W. Областью же значений Mn+(V,W) и Mn-(V,W) является множество истинностных значений двузначной логики {истина, ложь}.

Пусть С - значение V, а А - значение W, тогда п.п.в.-1 формулируются следующим образом.

Mn+(V,W) и Mn-(V,W) являются, соответственно, генераторами гипотез о (+)-причинах и (-)-причинах изучаемого эффекта, представленного в неявном виде в БФ. П.п.в.-1 являются средством извлечения причинно-следственных зависимостей (гипотез о (±)-причи-нах) из БФ, представленных в явном виде посредством

www.idmz.ru 2006, №5

W-ЩШШ I Ы.МЯЯ

высказываний «С есть причина А» имеет истинностное значение (v ,n)», где V = 1, -1.

Охарактеризуем теперь строение Mn+(V,W). Эта логическая функция выражает три условия: экзистенциальное условие (ЭУ), сходство (+)-фактов (или (+)-гипотез) (СФ+) и эмпирическую причинно-следственную зависимость (ЭЗ), и условие исчерпываемос-ти (УИ) рассматриваемых (+)-примеров изучаемого эффекта.

ЭУ выражает то обстоятельство, что существуют k (+)-примеров (фактов или гипотез), где k - переменная величина, таких, что соответствующие объекты обладают изучаемым эффектом. СФ+ представляет сходство V объектов, имеющих изучаемый эффект (для химических соединений, обладающих данной биологической активностью, их сходством является фрагмент структуры этих соединений; для описания клинических данных больного их сходством является множество общих характеристик и т.п.). ЭЗ выражает причинно-следственную зависимость: если V содержится в объекте С, таком, что «С обладает эффектом А» имеет истинностное значение (1,n)», где n >0 , то W есть либо эффект А, либо его часть (то есть W - следствие V). (УИ) выражает то обстоятельство, что все сходные (+)-примеры из БФ, сходством которых является V, рассмотрены.

Таким образом, предикат Mn+(V,W) выражает ЭУ, СФ+, ЭЗ и УИ. Mn+(V,W) содержит еще одно очевидное условие: число сходных примеров k таково, что k>2.

Пусть С - значение V, а А - значение W, тогда п.п.в.-1 формулируются следующим образом:

(I)+. Если Mn+(C ,А) истинно и Mn-(C ,А) ложно, то высказывание ««С есть причина А» имеет истинностное значение (1, n+1)»;

(I)-. Если Mn+(C ,А) ложно и Mn-(C ,А) истинно, то высказывание «С есть причина А» имеет истинностное значение (-1, n+1)»;

(I)0. Если Mn+(C ,А) истинно и Mn-(C ,А) истинно, то высказывание ««С есть причина А» имеет истинностное значение (0, n+1)»;

(1)Т . Если Mn+(C ,А) ложно и Mn-(C ,А) ложно, то высказывание «С есть причина А» имеет истинностное значение (Т , n+1)».

Анализ данных

W-ЩШШ

kJH

I и информационные

технологии

Отметим, что результаты применения п.п.в.-1 образуют автоматически порождаемый фрагмент базы знаний. Таковым может быть множество гипотез о (±)-при-чинах биологических активностей химических соединений (для задач фармакологии), множество достаточных условий для реакций метаболизма у химических соединений (для задач фармакологии и биохимии), множество характеристик, извлеченных из клинических данных, ответственных за наличие соответствующих заболеваний, и т.п. Сведения, хранящиеся в БЗ, полученные посредством применения п.п.в.-1 (после завершения ДСМ-рассуждений) могут использоваться для соответствующих прогнозов, а также могут корректироваться посредством систематического расширения БФ.

Обратим внимание на следующее обстоятельство: истинностное значение результатов применения п.п.в.-1 имеет вид (v,n+1 ), где V = 1, -1, 0, Т , а n+1 -число применений п.п.в., являющееся степенью правдоподобия порожденной гипотезы, причем степень правдоподобия гипотезы тем меньше, чем больше число применений п.п.в.

П.п.в.-1 реализуют важный принцип ДСМ-метода автоматического порождения гипотез: сходство фактов определяет наличие изучаемого эффекта и его повторяемость. Это сходство представлено в гипотезе о причинно-следственной зависимости между фрагментом объекта и изучаемым эффектом.

После последовательного применения правил 1-го и 2-го рода (то есть индукции и аналогии) до стабилизации множества порождаемых гипотез (то есть когда новые гипотезы не порождаются) осуществляется проверка аксиом каузальной полноты (АКПШ). Это означает, что реализуется объяснение начального состояния БФ полученными гипотезами о (±)-причинах изучаемого эффекта. Следовательно, проверяется степень каузальной полноты: ч(ф>)

5 =

ч(Ф)

Пользователь интеллектуальной системы выбирает порог 50 такой, что при 5>50 порожденные гипотезы им принимаются.

Две важные идеи осуществляются в интеллектуальных системах, реализующих ДСМ-метод АПГ. Пер-

вая идея (упомянутая выше) - порождение кандидатов в гипотезы о (±)-причинах изучаемых эффектов посредством процедуры установления сходства фактов в БФ. Вторая идея - принятие всех порожденных гипотез посредством абдуктивного объяснения начального состояния БФ (то есть абдукции). Идея абдукции (или абдуктивного вывода, принадлежащая выдающемуся американскому математику и философу Ч.С.Пирсу) [6] состоит в следующем.

Пусть дано множество фактов Ф (в нашем случае - БФ), пусть далее Н - множество выдвинутых гипотез и Н объясняют Ф, тогда все гипотезы h, принадлежащие множеству Н, правдоподобны. Схематично абдукция (абдуктивный вывод) представлена следующим образом:

1. Ф - множество фактов.

2. Н - множество гипотез.

3. Н объясняют Ф.

Следовательно, все h, принадлежащие Н, правдоподобны.

ДСМ-рассуждение является синтезом трех познавательных процедур [7]: индукции (п.п.в.-1), аналогии (п.п.в.-2) и абдукции, которая является процедурой объяснительного принятия гипотез. Отметим, что Н - множество гипотез, порождаемых индукцией (п.п.в.-1) и аналогией (п.п.в.-2), а объяснение посредством гипотез из Н осуществляется проверкой выполнимости аксиом каузальной полноты АКП(±), которые составляют одно из условий применимости ДСМ-ме-тода АПГ.

Таким образом, ДСМ-метод является автоматизированной реализацией формализованной эвристики решения задач предсказания эффектов, неявно представленных в БФ, для случаев неопределенности, когда наличие или отсутствие этих эффектов неизвестно. Посредством индукции (то есть установления сходства фактов) порождаются гипотезы о (±)-причинах эффектов, посредством аналогии эти (±)-причины переносятся на случаи, когда наличие (отсутствие) изучаемого эффекта неизвестно, и, наконец, посредством абдукции устанавливается степень объясняемости начального состояния БФ, в результате которой:

Анализ данных

♦ все гипотезы принимаются, если 8>80 (8о - принятый порог абдуктивной объясняемости БФ); или

♦ БФ расширяется в окрестности необъясненных (посредством (±)-причин) фактов из БФ, и ДСМ-рас-суждение повторяется для новой БФ; или

♦ порожденные гипотезы не принимаются, если после каждого последовательного расширения БФ вновь появляются необъясненные факты.

Отметим, что посредством абдуктивного объяснения начального состояния БФ не только осуществляется принятие порожденных гипотез, но поддерживаются открытость БФ (то есть расширение) и управление процессом ДСМ-рассуждений.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Следует обратить внимание на особенность ДСМ-метода АПГ, которую мы называем его «экологической чистотой» в том смысле, что логический аппарат адекватен изучаемой предметной области в силу выполнимости АКП± Более того, (±)-гипотезы являются естественно порожденными аргументами или контраргументами для принятия решений компьютерной системой относительно наличия (или отсутствия) прогнозируемого эффекта у исследуемого объекта. Подобная автоматизированная аргументация, вследствие возможности быстрого анализа больших массивов фактов, является не столько имитацией интеллектуальной деятельности эксперта, сколько ее усилением. В этом смысле ДСМ-метод АПГ есть средство продолжения исследований, следовательно, он может быть современным инструментом доказательной медицины, использующей компьютерную обработку массивов фактов.

ДСМ-метод АПГ является логическим средством и методологией получения результатов обработки эмпирических данных для целей выявления закономерностей в БФ и прогнозирования изучаемых эффектов посредством гипотез об этих закономерностях. Однако ДСМ-метод АПГ эффективно в реальное время (в силу сложности вычислений) может быть реализован в специальных компьютерных системах, называемых интеллектуальными системами (ИС) [8]. ИС имеет следующее строение: ИС=Решатель задач + Информационная среда + Интеллектуальный интерфейс.

www.idmz.ru 2006, №5

W-ЩШШ I Ы.МЯЯ

Решатель задач = Рассуждатель + Вычислитель + Синтезатор, где Рассуждатель есть модуль, реализующий ДСМ-рассуждение (индукция + аналогия + абдукция). Вычислитель содержит методы для численной обработки данных (например, статистические методы, методы квантово-химических расчетов и т.п.), Синтезатор есть модуль выбора стратегий порождения гипотез (то есть различных модификаций п.п.в.-1 и п.п.в.-2). Кроме того, Синтезатор есть средство комбинирования применений Рассуждателя и Вычислителя.

Информационная среда = БФ + БЗ, где база знаний состоит из множества порожденных гипотез посредством индукции и аналогии, из аксиом каузальной полноты, характеризующих применимость ДСМ-рассуждений к БФ и используемых для абдукции и установления 8 -степени абдуктивной объясняемости БФ. В БЗ могут содержаться также различные знания, характеризующие специфику предметной области.

Интеллектуальный интерфейс = диалог с системой + средства обзора и представления результатов (в том числе графика) + обучение работе с ИС.

Таким образом, ИС, реализующая ДСМ-метод АПГ, является автоматизированным средством поддержки исследований, результатом применения которого к массивам эмпирических данных (БФ) являются извлечение новых знаний в виде зависимостей причинно-следственного типа и основанные на них предсказания.

Извлечение закономерностей из БФ, в которых они содержатся лишь в неявном виде, называют интеллектуальным анализом данных (ИАД). ИАД наиболее эффективен, когда он осуществляется посредством интеллектуальных систем, не только имитирующих, но и усиливающих эвристические рассуждения квалифицированных экспертов. Можно утверждать, что интеллектуальные системы типа ДСМ, реализующие ДСМ-метод АПГ, являются полезным инструментом ИАД (в том числе и в науках о жизни и медицине). Иллюстрацией этого утверждения является опыт применения ДСМ-метода АПГ, рассмотренный ниже [9].

Анализ данных

Щр

W-ЩШШ

kJH

и информационные

технологии

II. ПРИМЕНЕНИЕ ДСМ-МЕТОДА АВТОМАТИЧЕСКОГО Y ПОРОЖДЕНИЯ ГИПОТЕЗ

В ЗАДАЧАХ ФАРМАКОЛОГИИ И МЕДИЦИНСКОЙ ДИАГНОСТИКИ

1. Задача «химическая структура -биологическая активность»

Применение ДСМ-метода для решения этой задачи имеет большую историю. Эксперименты проводились на массивах химических соединений одного ряда, либо соединений, принадлежащих к различным химическим классам. Было исследовано около 3000 соединений, обладающих противоопухолевой, психотропной, антибактериальной, антилепрозной, гемопротекторной, ингибирующей холинэстеразу, канцерогенной, мутагенной и токсичной активностью. Массивы соединений содержали примеры активных и неактивных веществ, а также структуры химических соединений, активность которых требовалось предсказать [10]. Правильность прогноза составляла 90%. Результаты прогноза подтверждены биохимическими испытаниями.

На основании (+)-гипотез (содержащих предполагаемые фармакофоры*) и (-)-гипотез (содержащих предполагаемые антифармакофоры), порожденных ДСМ-системой, синтезированы:

♦ 3 соединения с высокой антилепрозной активностью;

♦ 3 соединения - ингибиторы холинэстеразы;

♦ 2 соединения с антибактериальной активностью.

Массивы химических соединений были предоставлены следующими организациями:

1. Российский онкологический центр, г.Москва (фу-раны, бензимидазолы).

2. Институт канцерогенеза, г.Москва (соединения различных химических рядов).

*Фармакофором называется фрагмент (или множество фрагментов) химического соединения, который является причиной некоторой биологической активности; соответственно антифармакофором называют фрагмент (или множество фрагментов), который является причиной отсутствия соответствующей биологической активности.

3. Болгарский онкологический центр, г.София (противоопухолевые вещества различных химических рядов).

4. НИИ экологии человека и гигиены окружающей среды им. А.Н.Сысина РАМН, г.Москва (токсические, мутагенные спирты, замещенные бензолы, полигалоидные алканы, алкены).

5. Институт химии Таджикской академии наук, г.Душанбе (стимуляторы роста, ауксины).

6. Российский государственный медицинский университет, г.Москва (антилепрозные диаминодифенил-сульфоны).

7. Институт физиологически активных веществ РАН, г.Черноголовка, Московская область (ингибиторы холинэстеразы, производные карбаминовой кислоты).

8. Рязанский медицинский институт, г.Рязань (антибактериальные вещества, замещенные гидразины и тиомочевины).

9. Всероссийский научный центр по безопасности биологически активных веществ Министерства здравоохранения России, г.Купавна, Московская область (гепатопротекторы, психотропные вещества, противоалкогольные соединения, противоопухолевые вещества, химические соединения различных органических классов).

Исследование противоопухолевой активности соединений фуранового ряда

Для проведения эксперимента [11] был предложен массив замещенных фуранов, который содержал 53 соединения, из них 21 вещество не обладало противоопухолевой активностью на штамме карциносар-комы Уокера, 28 замещенных фуранов были активны для этой опухоли, 4 соединения представлены на прогноз. Объектами в данной БФ являлись структуры химических соединений, представленные в виде ФКСП-кодов. (В ИС-ДСМ используются различные языки представления структур химических соединений в зависимости от сложности поставленной задачи, а именно, код ФКСП (Фрагментарный Код Суперпозиции Подструктур) и представление структуры в виде химического раскрашенного графа.

Код ФКСП представляет собой специальный язык, который ориентирован на распознавание корреля-

Анализ данных

www.idmz.ru 2006, №5

ГЧЯЯ

I Ы.МЯЯ

ции между структурами химических соединений и рецепторами клеток живых организмов. При использовании кода ФКСП химическое соединение описывается множеством дескрипторов. При этом в химической структуре выделяются активные центры, возможного связывания химической структуры и рецептора, названные «дескрипторными центрами». Активными центрами являются атомы, содержащие (тс- , р- электроны, гетероатомы или ароматические циклические системы, комплексы кратных связей (С=С, С=С). Дескриптор представляет собой семизначное число (два центра, расстояние между ними и сопряжение в цепочке) [12].

Свойство в данном случае -противоопухолевая активность на штамме карциносаркомы Уокера. Сходство - операция пересечения ФКСП-кодов (множеств), результатом которой являются фрагменты структур химических соединений (подобъекты). Применением п.п.в.-1 (индукция) ИС-ДСМ породила положительные гипотезы, содержащие фрагменты структур, отвечающие за проявление противоопухолевой активности, и отрицательные гипотезы с фрагментами, наличие которых приводит к отсутствию данной активности. Большинство активных веществ этого ряда содержали фрагмент азотистого иприта, который, как известно, является признанным фармакофором противоопухолевой активности. Однако имелся ряд соединений, содержащих этот фармакофор, но не обладающих активностью. ДСМ-система позволила

Химические соединения

Таблица 1

Фармакофор Антифармакофор

^ CH2-CH2CI -N Х CH2-CH2CI O II ^ CH2-CH2CI — C — N ^ CH2-CH2CI

Таблица 2

Примеры исходных соединений

Положительные примеры, из которых получен фармакофор Отрицательные примеры, из которых получен антифармакофор

CH2CH2CI / V ^сн^- N0^^ X ^'"'СН \ х0 CH2CH2CI 0 Vi CH2CH2CI | CH2CH2CI 0 NOj

СН2СН2С1 N0^^ "CH \ х0^ ^ _J 2 CH2CH2C1 0 ^C^C^CI Ch2CH2CI N02

CH3 1 3 CH2CH2CI ЛЛл7 N0^ ./ -CH \ Х0 CH2CH2CI 0 .. ^с .CH2CH2CI <Т I ^ „.-0 CH2CH2CI

h \\ CH2CH2C1 ^Л ^ ^^"'N N0^^ // ^"■'-CH \ 0 \ CH2CH2CI

Анализ данных

Мр

W-ЩШШ

kJH

I и информационные

технологии

выделить фрагмент структуры химического соединения, наличие которого приводит к отсутствию активности. Таким антифармакофором был ацилирован-ный фрагмент азотистого иприта. Указанные фармакофор и антифармакофор приведены в табл. 1, примеры исходных соединений, из которых они получены, приведены в табл. 2.

Далее была выполнена процедура, соответствующая п.п.в.-2 - аналогии. В результате этого правильно была доопределена активность 4 химических соеди-

нений (их активность была известна из биологических экспериментов).

Порожденные ИС-ДСМ фармакофоры и антифар-макофоры могут быть использованы при синтезе веществ с заданными свойствами. Кроме того, ИС-ДСМ способна генеририровать гипотезы следующего вида: химическое соединение обладает активностью А1 и А2, но не обладает свойством А3. Эти гипотезы крайне важны для выявления побочного действия лекарственных средств на организм.

ЛИТЕРАТУРА

1. Финн В.К. Правдоподобные рассуждения в интеллектуальных системах типа ДСМ//Итоги науки и техники. - Сер. Информатика. Т.15. - М.: ВИНИТИ, 1991. - С. 54-101.

2. Абдукция. Новая философская энциклопедия. - М.: Мысль, 2000. - С. 9-10.

3. Финн В.К. Об интеллектуальном анализе данных//Новости искусственного интеллекта - 2004.

- №3. - С. 3-18.

4. Флетчер Р, Флетчер С., Вагнер Э. Клиническая эпидемиология. Основы доказательной медицины. - М.: Медиа Сфера, 2004.

5. Advances in Knowledge Discovery and Data Mining. Eds. U.M. Fayyad, G. Piatetsky-Shapiro at. al. -Menlo Park, Calif.: AAAJ Press/The MIT Press, 1996.

6. Пирс Ч.С. Новая философская энциклопедия. - М.: Мысль, 2000. - С. 233-235.

7. Финн В.К. Синтез познавательных процедур и проблема индукции//НТИ. - Сер.2. - 1999. -№1-2. - С. 8-44.

8. Финн В.К. Интеллектуальные системы и общество. - М: РГГУ, 2001.

9. Забежайло М.И. Формальные модели рассуждений в принятии решений: приложения ДСМ-ме-тода в системах интеллектуального управления и автоматизации научных исследований//НТИ. -Сер.2. - 1996. - №5-6. - С. 20-33.

10. Блинова В.Г. О результатах применения ДСМ-метода порождения гипотез в задачах анализа связи «структура химического соединения - биологическая активность»//НТИ. - Сер. 2.

- 1995. - №5.

11. Панкратова Е.С., Ивашко В.Г., Блинова В.Г., Попов Д.В. Применение ДСМ-метода порождения гипотез для прогноза противоопухолевой активности и токсичности соединений, принадлежащих к различным химическим классам//Сб. научных трудов. Экспертные системы: состояние и перспективы. - М: Наука, 1989. - С. 139-145.

12. Блинова В.Г., Добрынин Д.А. Язык ФКСП описания химической структуры соединения//НТИ. -Сер 2. - 2001. - №6. - С.14-21.

Продолжение в следующем номере.

ИНТЕЛЛЕКТУАЛЬНЫЕ СИСТЕМЫ ДЛЯ АНАЛИЗА МЕДИЦИНСКИХ ДАННЫХ. Часть 1 Текст научной статьи по специальности «Компьютерные и информационные науки»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — В К. Финн, В Г. Блинова, Е С. Панкратова, Е Ф. Фабрикантова

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — В К. Финн, В Г. Блинова, Е С. Панкратова, Е Ф. Фабрикантова

Текст научной работы на тему «ИНТЕЛЛЕКТУАЛЬНЫЕ СИСТЕМЫ ДЛЯ АНАЛИЗА МЕДИЦИНСКИХ ДАННЫХ. Часть 1»