Научная статья на тему 'Использование самоорганизующейся карты признаков для решения задач моделирования в биологических системах'

Использование самоорганизующейся карты признаков для решения задач моделирования в биологических системах Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
103
37
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Руанет В. В., Хадарцев А. А., Хетагурова А. К.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Использование самоорганизующейся карты признаков для решения задач моделирования в биологических системах»

Раздел VI

РЕДАКЦИОННЫЙ ПОРТФЕЛЬ

УДК біб; 002.5/.б

ИСПОЛЬЗОВАНИЕ САМООРГАНИЗУЮЩЕЙСЯ КАРТЫ ПРИЗНАКОВ ДЛЯ РЕШЕНИЯ ЗАДАЧ МОДЕЛИРОВАНИЯ В БИОЛОГИЧЕСКИХ СИСТЕМАХ

В.В.РУАНЕТ*, А.А. ХАДАРЦЕВ**, А.К. ХЕТАГУРОВА*

Выявление и анализ филогенетических связей, повторяющихся последовательностей (ПП) ДНК, связанных с событиями генетической рекомбинации, осуществленные нами, позволили выдвинуть предположение о том, что 2-я группа по нуклеотидному составу более разнородна, чем 1-я (деление ПП на группы основано на доле ПП на Y-хромосоме, 1 - группа последователь -ностей имеет в своих названиях код 002; 2 - группа последовательностей имеет в своих названиях код 004), но характер филогенетических связей между двумя группами ПП не выяснен [і].

Для решения вопроса о характере сходств и различий в нуклеотидном составе соответствующих групп ПП (і-й и 2-й) был проведен ряд исследований с химерными (консенсусными) образцами. В качестве инструмента для решения этой задачи была использована сеть Кохонена. Изменяя в различных направлениях значения входных полей (параметров) исследуемого образца и повторяя его тестирование, можно определить какие параметры и каким образом нужно изменить, чтобы пример стал принадлежать к требуемой категории или классу. В литературе есть данные, что многослойный персептрон (МСП) можно использовать для задач моделирования ситуаций типа: какие характеристики объекта являются важными для отнесения его к той или иной категории, к каким классам, кроме найденного, близок тестируемый пример и т.п. [2-3]. В ранее опубликованных работах нами было показано, что применение сети Кохонена для выявления общих закономерностей процессов, проходящих в сложных системах, более предпочтительно, чем МСП [1, 4-5].

Цель работы - выяснение возможности применения самоорганизующейся карты признаков (сеть Кохонена) для решения задач моделирования в биологических системах.

Материалы и методы. В работе были использованы базы данных GENBANK (www.ncbi.nlm.nih.gov/) и Human Genome Resources database (www.ncbi.nlm.nih.gov/genome/guide/human/). Гомологичные повторяющиеся последовательности (ПП) были отобраны с помощью программы NCBI BLAST для генома человека (www.ncbi.nlm.nih.gov/BLAST), которая позволяет находить последовательности гомологичные, исследуемой и локализовать их на хромосомах. В качестве критерия оценки сходства последовательностей были выбраны участки общей протяженностью 254 пар нуклеотидов (п.н.). Таким образом, каждый пример (ПП ДНК) в базе данных характеризовался 254 входными полями. В качестве имитатора сети Кохонена использовали программу Kohonen Map 1.0 из пакета программ Excel Neural Package. Статистический анализ данных проводили с помощью пакета STATISTICA v.6 program (StatSoft, Inc, 2001) (STATISTICA data analysis software system, version 6: www.statsoft.com)

Результаты. Работы проводится по следующей схеме: создание химеры, нахождение параметров (последовательности нуклеотидов), определяющих попадание ПП в тот или иной кластер («критичный параметр»).

Создание химеры (консенсусного образца). Для облегчения процесса моделирования создается химера. Процесс создания заключается в том, что в каждое из «n» входных полей (в исследуемом случае 254 поля) такого образца (химеры) вносятся, наиболее часто встречающиеся значения параметров образцов (последовательности нуклеотидов), входящих в кластер. На рисунке і приведена топологическая карта и состав кластеров. Консенсусные образцы создавались на основе кластеров A и F, как наи-

* Москва, Медицинский Колледж РАМН E-mail: ruanet@ mail.ru

Тула, пр-т Ленина, 104, НИИ НМТ

более отличающихся друг от друга с точки зрения теории искусственных нейронных сетей [3, 6-7]. Задача заключалась в том, чтобы определить какие участки повторяющихся последовательностей ДНК необходимо заменить (входные поля исследуемого примера в базе данных) на значения из соответствующих входных полей химеры чтобы, например, образец 12aluSq-004 из кластера А переместился в кластер ¥, т.е. был помещен сетью в кластер, на 75% состоящий из представителей группы 2, а образец 002321-2У в кластер А, на 83,5% состоящий из представителей группы 1 (рис.1). Порядок создания химер для кластера А представлен в табл. (из 254 столбцов представленных в табл., в качестве примеров взяты четыре). Если в столбце нет значения, представительство которого >70% от общего числа значений, берущихся для создания химеры (Химера 1), то в этом случае создается вторая химера (Химера 2) - столбцы №№ 24 и 28, по такому же принципу составлялись значения для всех столбцов.

Нахождение критичных параметров. Нейросеть обучена с помощью химер, созданных на основе образцов, входящих в кластер А (исключая образец 12aluSq-004), и кластер Б (исключая 002321-2У) - рис. 1. Топологическая карта на рис. 2а - ответ сети Кохонена после распределения по кластерам созданных химер.

Таблица

Создание химеры

№ столбца в таблице №2 №3 №24 №28

1 образец 3 3 3 4

2 образец 3 3 4 4

3 образец 4 3 3 4

4 образец 3 3 4 1

5 образец 3 3 3 1

б Химера 1 3 3 3 4

7 Химера 2 3 3 4 1

Примечание - цифры в таблице означают соответствующие нуклеотиды: 1

- А; 2 - Г; 3 - Т; 4 - Ц

6 х 1

A 002375sq

A 002477-2sq

A 002431Hsx

A 002249Hsq

A 002325Hs2

A 1 2aluSq-004

|B 002279^2sx

|C 21 aluSx^0 04

ID 17aluS2x^004

Id_________1 8aluSx^0 04

F 3aluY^004

F 1 9aluY^004

F 11 aluY^004

F 002321^2Y

Рис. 1. Расположение и состав кластеров, на основе которых создавались химеры

В кластер А (рис 2а) сеть помещает химеры, созданные на основе образцов относящихся к кластеру Б (рис 1), в кластер С (рис. 2а) химеры, созданные на основе образцов, относящихся к кластеру А (рис 1). Задачей сети является определение принадлежности исследуемых образцов к кластерам А или С (рис. 2а). Если в процессе определения тестируемый образец попадает в

кластер А, то произведенные замены в его составе достаточны для его ассоциирования со 2-й группой ПП ДНК (004). Попадание образца в кластер С к 1-й группе ПП ДНК (002). Меняя значения входных полей образца 002321-2У (кластер Б рис. 1) на значения соответствующих входных полей химер кластера С (рис. 2а), добиваемся того, чтобы сеть отнесла образец 002321-2У к кластеру С (рис. 2а). После каждой замены проводится тестирование полученного образца сетью Кохонена (в рамках имеющегося нейропроекта) для проверки результата замены соответствующих входных полей. В ходе этой работы определяются «критичные» параметры, которые не позволяют сети относить этот образец 002321-2У к кластеру С (рис 2а).

Разница в последовательности нуклеотидов в составе химер кластера С и образца 002-321-2У (кластер Б рис. 1) составляет 15 позиции (25, 34, 51, 64, 120, 140, 149, 196, 217, 231, 247, 248, 249, 251, 2521) - 5,9% от общего числа входных полей, сосредоточенных в основном (5 позиций) в хвостовой части последовательности (10 последних последовательностей от 245 до 254, составляющие 3,9% от всего количества входных полей). В нативном состоянии образец 002321-2У попадает в кластер. В (2в), т.е. является для сети новым объектом. Сеть Кохонена, согласно теории функционирования самоорганизующихся карт признаков [8], формирует для него новый кластер (В), которого не было при работе с обучающей базой, состоящей из химер. Ниже приведены несколько вариантов производимых замен.

1) 25, 34, 51, 64, 120, 140, 149, 196, 217, 231 - не дает эффекта, образец 002321-2У попадает в кластер В (рис. 2в);

2) 25, 34, 51, 64, 120, 140, 149, 196, 217, 231, 247,248 не дает эффекта - образец 002321-2У продолжает попадать в кластер В (рис. 2в);

3) 25+34+51+64+120140+149+196+217+231+247+248+249

- замена эффективна, образец 002321-2У - в кластере С (рис. 2с);

4) 247,248 не дает эффекта - образец 002321-2У - в кластере В (рис. 2в);

5) 247, 248, 249 - замена эффективна, образец 002321-2У

- в кластере С (рис. 2с);

6) 251, 252 - замена эффективна, образец 002321-2У - в кластере С (рис. 2с).

А

iS

а в с d

Рис 2 Топологические карты

Замена в образце 002321-2У полей №№ 247,248, 249 или №№ 251 и 252 дает необходимый эффект - образец распределяется сетью в кластер С (рис. 2с). Характер замен позволяет сделать вывод о том, что они носят качественный (замена 13,3% от общего числа несовпадающих нуклеотидов в последовательности приводит к желаемому результату), а не количественный характер (замена 80% от общего числа несовпадающих нуклеотидов в последовательности не приводит к желаемому результату), Рекомбинантные образцы, созданные на основе образца 002321-2У (варианты: 3, 5, 6) в процессе контрольного тестирования, относились сетью к кластеру А (рис. 1). При работе с образцом 12aluSq-004 (кластер А рис 1) решалась сходная задача - найти замены, которые позволили бы сети отнести его к кластеру Б (рис 1). Различия в последовательностях нуклеотидов образца 12aluSq-004 и химер кластера А (рис 2а) составляют 54 позиции - 21% от общего числа входных полей. В отличие от образца 002321-2У (кластер Б рис. 1) у образца 12aluSq-004 (кластер А рис. 1) несовпадающие нуклеотиды достаточно равномерно распределены по всей ПП. В нативном состоянии образец 12aluSq-004 распределяется сетью в кластер В (рис. 2в), т.е. является для сети новым объектом. Характер замен в образце 12aluSq-004 носит, по-видимому, количественный характер. Для достижения желаемого эффекта - сеть относит образец 12aluSq-004 в кластер А (рис. 2^, понадобилось заменить 80% несовпадающих нуклеотидов. Рекомбинантные образцы, созданные на основе образца 12aluSq-004 с заменами из химер кластера А (рис 2а) в процессе контрольного тестирования, относились сетью к кластеру Б (рис. 1).

Результаты позволяют говорить, что сеть Кохонена и разработанный подход с созданием и использованием химер является эффективным инструментом для решения задач моделирования в биосистемах, востребованных при решении ряда медикобиологических задач, например, для медицинской диагностики и прогнозирования. Предположим, что сеть обучена дифференцировать больных и здоровых людей по набору клинических параметров. Изменяя на компьютере эти параметры, можно добиться, чтобы «больной» стал принадлежать классу «здоровый». Станет ясно, какие клинические параметры надо изменить для улучшения состояния больного. В процессе работы получило подтверждение выдвинутое ранее предположение, что 2-я группа ПП по нуклеотидному составу более разнородна, чем 1-я [1], о чем говорит характер замен, произведенных при моделировании.

Литература

1. Дадашев С.Я. и др. //ВНМТ.- 2006.- Т. XIII, №4.- С. 16.

2. Россиев ДА. / В кн. Нейроинформатика - Новосибирск: Наука СО РАН, 1998.- С. 138-211.

3. Круглов В.В., Борисов В.В. Искусственные нейронные сети.- М.: Горячая линия - Телеком, 2001.-382 с.

4. Руанет В.В. и др. Нейросетевые технологии в хромосомном и геномном анализе - искусственные нейронные сети.- М.: Изд. МГУ, 2003.- 77 с.

5. Руанет В.В. и др. // Генетика.- 2005.-Т 41, №1.- С. 1-9.

6. Каллан Р. Основные концепции нейронных сетей.- М., 2001.- 287 с.

7. Галушкин А.И. Теория нейронных сетей.- М. ИПРЖР, 2000.- 415с.

8. Kohonen T. Self-Organizing Maps.- Springer.- 1995.- 235 р.

УДК 681.3

СИСТЕМНЫЙ КОМПАРТМЕНТНО-КЛАСТЕРНЫЙ АНАЛИЗ И СИНТЕЗ В ИССЛЕДОВАНИЯХ АНЕМИЧЕСКОГО СИНДРОМА ДИАБЕТИЧЕСКИХ АНГИОПАТИЙ У БОЛЬНЫХ САХАРНЫМ ДИАБЕТОМ 2 ТИПА С РАЗЛИЧНЫМИ КЛИНИЧЕСКИМИ ВАРИАНТАМИ ТЕЧЕНИЯ

В.М. ЕСЬКОВ, И.Ю. ДОБРЫНИНА, Ю.В. ДОБРЫНИН,

Т.Н. КОВАЛЕНКО, С.Ю. ПИКУЛИНА, В.В. ПОЛУХИН*

Эффекты глюкотоксичности лежат в основе эндотоксикоза, приводящего к адсорбции на эритроцитарной мембране токсических продуктов ненаправленного протеолиза - средних молекул (СМ). Вследствие этого происходит нарушение метаболизма эритроцитов, что ведет к нарушению их жизнеспособности и их морфо-функциональных свойств [1].

Элементы, образующие компартмент (а компартменты образуют кластер), в рамках синергетического подхода выполняют определенные функции. Компатментно-кластерный анализ и синтез лежат в основе теории хаоса и синергетики. Использование нейроЭВМ в диабетологии - актуальная задача, демонстрирующая эффективное применение системных подходов в клинической кибернетике. Применение нейросетевых технологий в рамках задач синергетики в изучении анемического синдрома диабетических ангиопатий позволяет идентифицировать минимальную размерность к фазового пространства и параметры порядка XI кластера анемического синдрома диабетических ангиопатий (АСДА) у больных сахарным диабетом 2 типа с различными клиническими вариантами течения, которые являются наиболее значимыми диагностическими признаками [4, 5].

Материалы и методы исследования. В настоящем исследовании использовалась выборка из 90 больных СД-2 типа (мужчин, женщин) в возрасте 58,19±0,81лет и стаже заболевания 8,25±0,42 лет: из них 27 мужчин в возрасте 57,04±2,72 года и среднем стаже заболевания 7,44±0,88 года; и 63 женщины в возрасте 56,95±1,31 лет и среднем стаже заболевания 8,44±0,52 года. Все больные были распределены по 3-м группам: компенсации, субкомпенсации и декомпенсации, согласно критериям компен-

1 Цифры соответствуют номерам входных полей базы данных

* СурГУ, 628400, г. Сургут, ул. Энергетиков 14, лаборатория биокибернетики и биофизики сложных систем, , 3462524713, e-mail: evm@bf.surgu.ru

i Надоели баннеры? Вы всегда можете отключить рекламу.