Информационные технологии в биохимическом образовании

Клюев Сергей Афанасьевич

С.А. Клюев, преподаватель Туапсинского социально-педагогического колледжа, г. Туапсе

Информационные технологии широко используются в преподавании естественных учебных дисциплин, в том числе и биохимических. Среди них выделим технологии, связанные с проектированием информационных систем и их эксплуатацией в глобальной сети (СЛ8Б-технологии, технологии "клиент-сервер", скриптов, БСОМ и СОКБЛ, технологии визуализации).

1. Введение

Биохимик, работая с информационными моделями, обычно имеет дело с базами, банками данных и инструментами их анализа [1]. Инструменты анализа (специализированные программы) довольно легко копируются на локальный компьютер вместе с требуемыми данными. Кроме того, существует возможность использования программных продуктов, разработанных вне связи с конкретной информационной системой. Для получения необходимой информации об объекте в глобальной сети широко используют технологию "клиент - сервер" и технологию скриптов [2]. Основой технологии "клиент - сервер" является программа-обработчик запросов (например, запроса о протеине):

СЕРВЕР

Исходная НТМЬ--страница Программа обработки

1 2 3

КЛИЕНТ

На рисунке:

1 - пересылка исходной ИТМЬ-страницы (формы) к клиенту, 2 -возврат заполненной формы, 3 - пересылка результатов обработки.

В рассматриваемом случае заполнение формы сводится к набору названия протеина. В отличие от технологии "клиент-сервер", в технологии скриптов информация обрабатывается на локальном компьютере (информационные процессы протекают иначе).

Перекрывание различных областей знаний привело к появлению качественно новых образований, таких как биологическая информатика (биоинформатика; другое название - компьютерная биология) и химическая информатика (химинформатика; другое название - компьютерная химия):

ИНФОРМАТИКА

ММ1МММ

химия БИОЛОГИЯ

Перечислим информационные системы, касающиеся биологических наук. Первый тип - архивные информационные системы. К таким информационным системам относятся: GeneBank & ЕМ^ - здесь хранятся первичные последовательности; PDB - пространственные структуры белков. Второй тип - курируемые информационные системы, за достоверность данных в которых отвечают их владельцы. В них информацию никто не присылает, ее из архивных баз данных отбирают эксперты, проверяя достоверность информации - что записано в этих последовательностях, какие есть экспериментальные основания считать, что эти последовательности выполняют ту или иную функцию. К таким информационным системам относятся: 8,т88-Рго1 - наиболее качественная база данных, содержащая аминокислотные последовательности белков; КЕОО - информация о метаболизме (такая, которая представ-

лена на карте метаболических путей); FlyBase - информация о Drosophila; COG - информация об ортологичных генах. Поддержание базы требует работы кураторов или аннотаторов. Третий тип - производные информационные системы. Они получаются в результате обработки данных из архивных и курируемых информационных систем. В них входят: SCOP - База данных структурной классификации белков (описывается структура белков); PFAM - База данных по семействам белков; GO (Gene Ontology) - Классификация генов (попытка создания набора терминов, упорядочивания терминологии); ProDom - белковые домены.

2. Основная часть

Работа с информационными системами представляется следующим образом: 1) Сравнение последовательностей (выравнивание двух последовательностей; глобальное и локальное выравнивание, вес выравнивания, матрицы аминокислотных замен; дот-матрицы; глобальное выравнивание: алгоритм Нидельмана-Вунша; локальное выравнивание: алгоритм Смита-Ватермана; другие алгоритмы локального выравнивания; другие варианты выравнивания (fitting, overlaps, блочное выравнивание, сплайсированное выравнивание); статистическая значимость выравниваний и ее зависимость от вероятностной модели последовательности; зависимость выравнивания от параметров). 2) Множественное выравнивание (динамическое программирование; последовательное выравнивание (Clustal); другие алгоритмы множественного выравнивания (DIALIGN, Match-Box, алгоритм Леонтовича-Бродского); профили, скрытые марковские модели; поиск блоков). 3) Поиск по сходству в базах данных (Smith-Waterman; хэширование (lookup table); BLAST; FASTA; оценка значимости (E-value, P-value); фильтрация повторов и обработка участков малой сложности (фильтрация, пересчет значимости); паттерны (Prosite), профили, Psi-BLAST, HMM (PFAM)). 4) Автоматическое аннотирование последовательности. Онтология. 5) Пространственная структура биополимеров (PDB (структура записи PDB, визуализация, анализ структурных особенностей, моделирование); предсказание вторичной структуры белков; предсказание третичной структуры белков по гомологии; threading; docking; предсказание параметров спирали ДНК; предсказание вторичной структуры РНК (представление вторичной структуры РНК, минимизация энергии вторичной структуры, динамические модели РНК, сравнительный подход по гомологичным и изофункциональным РНК)). 6) Предсказание функции по последовательности (белки (анализ гомологов, функциональные сигналы, лидерные пептиды и трансмембранные сегменты, сайты модификации); ДНК (функциональные сайты, гены прокариот, гены эукариот, сравнительные методы предсказания генов); РНК (поиск РНК с задан-

ной структурой)). 7) Молекулярная эволюция (эволюция молекул и организмов; филогенетическое дерево как математический объект; модели эволюции; алгоритмы построения филогенетических деревьев (матрица расстояний, методы, основанные на матрице расстояний (UPGMA, neighbour-joining, minimal evolution, топологические инварианты и др.), другие методы (максимальная экономия, максимальное правдоподобие), алгоритмические проблемы поиска оптимального дерева, bootstrapping, согласование деревьев); эволюция на уровне генома; анализ популяци-онных данных (SNP , тандемные повторы, митохондрии и Y-хромосомы, данные по рестрикции)). 8) Статистика последовательностей ДНК ((ди)нуклеотидный состав (изохоры, GC-острова, картирование старта репликации); частые и редкие слова (вероятностные проблемы); статистика ДНК как характеристика генома). 9) Вычислительная геномика (метаболическая реконструкция (в т.ч. неортологичные замещения); позиционный анализ; эволюция регуляторных взаимодействий; эволюция белковых семейств, их доля в геноме).

В настоящее время подобного рода работа не мыслима без использования технологий, связанных с визуализацией (графического представления данных). Объект представляется геометрически правильно в двумерной или трехмерной системе координат. Фигура может быть представлена в виде набора графических примитивов (отрезков, дуг, окружностей, эллипсов, сплайнов). Так как изображение формируется в системе координат, то задается некий массив точек и тип примитивов, который располагается между ними. Изображение, которое располагается на экране, может быть преобразовано: поворот на угол, растяжение и перенос.

Принято произвольное преобразование описывать матрицей, при этом вводятся однородные координаты, где добавляется еще одна координата, которая фиксирована. Тогда в двумерной плоскости это матрица из трех величин

' cos (р sin (р sin <р cos <р О

В трехмерном пространстве матрицы будут иметь 4 строки и 4 столбца. Чтобы изобразить трехмерное тело, необходимы проекции. Параллельная проекция: точки предмета проецируются параллельно заданному направлению лучами. Центральная проекция - все проектирующие лучи проходят через одну точку. Каждая из этих проекций имеет свою матрицу проектирования. Для моделирования поверхности используют принцип текстуры, т.е. выбираются значительные части по-

верхности, которые будут заполнены одинаковой текстурой. Текстура состоит из одинаковых рисунков, которые повторяются. Для моделирования цветов используются специальные схемы. В четырехцветной схеме (для печати) существует понятие оттенка. Моделирование среды представляется следующим образом. Изображение находится в какой либо среде - свет, тень, фон. Существуют методы изменения цвета объекта, чтобы показать освещение с того или иного места и рассеянный свет, сформировать более темную область тени. Особую роль играет интеллектуальная графика. Изображение представляется в виде совокупности элементов, которые записываются в виде одной строки. Сравнение строк позволяет выделять объект, распознавать его и связать с ним определенные действия.

По результатам расчетов можно построить двумерные и трехмерные карты. Двумерная карта фрагмента аспарагиновой кислоты показана ниже:

Для предсказания структур и выяснения причин существования той или иной структуры используют компьютерное моделирование. Например, одна из причин наличия неспирализованных участков в белковой глобуле - взаимодействие между положительно заряженной аммонийной группой и отрицательно заряженной карбоксилатной группой (-^Ы+Из ... "OOC-; электростатическое притяжение и водородная связь) [3]:

__

-27(1 Ш -М 0 1С» 270

В данном случае для проведения расчетов применялись полуэмпирические методы (пакеты программ WinMopac и MOPAC 2009, не являющиеся программами информационных систем).

3. Заключение

Использование информационных технологий в биохимическом образовании позволяет быстро находить информацию об объекте в информационных системах, обрабатывать её и представлять в доступном для понимания виде.

Литература

1. Уотерман Р.Д., Ленат Д., Хейсе-Рот Ф. Построение экспертных систем. М.: Мир, 1987.

2. Максимов И.В., Попов И.И. Компьютерные сети: Учебное пособие. М.: Форум, 2005.

3. Клюев С.А. Компьютерное моделирование. Волжский: ВПИ ВолгГТУ. 2009. 89 с. HTTP://window.edu.ru.

Информационные технологии в биохимическом образовании Текст научной статьи по специальности «Компьютерные и информационные науки»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Клюев Сергей Афанасьевич

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Клюев Сергей Афанасьевич

Текст научной работы на тему «Информационные технологии в биохимическом образовании»