Научная статья на тему 'Проектирование веб-сервиса анализа и визуализации геномных данных'

Проектирование веб-сервиса анализа и визуализации геномных данных Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
192
81
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
БИОИНФОРМАТИКА / ВЕБ-СЕРВИС / ГЕНОМ / МИКРОЧИПЫ / АНАЛИЗ ДАННЫХ / DATA-MINING / BIOINFORMATICS / GENOME / DATA ANALYSES / WEB-SERVICE / MICROARRAYS

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Власьев И.М., Туральчук К.А.

В экспериментальный молекулярной биологии методы биоинформатики позволяют получать полезные результаты из большого количества исходных данных. В этой статье описывается веб-интерфейс, который использует методы биоинформатики и позволяет анализировать и визуализировать данные, полученные из открытых источников.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Власьев И.М., Туральчук К.А.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Проектирование веб-сервиса анализа и визуализации геномных данных»

Власьев И.М., Туральчук К.А. ©

Магистрант, СПбГПУ, ИИТУ, СПб

ПРОЕКТИРОВАНИЕ ВЕБ-СЕРВИСА АНАЛИЗА И ВИЗУАЛИЗАЦИИ ГЕНОМНЫХ

ДАННЫХ

Аннотация

В экспериментальный молекулярной биологии методы биоинформатики позволяют получать полезные результаты из большого количества исходных данных. В этой статье описывается веб-интерфейс, который использует методы биоинформатики и позволяет анализировать и визуализировать данные, полученные из открытых источников.

Ключевые слова: data-mining, биоинформатика, веб-сервис, геном, микрочипы, анализ данных.

Keywords: data-mining, bioinformatics, web-service, genome, microarrays, data analyses.

В экспериментальный молекулярной биологии методы биоинформатики позволяют получать полезные результаты из большого количества исходных данных. В области генетики и геномики, биоинформатика помогает в упорядочивании и аннотировании геномов и наблюдаемых мутаций. Ранее ученые классифицировали различные типы рака основываясь лишь на том, какой орган был поражен. С помощью анализа геномных данных станет возможным классифицировать опухоли по паттернам активности генов в клетках. Это позволит разрабатывать лекарства, предназначенные для конкретного вида ракового заболевания. В лабораторных исследованиях методы количественного анализа экспрессии генов находят применение в ряде опытов, связанных с изучением экспрессий различных генов. В экспериментах, где клетки содержались в каких-либо условиях, отличных от нормальных, в большинстве своем обнаруживаются изменения в профилях экспрессии генов. Результаты подобных исследований проливают свет на механизмы клеточного ответа на изменения окружающей среды.

Транскрипция — процесс синтеза РНК с использованием ДНК в качестве матрицы, происходящий во всех живых клетках. Другими словами, это перенос генетической информации с ДНК на РНК.

Транскрипт — молекула РНК, образующаяся в результате транскрипции (экспрессии соответствующего гена или участка ДНК).

Транскриптом — совокупность всех транскриптов, синтезируемых одной клеткой или группой клеток, включая мРНК и некодирующие РНК. Понятие «транскриптом» может обозначать полный набор транскриптов в данном организме или специфический набор транскриптов (молекул РНК), представленный в клетках определенного типа. [ 1 ]

Наиболее распространенные методы изучения транскриптома — секвенирование РНК и ДНК-микрочипы.

Количественный анализ экспрессии генов — анализ транскриптома, измерение транскрипционной активности гена, с помощью определения количества его продукта, матричной РНК (мРНК), универсальной для большей части генов.

Поскольку полные последовательности генома стали доступны, термин "биоинформатика" был переоткрыт и обозначал создание и техническое обслуживания баз данных для хранения биологической информации, такой как последовательности нуклеотидов. Создание таких баз данных включало в себя не только вопросы оформления, но и создание комплексного интерфейса, позволяющего исследователям запрашивать имеющиеся данные и добавлять новые.

© Власьев И.М., Туральчук К.А., 2015 г.

Примером применения компьютерного анализа последовательностей является автоматический поиск генов и регуляторных последовательностей в геноме. Не все нуклеотиды в геноме используются для задания последовательностей белков. Например, в геномах высших организмов, большие сегменты ДНК явно не кодируют белки и их функциональная роль неизвестна. Разработка алгоритмов выявления кодирующих белки участков генома является важной задачей современной биоинформатики.

В контексте геномики аннотация — процесс маркировки генов и других объектов в последовательности ДНК. Первая программная система аннотации геномов была создана в 1995 году Оуэном Уайтом, работавшим в команде, секвенировавшей и проанализировавшей первый декодированный геном свободноживущего организма, бактерии Haemophilus influenzae. Доктор Уайт построил систему для нахождения генов, тРНК и других объектов ДНК и сделал первые обозначения функций этих генов[2]. Большинство современных систем работают сходным образом, но эти программы постоянно развиваются и улучшаются.

В настоящее время наиболее эффективным методом определения биологической функции гена является поиск одинаковых последовательностей в базах данных нуклеотидных последовательностей ДНК[3]. Распараллеливание вычислений и использование

суперкомпьютеров для решения подобного рода задач позволит не только в сотни раз повысить скорость расшифровки первичных структур, но и сделать открытия, вытекающие из анализа гомологичных последовательностей, обычным делом.

Все эти задачи биоинформатики предъявляют высокие требования к быстродействию и объему памяти используемых вычислительных средств, еще более возрастающие в связи с завершением расшифровки геномов ряда организмов, каждый из которых содержит сотни миллионов нуклеотидов.

Для обработки, анализа и интерпретации данных в биоинформатике используют технологию Data Mining. Применяются различные методы интеллектуального анализа данных, такие как деревья решений, метод k ближайших соседей, генные алгоритмы, нейронные сети и т.д.

Существующие системы аннотации геномных данных имеют ряд недостатков. Большинство подобных систем позволяют собирать данные из открытых источников, но исследователь не всегда может быть уверен в том, что он получит всю информацию о запрашиваемом объекте (набор полей, как правило, определён). Также системы, такие как Orange Bioinformatics, используют для обработки данных только мощность локальной системы, что затрудняет работу для исследователей, не имеющих в распоряжении большой вычислительной мощности. Отсутствует возможность модификации существующих критериев классификации данных, нельзя подгрузить функционал собственных методов анализа (или же подобный процесс слишком затруднителен). Таким образом существует потребность в гибком облачном сервисе анализа и визуализации геномных данных.

Работа направлена на проектирование и создание веб-сервиса анализа и визуализации геномных данных. Проект сервиса представляет из себя пользовательский веб-интерфейс для работы с данными и инструментами. Также планируется спроектировать и разработать модуль загрузки собственных данных, модуль загрузки собственного функционала, модуль облачных вычислений, набор инструментов анализа данных, модуль для работы с данными из открытых источников.

Веб-интерфейс представляет из себя веб-сайт, на котором расположены элементы управления сервисом. Пользователь сможет получить данные из открытых баз, таких как NCBI, DDBJ, GEO, либо загрузить собственные. Сбор и анализ данных предполагается осуществлять с помощью методов Data Mining (деревья решения, метод k ближайших соседей, иерархическая кластеризация и т.д.). Далее пользователь сможет оперировать полученными результатами, например выбрать нужный набор генов, составить тепловую карту, собрать общую статистику и т.п., в зависимости от преследуемой цели.

Также пользователь должен иметь возможность подгрузить собственный инструмент или модифицировать существующий критерий, если это необходимо для исследования. Для реализации веб-интерфейса планируется использовать PHP и Java. Вычисления будут

производиться в программе на C#, которая будет использовать ресурсы облачных серверов, таким образом не нагружая компьютер пользователя. На рис.1 представлен примерный внешний вид веб-интерфейса.

ВЕБ-СЕРВИС АНАЛИЗА И ВИЗУАЛИЗАЦИИ ГЕНОМНЫХ ДАННЫХ

Загрузить данные

• NCBI

• DDBJ

• GEQ

Загрузить собственные:

| Выберите файл | Файл не

Рабочая область

912.450 1147.100 871.150 914.500 963.500 1203.800 1096.850 1325.500 RXF14

1654.900 2071.600 2182.000 2710.100 2183.300 1747.600 2054.100 1591.100 UBE2Q1

86.600 125.750 170.800 118.700 115.150 138.200 112.200 110.350 RKF17

853.400 750.400 981.200 944.750 597.700 964.250 1137.300 801.150 RKF10

5297.500 4179.500 3810.000 5727.000 2632.900 3113.000 5262.400 3517.300 RXF11

1273.450 782.600 1221.500 1499.200 993.550 1695.600 1080.000 850.800 RKF13

153.800 136.100 168.000 138.900 153.400 193.700 114.300 77.200 REM1

8.000 7.300 9.800 7.400 4.300 11.100 8.900 35.600 216414_at

199.025 165.050 205.100 206.200 119.875 236.250 200.600 132.500 MVB12B

4058.200 4299.700 2664.300 4636.200 3912.400 2618.700 2223.800 3042.400 MZT2A

3113.950 3215.300 2428.450 2892.750 3190.000 2384.100 1973.100 2459.200 MZT2B

455.250 530.275 624.800 652.350 448.450 626.775 490.250 461.250 АТКХ

623.200 429.000 689.600 653.300 459.900 442.200 885.500 331.300 РММ2

1671.500 1148.600 1536.700 1062.700 1649.500 1682.300 1211.100 1099.000 РММ1

742.400 569.600 604.800 683.400 907.700 1101.500 2037.800 775.800 ASS1

296.200 246.050 312.000 195.400 302.150 386.500 407.350 355.250 NCBP1

443.900 361.800 527.000 250.300 212.200 412.800 206.700 310.900 SPX

164.600 87.300 63.200 128.900 183.100 140.600 94.600 140.300 217337_at

243.700 204.600 328.300 225.200 188.200 247.000 291.300 209.900 DISCI

582.600 581.400 534.000 311.000 691.600 582.900 390.600 520.400 САМК1

689.400 358.000 639.100 481.700 446.500 517.000 1005.700 668.200 STYXL1

893.800 906.700 759.000 760.200 1132.800 1244.100 784.600 1008.500 SPR

337.267 313.067 411.133 256.167 292.633 348.867 267.767 265.633 CEACAM3

Инструменты

• Выбрать | |

лучших генов) ОК |

• Тепловая карта

• Статистика

Рис.1. Веб-интерфейс

Теплокарта — это графическое представление данных, где дополнительные переменные отображаются при помощи цвета.

Подобные системы иерархичной кодировки цветов используются в изображениях фракталов и других системах представления данных. Термином «теплокарта» так же иногда называют картограммы.

Биологические тепловые карты обычно используются в молекулярной биологии и медицине для представления данных по экспрессии множества генов в различных образцах, полученных, например, от разных пациентов или в разных условиях от одного пациента. Обычно организована в виде таблицы, в которой цвет квадрата показывает уровень экспрессии, а столбцы и строки различные гены или образцы, иерархическая организация которых может быть изображена в виде дерева на полях таблицы. Пример тепловой карты на рис. 2.

Рис.2. Теплокарта, порожденная из микрочиповых данных, отражающих уровни экспрессии генов

в некоторых условиях

Литература

1. Альберте Б., Брей Д., Льюис Дж., Рэфф М., Робертс К., Уотсон Дж. Молекулярная биология клетки: в трех томах. — 2. — Москва: Мир, 1994. — Т. 2. — 539 с. — 10 000 экз. — ISBN 5030019871.

2. Jonathan Pevsner. Bioinformatics and Functional Genomics. 2013.

3. Jean-Michel Claverie Ph.D. Bioinformatics For Dummies. 2011.

i Надоели баннеры? Вы всегда можете отключить рекламу.