Научная статья на тему 'Суперкомпьютерные технологии в решении задач биоинформатики'

Суперкомпьютерные технологии в решении задач биоинформатики Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
426
64
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Глинский Борис Михайлович, Кучин Николай Владимирович, Черных Игорь Геннадьевич, Орлов Юрий Львович, Подколодный Николай Леонтьевич

C 2001 года в ИВМиМГ СО РАН функционирует Центр коллективного пользования «Сибирский суперкомпьютерный центр» (ССКЦ) с пиковой производительностью кластеров 115 TFlops. Основные задачи центра: разработка и использование суперкомпьютерных технологий для математического моделирования различных задач, решаемых в институтах СО РАН; обеспечение работ институтов СО РАН и университетов Сибири по математическому моделированию в фундаментальных и прикладных исследованиях; обучение специалистов СО РАН и студентов университетов методам параллельных вычислений на суперкомпьютерах, методам моделирования больших задач. Одним из основных потребителей ресурсов является Центр коллективного пользования «Биоинформатика», созданный на базе Института Цитологии и Генетики СО РАН. В рамках совместных работ центров коллективного пользования были разработаны программные пакеты по наиболее актуальным научным направлениям биоинформатики. Работа посвящена обзору ресурсов ССКЦ и прикладным программным пакетам по биоинформатике. Ключевые слова и фразы: суперкомпьютеры с гибридной архитектурой, биоинформатика, компьютерная геномика, эволюция, прикладные программные пакеты

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Глинский Борис Михайлович, Кучин Николай Владимирович, Черных Игорь Геннадьевич, Орлов Юрий Львович, Подколодный Николай Леонтьевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Суперкомпьютерные технологии в решении задач биоинформатики»

ISSN 2079-3316 ПРОГРАММНЫЕ СИСТЕМЫ: ТЕОРИЯ И ПРИЛОЖЕНИЯ №no.4(27), 2015, c.pp. 99-112

УДК 577:004.4:004.94

Б. М. Глинский, Н. В. Кучин, И. Г. Черных, Ю. Л. Орлов, Н. Л. Подколодный, В. А. Лихошвай, Н. А. Колчанов

Суперкомпьютерные технологии в решении задач биоинформатики

Аннотация. C 2001 года в ИВМиМГ СО РАН функционирует Центр коллективного пользования «Сибирский суперкомпьютерный центр» (ССКЦ) с пиковой производительностью кластеров 115 TFlops. Основные задачи центра: разработка и использование суперкомпьютерных технологий для математического моделирования различных задач, решаемых в институтах СО РАН; обеспечение работ институтов СО РАН и университетов Сибири по математическому моделированию в фундаментальных и прикладных исследованиях; обучение специалистов СО РАН и студентов университетов методам параллельных вычислений на суперкомпьютерах, методам моделирования больших задач. Одним из основных потребителей ресурсов является Центр коллективного пользования «Биоинформатика», созданный на базе Института Цитологии и Генетики СО РАН. В рамках совместных работ центров коллективного пользования были разработаны программные пакеты по наиболее актуальным научным направлениям биоинформатики. Работа посвящена обзору ресурсов ССКЦ и прикладным программным пакетам по биоинформатике.

Ключевые слова и фразы: суперкомпьютеры с гибридной архитектурой, биоинформатика, компьютерная геномика, эволюция, прикладные программные пакеты.

1. Введение

В настоящее время центр коллективного пользования «Сибирский суперкомпьютерный центр» (ЦКП ССКЦ) имеет два кластера, которые используются в режиме коллективного пользования институтами СО РАН. Один из кластеров построен на основе вычислительных узлов с Intel Xeon (архитектура МРР), пиковая производительность

Совместная работа поддержана Интеграционным проектом СО РАН. Работа сотрудников ИЦиГ СО РАН поддержана РФФИ 15-04-05371 и бюджетным проектом УГ61.1.2. Работа выполнена при поддержке гранта РФФИ 13-07-00589.

© Б. М. Глинский , Н. В. Кучин( , И. Г. Черных!, Ю. Л. Орлов(, Н. Л. Подколодный(, В. А. Лихошвай!, Н. А. КолчАнов! , 2015

© Институт вычислительной математики и математической геофизики СО РАН!1'2, , 2015

© Институт цитологии и генетики СО РАН!4-5'6' , 2015 © Программные системы: теория и приложения, 2015

30 TFlop/s, программирование с применением MPI и OpenMP; другой — с гибридным расширением на GPU NVIDIA Tesla M2090 (архитектура GPGPU), пиковая производительность 85 TFlop/s, параллельное программирование при помощи C/C++ CUDA и OpenCL.

Особенностью программирования задач на кластере с МРР-архи-тектурой, ориентированной на решение больших задач, прежде всего 3-D, является применения параллельных языков MPI и OpenMP, поскольку это обусловлено архитектурой кластера, построенного с использованием многопроцессорных серверов с общей памятью (SMP). При таком подходе внутри каждого вычислительного модуля формируются несколько потоков с помощью OpenMP. Поддерживаются две современных парадигмы параллельных вычислений — MPI для систем с распределенной памятью (кластеров) и OpenMP для систем с общей памятью. Схема вычислений предусматривает запуск на каждый вычислительный узел кластера по одному MPI-процессу, который запускает внутри каждого вычислительного модуля несколько потоков с помощью OpenMP.

Другая технология высокопроизводительных вычислений связана с реализацией алгоритма на гибридной архитектуре: суперкомпьютер состоит из набора соединенных между собой узлов, для обмена данными используется MPI; каждый узел состоит из 2-х многоядерных CPU и 3 GPU; на каждом узле запускается 1 процесс MPI, управляющий вычислениями (процесс выполняется на CPU); из MPI процесса запускаются нити (threads) OpenMP, каждая из которых управляет работой одного GPU. Другой вариант: запускаются три MPI процесса на узел, каждый управляет закрепленным за ним GPU.

ЦКП ССКЦ СО РАН предоставляет вычислительные и консалтинговые услуги 21 академическим институтам Сибирского отделения и 5 университетам, более 160 пользователей используют ресурсы центра для решения своих задач. Решается большое количество задач из различных областей знаний, в том числе определенных приоритетными направлениями развития науки и техники.

2. Архитектурные особенности ЦКП ССКЦ

В настоящее время в ССКЦ имеются два кластера, которые используются в режиме коллективного пользования институтами СО РАН. Один из кластеров построен на основе вычислительных узлов с Intel Xeon (архитектура MPP), пиковая производительность 30 TFlop/s, программирование с применением MPI и OpenMP, другой

с гибридным расширением на GPU NVIDIA Tesla M2090 (архитектура GPGPU), пиковая производительность 85 TFlop/s, параллельное программирование при помощи C/C++ CUDA и OpenCL. Имеется кластерная файловая система Ibrix, содержащая 4 сервера и 32 Тбайта памяти. Кроме того, в состав ССКЦ входит сервер с общей памятью HP ProLiant DL980 G7 с восемью 10-ядерными процессорами Intel Е7-4870 с тактовой частотой 2,4 ГГц, оперативной памятью 1024 Гбайт и 8 SAS дисками по 300 Гбайт. Пиковая производительность сервера в текущей конфигурации составляет 768 Гфлопс. В апреле 2012 года сервер включён в кластер НКС-30Т как нестандартный вычислительный узел. В состав кластера входят: 576 процессоров (2688 ядер) Intel Xeon E5450/E5540/X5670; 120 процессоров GPU - Tesla M 2090 (61440 ядер); SMP сервер с общей памятью hp DL980 G7 (8 процессоров, 80 ядер) Intel Е7-4870, оперативная память 1024 Гбайт); кластерная файловая система IBRIX (4 сервера, 32 Тбайта). Таким образом, в состав гетерогенного кластера входят вычислительные блоки с МРР-архитектурой, гибридной архитектурой с использованием карт NVIDIA Tesla M2090 (40 узлов, на каждый узел 3 карты) и SMP-архитектурой. Все узлы кластера связаны между собой через Infiniband QDR. Такая структура кластера отвечает требованиям центров коллективного пользования, поскольку приходится решать самые разнообразные задачи из различных областей знаний и наличие нескольких архитектур в центре даёт возможность выбрать оптимальную исходя из специфики решения задачи. Например, для задач биоинформатики часто используют SMP-архитектуру, так как объем входных данных может достигать 5 Терабайт, и наличие 1 Терабайт оперативной памяти дает возможность более эффективно их обрабатывать благодаря отсутствию пересылок данных через сеть. При такой схеме построения центра принципиально имеется возможность задействовать все ресурсы гетерогенного кластера при решении одной задачи. Подробнее о составе технических и программных средств, пакетах прикладных программ можно посмотреть на сайте ССКЦ.

3. Решение задач биоинформатики с помощью ресурсов ЦКП ССКЦ

С помощью оборудования ЦКП ССКЦ решается ряд важных научных задач биоинформатики, в том числе:

• компьютерная геномика и транскриптомика,

• компьютерная протеомика,

• моделирование биологических процессов на молекулярном уровне,

• эволюционная биоинформатика,

• молекулярная динамика,

• математические проблемы биоинформатики,

• обработка текстовых данных для биологии.

На базе ССКЦ установлен ряд программных пакетов по молекулярной динамике и квантовой химии, такие как: Gaussian [1], Gromacs [2] и др. Однако наибольший интерес представляет специализированное программное обеспечение, разработанное пользователями ССКЦ. Авторами статьи предложены два программных пакета, которые внедрены в ЦКП, для решения задач моделирования молекулярно-генетических систем и анализа символьных последовательностей геномики.

3.1. Моделирование молекулярно-генетических систем (МГС). MGSmodeller

Для реконструкции математических моделей МГС используется система MGSmodeller. Математические модели реконструируются в формате и по правилам стандарта SibML [3] в рамках обобщенного химико-кинетического подхода [4,5]. Анализ результатов моделирования производится средствами системы MGSmodeller и программами Matlab, Gnuplot. На рис. 1 представлена схема организации MGSmodeller.

основной инструментарии; возможная связь; реализованная связь; точка интеграции, приемник структурно-функциональной организации МГС; точка интеграции, поставщик сгенерированных математических моделей МГС

Системы, Поддерживающие стандарт SBML (SBW, CellDesigner...) Более 100 систем

G

Рис. 1. Схема организации компьютерной модульной системы моделирования на основе программы MGSgenerator системы MGSmodeller

Модули компиляции и численного исследования реализованы на языке Fortran. Модули аннотации и редактирования языка SibML, а также постобработки результатов реализованы на языке Java. Математические модели в компьютерной среде MGSmodeller представлены в рамках стандарта SibML как совокупность элементарных подсистем молекулярно-генетических систем. Их реконструкция в рамках среды моделирования производится на основе блочного принципа. Сначала производится декомпозиция исследуемого объекта до уровня элементарных подсистем, которыми могут быть реакции ферментативного синтеза, подсистемы регуляции экспрессии генов, системы сплайсинга, транспорта, трансляции, процессы созревания и модификации белков, деградации макромолекул и др. Далее описываются математические модели каждой подсистемы, из которых формируется база элементарных моделей. На этой основе исследователь конструирует из элементарных моделей, как из строительных блоков, модель исследуемого объекта. Для этого описывается сценарий сборки модели — файл, содержащий заданную структурно-функциональную организацию модели целевого объекта, в котором указывается система отношений компартментов (структурный уровень организации целевого объекта), и для каждого компартмента указываются подсистемы, которые должны быть включены в него (функциональный уровень организации объекта). В результате численного эксперимента для моделей больших размерностей исследователь, как правило, получает большие объемы информации, и возникает проблема их интерпретации, анализа и визуализации. В случае если не хватает возможностей базовых средств визуализации, в рамках системы MGSmodeller результаты моделирования представлены в структурированном виде. Организация атрибутов переменных модели, задающих ассоциацию с контекстом моделирования, позволяет проводить постобработку данных сторонними программами, в том числе, используя специализированные инструменты визуального анализа (http://www.gnuplot.info). Более детально возможности пакета и пример его использования изложено в [6].

3.2. Программный комплекс анализа символьных последовательностей геномики ICGenomics

Программный комплекс ICGenomics предназначен для компьютерной поддержки исследований в геномике, молекулярной биологии, биотехнологии и биомедицине [7]. Основное назначение — функциональная аннотация геномных последовательностей, получаемых в

результате массового высокопроизводительного секвенирования на уровне нуклеотидных и аминокислотных последовательностей. Рабочее название — экспериментальный образец программного комплекса анализа символьных последовательностей геномики (ЭОПК АСПГ). Важная технологическая проблема обработки и анализа данных высокопроизводительного геномного секвенирования требует разработки специализированных компьютерных средств. Развитие новых экспериментальных методов геномики, прежде всего секвенирования, привело к стремительному росту объемов экспериментальных данных, «информационному взрыву». Основная задача компьютерного анализа геномных данных состоит в их функциональной аннотации, интеграции результатов с молекулярно-биологическими информационными ресурсами. В связи с этим большую актуальность приобретает разработка информационно-компьютерных технологий автоматического анализа и функциональной аннотации геномных последовательностей. Для решения задачи был разработан ряд программ для извлечения и интеграции данных, а также визуального представления накопленной информации в форме геномных профилей, представленных на серверах крупнейших международных научных центров NCBI, UCSC Genome Browser, EBI.

Важнейшим объектом теоретической и прикладной геномики являются молекулярно-генетические системы, координирующие функцию геномов, генов, РНК, белков, генных и метаболических путей на различных иерархических уровнях жизни: клеточном, тканевом, органном, организменном, популяционном. Основным источником данных являются нуклеотидные последовательности, получаемые в результате массовых экспериментов высокопроизводительного секвенирования.

Программный комплекс ICGenomics позволяет выполнять следующие логически различные функции:

• процессинг (обработку) протяженных последовательностей нук-леотидов из данных секвенирования, полученных с помощью установок секвенирования нового поколения, в том числе: про-цессинг данных секвенирования платформ 454 и Illumina, процессинг данных секвенирования платформы SOLiD и обработку полногеномных профилей ChIP-seq, включая выделение пиков и предсказание ССТФ;

- реконструкция эволюционной истории белков

- филогенетический анализ

Рис. 2. Структура программного комплекса ICGenomics

• аннотацию геномных нуклеотидных последовательностей, включая: разметку положения нуклеосом на основе вейвлет-преоб-разования полногеномных профилей предсказания, сайтов формирования нуклеосом и распознавания сайтов формирования нуклеосом с помощью данных полногеномного секвенирования линкерной ДНК; поиск экзонов во вновь секвенированных последовательностях; поиск промоторов генов миРНК в нуклеотидных последовательностях на основе специфичных структурных мотивов;

• предсказание аллергенности белков по их структурным и функциональным свойствам на основе метода функциональной аннотации пространственных структур белков, в том числе предсказания функциональных сайтов в пространственных структурах белков;

• исследование режимов эволюции белок-кодирующих генов, включая реконструкцию эволюционной истории белков на основе предсказания ортологов в секвенированных геномах, филогенетический анализ и исследование режимов эволюционного отбора. Программный комплекс состоит из модуля управления (программной компоненты ЮОепотюв-те'еЪ и управляющей программы ЮОепотшв-

и 4 программных компонент ICGenomics-Processing, ЮСепоткэ-ОепотеАппо1а1юп, ЮОепотюв-АПещеп и 1СОепотю8-Еуо1и1юп (рис. 2),

Рис. 3. Пример интерфейса управляющего модуля, содержащего функциональные компоненты геномной аннотации

которые отвечают за функционал пакета. Общий интерфейс представлен на рис. 3.

Более детально примеры решения задач биоинформатики с использованием данного пакета и оборудования ССКЦ использования изложены работах [8-14].

4. Заключение

С 2001 года запущен и успешно функционирует центр коллективного пользования «Сибирский суперкомпьютерный центр». Центр обеспечен двумя кластерами с классической и гибридной архитектурами суммарной мощностью порядка 115 Терафлопс. ЦКП ССКЦ СО РАН предоставляет вычислительные и консалтинговые услуги 21 академическим институтам Сибирского отделения и 5 университетам, более 160 пользователей используют ресурсы центра для решения своих задач. Одним из наибольших потребителей ресурсов ЦКП является Институт Цитологии и Генетики СО РАН. Для решения задач биоинформатики сотрудниками института были разработаны программные пакеты для решения задач моделирования молекулярно-генетических систем и анализа символьных последовательностей геномики.

5. Благодарности

Авторы благодарны Д. А. Рассказову, Ф. М. Науменко и О. Б. Добровольской за помощь в работе.

Список литературы

[1] http://www.gaussian.com/. |102

[2] http://www.gromacs.org/. |102

[3] Ф. В. Казанцев, В. В. Миронова, Е. С. Новоселова и др, «Язык моделирования молекулярно-генетических систем SiBML», Параллельные вычислительные технологии, ПаВТ'2012, 2012, с. 722. f102

[4] В. А. Лихошвай, Ю. Г. Матушкин, А. В. Ратушный и др. «Обобщенный химико-кинетический метод моделирования генных сетей», Молекуляр. биология, 3:6 (2001), с. 1072-1079. f102

[5] И. Р. Акбердин, Ф. В. Казанцев, Н. А. Омельянчук, В. А. Лихошвай. «Математическое моделирование метаболизма ауксина в клетке меристемы побега растения», Информ. вестник ВОГиС, 13:1 (2009), с. 170-175. Т102

[6] Ф. В. Казанцев, И. Р. Акбердин, Н. Л. Подколодный, В. А. Лихошвай. «Новые возможности системы MGSmodeller», Вавиловский журнал генетики и селекции, 16:4/1 (2012), с. 799-804. Т103

[7] V. A. Ivanisenko, P. S. Demenkov, S. S. Pintus et al. "Computer analysis of metagenomic data-prediction of quantitative value of specific activity of proteins", Dokl. Biochem. Biophys., 443 (2012), pp. 76-80. f104

[8] Ю. Л. Орлов и др. «ICGenomics: программный комплекс анализа символьных последовательностей геномики», Вавиловский журнал генетики и селекции,, 16:4/1 (2012), с. 732-741. f106

[9] И. В. Медведева, О. В. Вишневский, Н. С. Сафронова, О. С. Кожевникова, М. А. Генаев, А. В. Кочетов, Д. А. Афонников, Ю. Л. Орлов. «Компьютерный анализ данных экспрессии генов в клетках мозга, полученных с помощью микрочипов и высокопроизводительного секвенирования», Вавиловский журнал генетики и селекции, 17:4/1 (2013), с. 629-638. Т106

[10] И. В. Медведева, О. В. Вишневский, Н. С. Сафронова, О. С. Кожевникова, В. В. Суслов, Е. В. Кулакова, A. М. Спицына, Д. А. Афонников, А. В. Кочетов, Ю. Л. Орлов, «Геномная организация и контекстные характеристики генов с повышенной экспрессией в клетках мозга», XVI Всероссийская научно-техническая конференция «Нейроинформатика-2014», Сборник научных трудов. Т. 2, НИЯУ МИФИ, М., 2014, с. 32-42. Т106

[11] Ю. Л. Орлов. «Компьютерное исследование регуляции транскрипции генов эукариот с помощью данных экспериментов секвенирования и иммунопре-ципитации хроматина», Вавиловский журнал генетики и селекции, 18:1 (2014), с. 193-206. T106

[12] I. V. Medvedeva, A. M. Spitsina, O. V. Vishnevsky, N. S. Safronova, V. M. Efimov, Y. L. Orlov, "Computer analysis of human gene expression data in brain using microarrays", Proceedings of the International Symposium "Human genetics", ISHG-2014 (Novosibirsk, Russia, 2014), pp. 35. T106

[13] E. V. Kulakova, L. O. Bryzgalov, Y. L. Orlov, G. Li, Y. Ruan, "Computer analysis of chromosome contacts revealed by sequencing", Proceedings of the Ninth International Conference on Bioinformatics of Genome Regulation and Structure/Systems Biology, BGRS/SB-2014 (Novosibirsk, Russia, 2014), pp. 90. T106

[14] Е. В. Кулакова, А. М. Спицина, Н. Г. Орлова, А. И. Дергилев, А. В. Свичкарев, Н. С. Сафронова, И. Г. Черных, Ю. Л. Орлов. «Программы анализа геномных данных секвенирования, полученных на основе технологий ChIP-seq, ChIA-PET и Hi-C», Программные системы: теория и приложения, 6:2(25) (2015), с. 129-148, URL: http://psta.psiras.ru/read/psta2015_2_129-148.pdf T106

Рекомендовал к публикации Программный комитет

Третьего национального суперкомпьютерного форума НСКФ-2014

Об авторах:

Борис Михайлович Глинский

Окончил Новосибирский Государственный Университет в 1967 г., профессор, доктор технических наук. Область научных интересов: вычислительные системы, моделирование сейсмических полей, имитационное моделирование.

e-mail: gbm@sscc.ru

Николай Владимирович Кучин

Окончил Новосибирский Государственный Университет в 1971 г., главный специалист по системному программному обеспечению ИВМиМГ СО РАН. Область интересов: высокопроизводительные вычислительные системы, системное программное обеспечение кластеров

e-mail: kuchin@sscc.ru

Игорь Геннадьевич Черных

Окончил Новосибирский Государственный Университет в 2002 г., кандидат физико-математических наук. Область научных интересов: суперкомпьютерные вычисления, химическая кинетика.

e-mail: chernykh@ssd.sscc.ru

Юрий Львович Орлов

Окончил Новосибирский Государственный Университет в 1991 г., доктор биологических наук. Область научных интересов: биоинформатика, компьютерная геномика, эволюция.

e-mail: orlov@bionet.nsc.ru

Николай Леонтьевич Подколодный

Окончил Новосибирский Государственный Университет в 1974 г. Область научных интересов: разработка программно-информационных систем для научных исследований.

e-mail: pnl@bionet.nsc.ru

Виталий Александрович Лихошвай

Окончил Новосибирский Государственный Университет в 1976 г., доктор биологических наук. Область научных интересов: математическое моделирование биологических систем, теория генных сетей, теория моделирования.

e-mail: likho@bionet.nsc.ru

Николай Александрович Колчанов

Академик РАН, директор Института цитологии и генетики СО РАН, заведующий Отделом системной биологии. Область научных интересов: информационная биология, молекулярная биология, молекулярная генетика, компьютерный анализ структурно-функциональной организации и эволюции геномов, генетических макромолекул — ДНК, РНК и белков и молекулярно-генетических систем геномов. e-mail: kol@bionet.nsc.ru

Пример ссылки на эту публикацию:

Б. М. Глинский, Н. В. Кучин, И. Г. Черных, Ю. Л. Орлов и др.. «Суперкомпьютерные технологии в решении задач биоинформатики», Программные системы: теория и приложения, 2015, 6:4(27), с.рр. 99-112.

http://psta.psn.ras .ru/read/psta2015_4_99- 112.pdf

Boris Glinskiy, Nikolay Kuchin, Igor Chernykh, Yuriy Orlov, Nikolay Podkolodnyi, Vitaly Likhoshvai, Nikolay Kolchanov. Bioinformatics and High Performance Computing.

Abstract. This article presents Siberian supercomputer Center (SSCC) as a computational center for bioinformatics. Siberian Supercomputer consists from two cluster supercomputers, especially designed for bioinformatics workstation with symmetric multiprocessing architecture and data center. There are detailed hardware and software architectures described in article. Some success stories of SSCC usage for bioinformatics problems also presented. (In Russian).

Key Words and Phrases: high performance computers; bioinformatics; big data.

References

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

[1] http://www.gaussian.com/.

[2] http://www.gromacs.org/.

[3] F. V. Kazantsev, V. V. Mironova, Ye. S. Novoselova i dr, "Language modeling of molecular-genetic systems SiBMAIL", Parallel'nyye vychislitel'nyye tekhnologii, PaVT'2012, 2012, pp. 722 (in Russian).

[4] V. A. Likhoshvay, Yu. G. Matushkin, A. V. Ratushnyy i dr. "A generalized chemical kinetic simulation method of gene networks", Molecular Biology, 3:6 (2001), pp. 1072-1079 (in Russian).

[5] I. R. Akberdin, F. V. Kazantsev, N. A. Omel'yanchuk, V. A. Likhoshvay. "Mathematical model of auxin metabolism in meristem cells of plant shoots", Inform, vestnik VOGiS, 13:1 (2009), pp. 170-175 (in Russian).

[6] F. V. Kazantsev, I. R. Akberdin, N. L. Podkolodnyy, V. A. Likhoshvay. "New facilities of the MGSmodeller", Vavilov Journal of Genetics and Breeding, 16:4/1

(2012), pp. 799-804 (in Russian).

[7] V. A. Ivanisenko, P. S. Demenkov, S. S. Pintus et al. "Computer analysis of metagenomic data-prediction of quantitative value of specific activity of proteins", Dokl. Biochem. Biophys., 443 ( 2012), pp. 76-80 (in Russian).

[8] Yu. L. Orlov et al. "ICGenomics: a program complex for analysis of symbol sequences in genomics", Vavilov Journal of Genetics and Breeding, 16:4/1 (2012), pp. 732-741 (in Russian).

[9] I. V. Medvedeva, O. V. Vishnevskiy, N. S. Safronova, O. S. Kozhevnikova, M. A. Genayev, A. V. Kochetov, D.A. Afonnikov, Yu. L. Orlov. "Computer analysis of data on gene expression in brain cells obtained by microarray tests and high-throughput sequencing", Vavilov Journal of Genetics and Breeding, 17:4(1)

(2013), pp. 629-638 (in Russian).

© B. Glinskiy!1, N. Kuchin!2, I. Chernykh!3, Y. Orlov!4, N. Podkolodnyi!5, V. Likhoshvai!6, N. KolchanovP, 2015

© Institute of Computational Mathematics and Mathematical Geophysics SB RAS(1>2>3, 2015 © Institute of Cytology and Genetics SB RAS(4>5>6>7, 2015 © Program systems: Theory and Applications, 2015

[10] I. V. Medvedeva, O. V. Vishnevskiy, N. S. Safronova, O. S. Kozhevnikova, V. V. Suslov, Ye. V. Kulakova, A.M. Spitsyna, D.A. Afonnikov, A. V. Kochetov, Yu. L. Orlov, "Genomic organization and contextual characteristics of genes with increased expression in the brain cells", XVI Vserossiyskayanauchno-tekhnicheskaya konferentsiya "Neyroinformatika-2014", Sbornik nauchnykh trudov. V. 2, NIYaU MIFI, M., 2014, pp. 32-42 (in Russian).

[11] Yu. L. Orlov. "Computer-assisted study of the regulation of eukaryotic gene transcription on the base of data on chromatin sequencing and precipitation", Vavilov Journal of Genetics and Breeding, 18:1 (2014), pp. 193-206 (in Russian).

[12] I. V. Medvedeva, A.M. Spitsina, O.V. Vishnevsky, N. S. Safronova, V. M. Efimov, Yu. L. Orlov, "Computer analysis of human gene expression data in brain using microarrays", Proceedings of the International Symposium "Human genetics", ISHG-2014 (Novosibirsk, Russia, 2014), pp. 35.

[13] E. V. Kulakova, L. O. Bryzgalov, Y. L. Orlov, G. Li, Y. Ruan, "Computer analysis of chromosome contacts revealed by sequencing", Proceedings of the Ninth International Conference on Bioinformatics of Genome Regulation and Structure/Systems Biology, BGRS/SB-2014 (Novosibirsk, Russia, 2014), pp. 90.

[14] E.V. Kulakova, A.M. Spitsina, N. G. Orlova, A.I. Dergilev, A. V. Svichkarev, N. S. Safronova, I. G. Chernykh, Yu. L. Orlov. "Supercomputer analysis of genomics and transcriptomics data revealed by high-throughput DNA sequencing", Programmnye Sistemy: Teoriya i Prilozheniya, 6:2(25) (2015), pp. 129-148 (in Russian), URL: http://psta.psiras.ru/read/psta2015_2_129-148.pdf

Sample citation of this publication:

Boris Glinskiy, Nikolay Kuchin, Igor Chernykh, Yuriy Orlov, Nikolay Podkolod-nyi, Vitaly Likhoshvai, Nikolay Kolchanov. "Bioinformatics and High Performance Computing", Program, systems: theory and applications, 2015, 6:4(27), pp. 99-112. (In Russian). URL: http://psta.psiras.ru/read/psta2015_4_99-112.pdf

i Надоели баннеры? Вы всегда можете отключить рекламу.