Метод главных координат как способ расчета главных компонент

В. М. Ефимов; Д. А. Полунин; В. Ю. Ковалева; К. В. Ефимов

Компьютерная биология, медицина и биотехнология 161

Спектры периодичностей как инструмент дифференциации родственных бактериальных геномов

В. Д. Гусев, Л. А. Мирошниченко Институт математики им. С. Л. Соболева Email: luba@math.nsc.ru DOI: 10.24411/9999-017A-2020-10282

Локальными периодичностями в ДНК-последовательностях обычно называют участки, представленные тандемно повторяющимися фрагментами ограниченной длины. Периодичности характеризуются длиной тиражируемого фрагмента, составом элементов и кратностью повторений. Полные спектры периодичностей можно рассматривать в качестве компактного описания геномов достаточно большой длины. Многие периодичности носят неслучайный характер и могут быть использованы в качестве биомаркеров для различения родственных объектов, в частности некоторых бактериальных геномов. Особый интерес в этом плане представляют геномы чумной бактерии (Yersinia pestis) и бактерии псевдотуберкулеза (Yersiniapseudotuberculosis). При близости геномов в целом эти бактерии сильно отличаются по своей патогенности. Получены и охарактеризованы полные спектры периодичностей для достаточно представительных подборок геномов обоих видов. Выявлены периодичности, наиболее информативные в плане дифференциации этих классов объектов.

Работа выполнена при поддержке программы Фундаментальных научных исследований РАН, проект N° 03142019-0015.

BioNet: Моделирование масс-спектров пептидов

Р. Ю. Епифанов\ Д. А. Афонников1,2 1Новосибирский государственный университет 2Институт цитологии и генетики СО РАН Email: ada@bionet.nsc.ru DOI: 10.24411/9999-017A-2020-10365

Важная роль белков в жизнедеятельности организмов привела к развитию методов исследования первичной структуры белка, основанных на масс-спектрометрии. Расшифровка масс-спектров является сложной задачей, так как не в полной мере известны механизмы диссоциации белков в экспериментальных установках, а также влияние совокупности внешних факторов на данный процесс. Поэтому требуется большое количество данных по аннотированным масс-спектрам пептидов с известной последовательностью для совершенствования существующих или разработки новых алгоритмов расшифровки масс-спектров.

В работе рассматривается задача о построение алгоритма in silico моделирования масс-спектра пептидов, решающего проблему учета влияния неканонического аминокислотного состава и посттрансляционных модификаций на процесс диссоциации.

Работа поддержана грантами РФФИ № 17-00-00470 (K), 17-00-00462.

Метод главных координат как способ расчета главных компонент

В. М. Ефимов1,2, Д. А. Полунин2, В. Ю. Ковалева3, К. В. Ефимов4

1Институт цитологии и генетики СО РАН

2Новосибирский государственный университет

3Институт систематики и экологии СО РАН

4Институт высшей нервной деятельности РАН

Email: efimov@bionet.nsc.ru

DOI: 10.24411/9999-017A-2020-10283

При использовании метода главных компонент (ГК, PCA) практически всегда используются матрицы корреляций исходных переменных. Однако более полувека назад Дж. Гауэр [1] предложил метод расчета ГК через матрицу евклидовых расстояний между объектами (PCo).

PCo очень полезен на практике, если число объектов значительно меньше числа признаков или их нет вообще, что становится все более рутинным в биологических исследованиях, особенно молекулярных [2-3].

162

Секция 11

Работа поддержана Российским фондом фундаментальных исследований (19-07-00658-a) и Бюджетным проектом ИЦиГ СО РАН (0324-2019-0040-С-01).

Список литературы

1. Gower JC (1966) Some distance properties of latent root and vector methods used in multivariate analysis. Biometrika, 53(3-4), 325-338.

2. Efimov VM, Efimov KV, Kovaleva VY (2019) Principal component analysis and its generalizations for any type sequence (PCA-Seq). Vavilov J. of Genetics and Breeding. 23(8):1032-1036. DOI: 10.18699/VJ19.584.

3. Polunin DA, Shtaiger IA, Efimov VM (2019) JACOBI4 software for multivariate analysis of biological data. bioRxiv 803684. DOI: 10.1101/803684.

Об интегральных поверхностях в моделях генных сетей

Н. Е. Кириллова

Институт математики им. С. Л.Соболева СО РАН

Email: kne@math.nsc.ru

DOI: 10.24411/9999-017A-2020-10284

Для несимметричной динамической системы размерности 6, моделирующей функционирование генной сети типа Еловица - Лейблера (см. [2]), в работе [3] была проведена дискретизация ее фазового портрета, установлены условия существования цикла C и описана его инвариантная окрестность W. Следуя [1], в случае, когда стационарная точка S рассматриваемой системы является гиперболической, мы строим в окрестности W устойчивую инвариантную поверхность размерности 2, содержащую цикл C и стационарную точку S.

Работа выполнена при финансовой поддержке Российского фонда фундаментальных исследований (код проекта 18-01-00057).

Список литературы

1. Abraham R., Robbin J. Transversal mappings and flows. Benjamin Inc., New York, 1967.

2. Elowitz M. B., Leibler S. A synthetic oscillatory network of transcriptional regulators // Nature. 2000. V. 403. P. 335-338.

3. Аюпова Н. Б., Голубятников В. П., Казанцев М. В. О существовании цикла в одной несимметричной модели молекулярного репрессилятора // Сибирский журнал вычислительной математики. 2017. Т. 20, № 2. С. 121-129.

Parallel implementation of primer search algorithm for PCR

O. Yu. Kiryanova1,1.1. Kiryanov2, L. U. Akhmetzyanova 1,3 B. R. Kuluev4, I. M. Gubaydullin1,3 lUfa State Petroleum Technological University 2Corning, Inc

3Institute of Petrochemistry ana Catalisys, Ufa Federal Research Center RAS 4Institute of Biochemistry and Genetics, Ufa Federal Research Center RAS Email: olga.kiryanova27@gmail.com DOI: 10.24411/9999-017A-2020-10285

The polymerase chain reaction (PCR) was selected to identify the DNA polymorphism of agricultural plants for the subsequent cataloging. The suitable outcome of any PCR vastly depends on the presence of short nucleotide fragments (primers) in the considering DNA chain. Thus, the preliminary analysis should be conducted to increase success of PCR [1]. This paper compares three implementations of primer search algorithm: "linear" method, method using the numba JIT compiler [2], parallel implementation with numba directives. The objects of research were the following plants: Arabidopsis thaliana (L.) Heynh (the genome size is about 130 million nucleotide pairs) [3], Solanum tuberosum L (the genome size is about 1 billion nucleotide pairs) [4], Triticum aestivum L (the genome size is about 17 billion nucleotide pairs) [5]. For the Arabidopsis thaliana (L.) Heynh genome a parallel implementation of the algorithm is commensurate with the linear search. Parallel search implementation reduced analysis time of Triticum aestivum L genome by 400 times. Considered implementations allowed us to choose the optimal way to search primers depending on size of genomes. Thus, the proposed approach could be extended on other agricultural plants.

The reported study was funded by RFBR according to the research project 17-44-020120_p_a.

Метод главных координат как способ расчета главных компонент Текст научной статьи по специальности «Биологические науки»

Похожие темы научных работ по биологическим наукам , автор научной работы — В. М. Ефимов, Д. А. Полунин, В. Ю. Ковалева, К. В. Ефимов

Текст научной работы на тему «Метод главных координат как способ расчета главных компонент»