Научная статья на тему 'Классификация последовательностей на основе коротких мотивов'

Классификация последовательностей на основе коротких мотивов Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
420
107
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КЛАССИФИКАЦИЯ ПОСЛЕДОВАТЕЛЬНОСТЕЙ / МАШИННОЕ ОБУЧЕНИЕ / НЕЙРОННЫЕ СЕТИ / ПОИСК МОТИВОВ / SEQUENCE CLASSIFICATION / MACHINE LEARNING / NEURAL NETWORK / MOTIF EXTRACTION

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Офицеров Евгений Петрович

Задачи, связанные с классификацией последовательностей символов некоторого алфавита, часто возникают в таких областях, как биоинформатика и обработка естественного языка. Методы глубокого обучения, в особенности модели на основе рекуррентных нейронных сетей, в последние несколько лет зарекомендовали себя как наиболее эффективный способ решения подобных задач. Однако существующие подходы имеют серьезный недостаток низкую интерпретируемость получаемых результатов. Крайне сложно установить какие именно свойства входной последовательности ответственны за её принадлежность к тому или иному классу. Упрощение же таких моделей с целью повышения их интерпретируемости, в свою очередь, приводит к снижению качества классификации. Такие недостатки ограничивают применение современных методов машинного обучения во многих предметных областях. В настоящей работе мы представляем принципиально новую, интерпретируемую архитектуру нейронных сетей, основанную на поиске набора коротких подпоследовательностей мотивов, наличие которых влияет на принадлежность последовательности к определенному классу. Ключевой составляющей предлагаемого решения является разработанный нами алгоритм дифференцируемого выравнивания, являющийся дифференцируемым аналогом таких классических способов сравнения строк, как редакционное расстояние Левенштейна и алгоритм Смита-Ватермана. В отличие от предыдущих работ, посвященных классификации последовательностей на основе мотивов, новый метод позволяет не только выполнять поиск в произвольной части строки, но и учитывать возможные вставки.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Motif based sequence classification

Sequence classification problems often arise in such areas as bioinformatics and natural language processing. In the last few year best results in this field were achieved by the deep learning methods, especially by architectures based on recurrent neural networks (RNN). However, the common problem of such models is a lack of interpretability, i.e., extraction of key features from data that affect the most the model’s decision. Meanwhile, using of less complicated neural network leads to decreasing predictive performance thus limiting usage of state-of-art machine learning methods in many subject areas. In this work we propose a novel interpretable deep learning architecture based on extraction of principal sets of short substrings sequence motifs. The presence of extracted motif in the input sequence is a marker for a certain class. The key component of proposed solution is differential alignment algorithm developed by us, which provides a smooth analog of classical string comparison methods such as Levenshtein edit distance, and Smith-Waterman local alignment. Unlike previous works devoted to the motif based classification, which used CNN for shift-invariant searching, ours model provide a way to shift and gap invariant extraction of motifs.

Текст научной работы на тему «Классификация последовательностей на основе коротких мотивов»

ЧЕБЫШЕВСКИЙ СБОРНИК

Том 19. Выпуск 1

УДК 004.032.26, 004.424.62 DOI 10.22405/2226-8383-2018-19-1-187-199

Классификация последовательностей на основе коротких мотивов

Офицеров Евгений Петрович — кафедра прикладной математики и информатики, Тульский государственный университет. e-mail: [email protected]

Аннотация

Задачи, связанные с классификацией последовательностей символов некоторого алфавита, часто возникают в таких областях, как биоинформатика и обработка естественного языка. Методы глубокого обучения, в особенности модели на основе рекуррентных нейронных сетей, в последние несколько лет зарекомендовали себя как наиболее эффективный способ решения подобных задач. Однако существующие подходы имеют серьезный недостаток — низкую интерпретируемость получаемых результатов. Крайне сложно установить какие именно свойства входной последовательности ответственны за её принадлежность к тому или иному классу. Упрощение же таких моделей с целью повышения их интерпретируемости, в свою очередь, приводит к снижению качества классификации. Такие недостатки ограничивают применение современных методов машинного обучения во многих предметных областях. В настоящей работе мы представляем принципиально новую, интерпретируемую архитектуру нейронных сетей, основанную на поиске набора коротких подпоследовательностей — мотивов, наличие которых влияет на принадлежность последовательности к определенному классу. Ключевой составляющей предлагаемого решения является разработанный нами алгоритм дифференцируемого выравнивания, являющийся дифференцируемым аналогом таких классических способов сравнения строк, как редакционное расстояние Левенштейна и алгоритм Смита—Ватермана. В отличие от предыдущих работ, посвященных классификации последовательностей на основе мотивов, новый метод позволяет не только выполнять поиск в произвольной части строки, но и учитывать возможные вставки.

Ключевые слова: классификация последовательностей, машинное обучение, нейронные сети, поиск мотивов.

Библиография: 15 названий. Для цитирования:

Е. П. Офицеров. Классификация последовательностей на основе коротких мотивов // Чебы-шевский сборник, 2018, т. 19, вып. 1, с. 187-199.

CHEBYSHEVSKII SBORNIK Vol. 19. No. 1

UDC 004.032.26, 004.424.62 DOI 10.22405/2226-8383-2018-19-1-187-199

Motif based sequence classification

Ofitserov Evgeny Petrovich — department of applied mathematics and computer science, Tula

State University,

e-mail: [email protected]

Abstract

Sequence classification problems often arise in such ctTGclS clS bioinformatics and natural language processing. In the last few year best results in this field were achieved by the deep learning methods, especially by architectures based on recurrent neural networks (RNN). However, the common problem of such models is a lack of interpretability, i.e., extraction of key features from data that affect the most the model's decision. Meanwhile, using of less complicated neural network leads to decreasing predictive performance thus limiting usage of state-of-art machine learning methods in many subject areas. In this work we propose a novel interpretable deep learning architecture based on extraction of principal sets of short substrings — sequence motifs. The presence of extracted motif in the input sequence is a marker for a certain class. The key component of proposed solution is differential alignment algorithm developed by us, which provides a smooth analog of classical string comparison methods such as Levenshtein edit distance, and Smith-Waterman local alignment. Unlike previous works devoted to the motif based classification, which used CNN for shift-invariant searching, ours model provide a way to shift and gap invariant extraction of motifs.

Keywords: sequence classification, machine learning, neural network, motif extraction.

Bibliography: 15 titles.

For citation:

E. P. Ofitserov, 2018, "Motif based sequence classification", Chebyshevskii sbornik, vol. 19, no. 1, pp.187-199.

1. Введение

Методы глубокого обучения показали свою эффективность в задачах, связанных с классификацией последовательностей. При этом наилучших результатов достигают архитектуры, в основе которых лежат рекуррентные нейронные сети такие LSTM (Long short-term memory) fl] и GRU (Gated recurrent unit) [2], [3]. Однако, не смотря на все достоинства, важный недостаток подобных архитектур — плохая интерпретируемость получаемой модели. Существующие способы визуализации процесса принятия решения [4], [5] не позволяют однозначно ответить на вопрос, какие особенности входной последовательности ответственны за принадлежность к определенному классу. Этот недостаток ограничивает использование глубокого обучения в задачах классификации биологических последовательностей, где важна не только точность получаемой модели, но и возможность проанализировать какие особенности входной строки влияют на решение классификатора.

Другим подходом, активно применяемым в биоинформатике, является классификация на основе мотивов. При построении классификаторов такого типа, предполагается, что ключевым признаком, влияющим на принадлежность последовательности к определенному классу, является наличие в ней некоторой короткой подстроки — мотива. При этом, сами мотивы являются неизвестными параметрами модели, определяемыми в процессе обучения. Данное предположение является оправданным для многих задач, связанных с классификацией биологических последовательностей, а также при обработке естественного языка.

Примером использования классификатора на основе мотивов является работа [6], в которой авторы используют сверточную нейронную сеть для предсказания ДНК-связывающих белков. В основе предложенного ими решения лежит использование одномерного сверточного слоя. Такой слой состоит из набора ядер — скользящих окон, которые «просматривают» исходную последовательность. Каждое ядро представляет собой матрицу из 4 х К коэффициентов, которые могут быть интерпретированы как позиционно-весовые матрицы соответствующих мотивов. После применения такого слоя образуется карта признаков, содержащая информацию о наличии мотивов в различных участках входной последовательности. В свою очередь, полученная карта признаков классифицируется с помощью одного или нескольких полносвязных слоев.

Использование сверток позволяет сети выделять интересующие подстроки, независимого от того, в какой части входной последовательности они находятся. Однако, важным недостатком такого решения является неспособность предложенной архитектуры учитывать возможные разрывы в мотиве (таблица 1).

а. А С Т G А С

Ь. Т G А А G А

с. G Т С G А Т

Таблица 1: Полужирным шрифтом выделены возможные положения мотива (ТОА) в последовательности. Сверточная сеть естественным образом инвариантна к сдвигу и может правильно классифицировать варианты а и Ь, но не учитывает возможные вставки — пример с

Одним из возможных решений проблемы разрывов является использование более глубоких архитектур, комбинирующих сверточные и рекуррентные слои [7]-[9]. Однако при таком подходе теряется возможность явно визуализировать найденные мотивы и однозначно установить их связь с конкретными классами.

Целью данной работы является разработка нейронной сети с принципиально новой архитектурой, позволяющей выполнять поиск с учетом возможных разрывов не прибегая к усложнению модели. Так же, как и в сверточной сети, мотивы кодируются в виде коэффициентов —

параметров модели, организованных в матрицы размера С х где С — мощность алфавита, а К — длина мотива. Однако в отличие от предыдущих работ, поиск мотива в последовательности и формирование карты признаков выполняется не с помощью операции свертки, а с использованием алгоритма дифференцируемым выравнивания мотива, что позволяет естественным образом учитывать возможные разрывы.

2. Дифференцируемое выравнивание

Пусть X — Х\Х2 . . . Х^^ Х% € С, Ь > 1, — входная последовательность символов из алфавита С, |С| — N. Мотив т — т\Ш2 .. -Шк — короткая последовательность символов того же алфавита длины К < Ь.

Классическими критерием, позволяющим сказать содержит ли последовательность х мотив т, является расстояние Левенштейна [10], которое определяет схожесть двух строк, как минимальное количество вставок, замен и удалений необходимых чтобы перевести одну строку в другую. Используя такую метрику, можно ввести меру сходства мотива т и последовательности х как /ьеуег^ет(ж, ш) — Ь — ЕсЦЬ(х, т), где ЕсШ;(ж, т) — редакционное расстояние, Ь — длина последовательности. Однако метрика Левенштейна является дискретной функцией, а получаемый критерий соответствия не дифференцируемым, что не позволяет использовать градиентные методы для обучения модели и поиска неизвестных параметров мотива.

В данном разделе предлагается способ построить гладкую меру соответствия мотива и последовательности /(х, т), которая также позволяет сделать вывод о том, содержится латъх, но при этом может быть продифференцирована по параметрам мотива. В дальнейшем, такая функция может быть использована для построения нейронной сети, в которой символы мотивов являются неизвестными, обучаемыми параметрами, а значения /(х,т) — признаками, используемыми для принятия решения о принадлежности х к определенному классу.

В основе предлагаемого решения лежит понятие выравнивания последовательностей. Выравниванием мотива по последовательности называется отображение символов мотива т на подпоследовательность х' последовательности х. Такое соответствие может быть записано с помощью бинарной матрицы: Ткхь, где Т^^ — 1, если г-й элемент мотива соответствует ^'-му символу последовательности х.

А Т <3 А С

А 1 0 0 0 0

Т 0 1 0 0 0

А 0 0 0 1 0

х р А I т 1 с А 1 с

т = 1 А 1 т 1 А

Рис. 1: Пример выравнивания мотива т по последовательности х и соответствующая ему матрица

Далее рассматриваются только те выравнивания, при которых мотив целиком содержится в последовательности х, то есть каждый элемент мотива соответствует какому-либо символу

последовательности. При таком предположении, в каждой строке матрицы Т должна быть

ь

ровно одна единица: Е Т.^ = 1, Vг. Также, для элементов Т.выполняется следующее усло-з=1

вие: Ту = 0 ] <г V ] > г + К.

Для каждого Т, отвечающего этим условиям, можно ввести следующую оценку, показывающую насколько хорошо мотив т, соответствует х' С х:

к ь

Б(Х, в, с9, Т) = щс9 + £ ^ Тг,Сг„ С = втX. (1)

г=1 3=1

В этой формуле Т — матрица выравнивания, вмхк — позиционно весовая матрица мотива, г,-й элемент которой равняется «штрафу» за замену ^'-го символа мотива на г-й символ алфавита, X — бинарная матрица входной последовательности, столбцы которой представляют собой унитарные коды символов исходной последовательности, пд —- количество разрывов в выравнивании, сд < 0 — штраф за разрыв. При таких обозначениях, значения коэффициентов показывают насколько хорошо ^'-й символ входной последовательности х соответствует

г

Используя формулу (1), можно определить не зависящую от конкретного выравнивания меру сходства последовательности и мотива, как максимум 5(X, в,сд,Т) по всем возможным Т:

/ (X, в,Сд )=шах 5 (X, в,Сд ,Т). (2)

Рассчитанная таким образом мера сходства / (X, в, сд) является аналогом расстояния Ле-венштейна, в котором штрафы за замены и вставки не являются постоянными, а задаются параметрами в и сд. Классические алгоритмы выравнивания последовательностей, такие как алгоритм Смита-Ватермана [11]-[13], так же используют схожую меру соответствия последовательностей. При этом, для поиска максимальной оценки выравнивания в алгоритме Смита-Ватермана используется эффективный метод динамического программирования, позволяющий решить задачу оптимизации (2) за полиномиальное время.

Недостатком такого подхода является недифференцируемость получаемой функции / по параметрам в и сд. Для того, чтобы добиться гладкости критерия соответствия мотива и последовательности, в работе предлагается заменить в выражении (2) поиск максимума 5 (X, в, сд, Т) на взвешенную сумму по всем возможным выравниваниям:

f (X, в,Сд , ) = ^ 5 (X, в,Сд ,Т) Р (Т | X, в,Сд , ) . (3)

т ед

В этой формуле И — множество всех возможных выравниваний, р (Т | X, в, сд) — вероятности соответствующих выравниваний, при условии входной последовательности X и мотива с параметрами в и Сд, для которых выполняется нормировочное условие Е р (Т | X, в, сд,) = 1.

тео

Используя теорему Байеса для р (Т | X, в), можно переписать сумму в виде:

Р (пА-, , Сд )= р (x|т' в''-'д >

Е Р(Х | и, в,Сд)' иео

Е 5 (X, в,Сд ,Т) Р (X | Т, в,Сд) ; (х, в,сд, )=—,

т ео

где р(Х | Т, В, Сд) — представляет собой вероятность входной поеледовательпости X, при условии того, что в ней содержится заданный мотив с заданным выравниванием. Эта вероятность может быть рассчитана по формуле:

к ь

р(х | т, В) = (ПП ^

%3

Рдь

№ = Рт X.

(4)

,г=1з=1

В этом выражении Р — позиционно-вероятностпая матрица мотива, элемент которой

показывает вероятность встретить г-й символ алфавита на ^'-й позиции мотива, рд — вероятность разрыва. По аналогии с формулой (1), коэффициенты Шг^ выражают вероятность того, что ^'-й символ входной последовательности соответствует г-му элементу мотива. Позиционно-вероятностная матрица мотива Р, а также вероятность разрыва рд могут быть получены из позиционно-весовой матрицы мотива В и коэффициента сд соответственно:

Р

( е&1,1

N

Е е©^

г=1

е

©N,1

N

Е ее«,1 =1

е

©1

N =1

\

~N =1

Рд = е

3. Прямой и обратный ход

Для расчета значений значений / (X, В,сд,) по формуле (3) требуется выполнить суммирование по всем возможным выравниваниям мотива по последовательности. Классическим подходом для решения задачи такого перебора является использования методов динамического программирования, основанных на префиксном кодировании. В работе предлагается алгоритм, основанный на аналогичном подходе, который позволяет за полиномиальное время вычислить сумму из формулы (3), не выполняя явный перебор множества И.

Пусть

аг,3 = ^ р (Х1..3 | Т, Вы), т ед

Рг,3 = ^ ^ (Х1 ф В1 :г, Т) р (Х1 у | Т, В1:г)

т ед

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

г = 1,К, 2 = 1,Ь.

Здесь р (Х1 :j| Т, В1 :г) = р1а(гП П ^^,г, — вероятность первых ] символов вход-

Аг=1 г=1 '

ной последовательности, при условии того, что они содержат первые г элементов мотива,

Б (Х1:з, В1:г,Т) = рдпд(%,]) + ^ Тк,1 — оценка соответствующего выравнивания пер-

к=11=1

вых г элементов мотива по первым ] символам последовательности. При таких обозначениях формула (3) может быть переписана в виде:

/ (X, В) = ^.

акь

В свою очередь, с учетом предположения о том, что каждый символ мотива соответствует какому-либо символу входной последовательности, можно показать, что для и ^ справедливы следующие рекуррентные соотношения:

а,

,

+ аг^-хрд, г = 2, К - 1, з > г,

Шг,у + а.^-грд, г = 1,

аг-х^-хМ^ + а.^-1, г = К, з > г,

о, з < г,

(5)

Рг,3 =

(Рг-1,з-1 + Сг^аг-х^-х) + Рд (^¿-1 + Сда^-х), г = 2, К - 1, з > г,

^г,уСг,у + Рд (Рг^-х + Сда^-х) , г = 1,

Шг,у (Рг-х,у-х + Сг^аг-х^-х) + ^-х, г = К, ] > г,

о, з < г.

(6)

Приведенные выше формулы предоставляют эффективный алгоритм для расчета всех коэффициентов аи что позволяет за 0(ЬК) операций вычислить меру соответствия мотива входной последовательности. При этом, получаемая функция / (X, в, сд) является гладкой и может быть продифференцирована по параметрам мотива:

9/ (X, в) д в

дРк,ь а 9ак,ь

--рк,ь~

д в

дв

а

к, ь

дак,1 дв

Едак,ь дак,ь дШг

— - +

,

,

дС^ дв дШ^ дв '

д^к,ь ^ д^к,ь дСг,у + дРк,ь дШ%

,

д в

,

дСг^ дв дШг^ дв

т-г дак ь дак ь д[5к ь д[5к ь г

Для расчета производных дс' ■ ■> д\м- ■ ' дс- ■ > дш' ■ также могут быть использованы рекуррентные соотношения (5),(6). Для этого требуется продифференцировать их по соответствующим параметрам:

да,

,

дщ-х^-х

1 +

даг, 4 -х

=

дШк,1 "г,] ' дШк,

даг^-х

дг,з=к,1 + яш. - Рд,

даг-х^-х дШкл

^ +

да^-х дШы

Рд + $г,з=к,1 аг-х^-х, г = 2, К - 1, з > г,

г = 1,

+ &%,]=к,1 аг-х^-х, г = к, з > г,

з < г,

даг^

дСы

0

о

д(3,

'

'

дРг-1^-1 дШы

+ С,

'

даг-1,з-дШкл

1

+

+ Рд( + ^ +

=

+ $гл=к,1 (Рг-1,з-1 + Сг^аг-1^-1),

х Г1 , (д@г,]-1 . даг^-1 ог,з=к,1Сг,з + Рд [--+ Сд--—

дШк'1 д д\¥к,1 дРг—1,з—1.п даг—1,]—1

1 = 2, К - 1, ]> г, г = 1,

+ д^г,з-1 +

+ дШк1 +

г'Ч дШк>1 + г,] дШк'1

+ &г,з=к,1 (@г-1,з-1 + Сг^аг—1^—1), 0,

( д[5г—1'3—1 д@г,з-1 . , ^

--+ Рд~^--+ ог,]=к,1Сг,заг—1,з—1,

К, з > г,

2 < г,

д^.

'

г'3 дСк'1

д&г,з-1

дСкл

2, К - 1, э> г,

Щз + Рд-

дСк!

дС,

= 1,

к'

тг дРг—1,3-1 . дРг,з-1 . с №г,з —ттт;--+ --+ дг'j=к'l^г'jaг—l'j—l,

дСкл

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

дСкл

г = К, ] > г, 3 < г.

1, г = к Лj = I,

Здесь 5г,3=к,г = Г' 7 - символ Кронекера.

' [0, г = к У] =1

д д

' ^ 'г—1,з—1„т , даг,з—1 , . тТ—тр—т . . .

№г,з +--тт— Рд + аг,з-1, г = 2, К - 1, ] > г,

да,

г,3

дРд

дРд

даг,з-1

даг—1'1—1шг,1 +

дРд

дРд

даг,з—1 дРд ,

0,

г = 1,

г = К, ] > г,

< ,

да.

г,3

д д

0,

г,3

W,

г,3

дРг—1,з—1 дРд

+ С,

даг—1,3-1

г,3

д д

+

дРд

'д(3г,з—л даг,з—1\ , а + Рд[^т--+ сд^Г— + Рг,з-1 + сдаг,з—1,

д

д д

' д@г,з—1 , дРд

д д

+ Сд —^— + Рг^-1 + Сдаг,з-1,

д д

^ (дрг-1-—1 + а/^:1-—1) +

0,

д/3..

,

т

д д

д/Зг-1,3-1

,

д д

=

Рд

д д

д^г,з-1

. дса

+ Рд

дРд

'д[5г,з-1

з-1

д Со

дРд

+ £дЫг,з-1

1 = 2, К - 1, з> г, г = 1,

г = К, ] > г, < .

+ — 1

) ■

Щ

д^г-1,3-1 . д&,з-1

,

д д

+

д д

1 = 2, К - 1, з> г,

г = 1,

г = К, ] > г, < .

4. Архитектура классификатора

Приведенные выше формулы позволяют эффективно рассчитывать, насколько хорошо мотив с параметрами В и сд соответствует последовательности х, а также дифференцировать его по соответствующим параметрам. Это позволяет использовать описанный алгоритм в задачах связанных с классификацией последовательностей. В работе предлагается архитектура нейронной сети, в основе которой лежит слой поиска мотивов, принимающий на вход последовательность символов некоторого алфавита и возвращающий n-мерный вектор признаков. Обучаемыми параметрами такого слоя являются п позпцпонно-весовых матриц мотивов Вг и соответствующие им сгд. Формируемый таким слоем вектор признаков содержит информацию о том, насколько г-ый мотив соответствует входной последовательности. Дифференцируемость алгоритма выравнивания позволяет оптимизировать параметры такого слоя с помощью стандартных градиентных методов.

Для построения итогового классификатора, такой слой используется в сочетании с обычной полноевязной нейронной сетью. При такой архитектуре к векторам признаков, полученным с помощью выравнивания мотивов, применяется активационная функция ReLU (Rectifier Linear Unit) [15] в сочетании с бетч нормализацией [14]. После этого полноевязная нейронная сеть формирует финальные вероятности классов.

Рис. 2: Предлагаемая архитектура классификатора последовательностей

Преимуществом подобной архитектуры, по сравнению с рекуррентными нейронными сетями, является возможность визуализировать процесс принятия решения с помощью позиционно-вероятностных матриц мотивов.

Если в качестве финального классификатора используется один линейный слой, то его веса так же могут быть использованы для получения дополнительной информации о влиянии мотивов на принадлежность последовательности к определенному классу.

5. Классификация синтетических данных

Для тестирования описанного алгоритма была сгенерирована синтетическая обучающая выборка ^trainj состоящая из 50000 последовательностей над алфавитом из 4 букв: А, Т, G и С, длиной от 5 до 20 символов, разбитых на два класса. Последовательности первого класса были получена из мотива т\ путем вставок случайных символов алфавита в различных местах мотивах. Количество вставляемых символов п выбиралось случайно в зависимости от позиции вставки — п £ 0,12, для вставок внутри мотива и п £ 0,15 вначале и в конце. По такому же принципу последовательности второго класса были получены из мотива т.2-

Аналогичным образом, используя те же мотивы т\ и т,2, была сгенерирована тестовая выборка Dtest-

Последовательности 1-го класса Последовательности 2-го класса

AGCTcTtcaata AGCTTt AttccGCTT gccAGCgTcT CcgATGC cCAggTcatGC atcCATGaggCgc CAcggaTGC

Таблица 2: Пример синтетических данных для т\ = AGCTT, т,2 = CATGC

Выборка Strain была использована для обучения нейронной сети, предсказывающей к какому классу принадлежит последовательность. Эксперименты были проведены для различных мотивов mi и т.2- Для оценки качества мотивов, найденных нейронной сетью использовалось следующие соотношения:

А1 = Edit(m 1,т1), т 1 = argmax Pi

i,

= Edit (fn2,m1), т 2 = argmax P2

В этих соотношениях т 1 и fh,2 — найденные мотивы, Р,1 и P~j — соответствующие им позиционно-вероятностные матрицы, Edit — редакционное расстояние.

m1 m,2 точность на тесте ^■2

AGCTT CATGC 0.98 0 0

ATACT CTGAC 0.97 0 0

GTTCCA CACGTG 0.99 0 0

Таблица 3: Результаты классификации для различных мотивов Ш1 и т,2

6. Заключение

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

В работе разработан принципиально новая архитектура нейронная сети, основанная на извлечении мотивов, с использованием алгоритма дифференцируемого выравнивания. Численные эксперименты на синтетических данных подтвердили, что предложенная модель способна правильно находить мотивы с учетом вставок случайных символов и классифицировать последовательности на их основе. Описанные алгоритмы могут быть эффективно распараллелены для вычисления на графических процессорах.

Рис. 3: Визуализация полученных позиционно-вероятностных матриц для т\ = АССТТ, Ш2 = С АТС С, и> — коэффициент финального линейного классификатора, соответствующий матрице

СПИСОК ЦИТИРОВАННОЙ ЛИТЕРАТУРЫ

1. Hoehreiter S., Schmidhuber .J. Long short-term memory /7 Neural computation. 1997. Vol. 9, № 8. P. 1735 1780.

2. Learning phrase representations using RNN encoder-decoder for statistical machine translation / K. Cho [et all. /7 arXiv:1406.1078. 2014.

3. Empirical evaluation of gated recurrent neural networks on sequence modeling / .J. Chung fet al.]. // arXiv:1412.3555. 2014.

4. Karpathv A., .Johnson .J., Fei-Fei L. Visualizing and understanding recurrent networks /7 arXiv: 1506.02078. 2015.

5. Lstmvis: A tool for visual analysis of hidden state dynamics in recurrent neural networks / H. Strobelt fet al.]. /7 IEEE transactions on visualization and computer graphics. 2018. Vol. 24, № 1. P. 667 676.

6. Convolutional neural network architectures for predicting DNA protein binding / H. Zeng et al. /7 Bioinformatics. 2016. Vol. 32, № 12. P. il21 il27.

7. Zhou .J., Trovanskava O.G. Predicting effects of noncoding variants with deep learning based sequence model /7 Nature methods. 2015. Vol. 12, № 10. P. 931.

8. Deep motif: Visualizing genomic sequence classifications / .J. Lanehantin fet al.]. /7 arXiv: 1605.01133. 2016.

9. Quang D., Xie X. DanQ: a hybrid convolutional and recurrent deep neural network for quantifying the function of DNA sequences /7 Nucleic acids research. 2016. Vol. 44, № 11. P. el07 el07.

10. Левеиштейи В. И. Двоичные коды с исправлением выпадений, вставок и замещений символов // Докл. АН СССР. 1965. Т. 163, № 4. С. 845-848.

11. Smith Т. F., Waterman М. S. Comparison of biosequences // Advances in applied mathematics. 1981. Vol. 2, № 4. P. 482-489.

12. Gotoh O. An improved algorithm for matching biological sequences // Journal of molecular biology. 1982. Vol. 162, № 3. P. 705-708.

13. Manavski S.A., Valle G. CUDA compatible GPU cards as efficient hardware accelerators for Smith-Waterman sequence alignment // BMC bioinformatics. 2008. Vol. 9, № 2. P. S10.

14. Ioffe S., Szegedv C. Batch normalization: Accelerating deep network training by reducing internal covariate shift // arXiv:1502.03167. 2015.

15. Hahnloser R. H. R. et al. Digital selection and analogue amplification coexist in a cortex-inspired silicon circuit // Nature. 2000. Vol. 405, № 6789. P. 947.

REFERENCES

1. Hochreiter, S. к Schmidhuber, J. 1997, "Long short-term memory", Neural computation, vol. 9, no. 8, pp. 1735-1780.

2. Cho K. et al. 2014, "Learning phrase representations using RNN encoder-decoder for statistical machine translation", агХт:Ц06.1078.

3. Chung J. et al. 2014, "Empirical evaluation of gated recurrent neural networks on sequence modeling", arXiv:1412.3555.

4. Karpathv, A., Johnson, J. к Fei-Fei, L. 2015, "Visualizing and understanding recurrent networks", arXiv:1506.02078.

5. Strobelt H. et al. 2018, "Lstmvis: A tool for visual analysis of hidden state dynamics in recurrent neural networks", IEEE transactions on visualization and computer graphics, vol. 24, no. 1, pp. 667-676.

6. Zeng H. et al. 2016, "Convolutional neural network architectures for predicting DNA-protein binding", Bioinformatics, vol. 32, no. 12, pp. il21-il27.

7. Zhou, J. к Trovanskava, O.G. 2015, "Predicting effects of noncoding variants with deep learning-based sequence model", Nature methods, vol. 12, no. 10, pp. 931.

8. Lanchantin J. et al. 2016, "Deep motif: Visualizing genomic sequence classifications", arXiv:1605.01133.

9. Quang D. к Xie X. 2016, "DanQ: a hybrid convolutional and recurrent deep neural network for quantifying the function of DNA sequences", Nucleic acids research, vol. 44, no. 11, pp. el07-el07.

10. Levenshtein, V. I. 1965, "Binary codes with correction of fallouts, inserts and notes", Reports of the Academy of Sciences (in Russian), vol. 163, no. 4, pp. 845-848. fin Russian]

11. Smith T. F. к Waterman M.S. 1981, "Comparison of biosequences", Advances in applied mathematics, vol. 2, no. 4, pp. 482-489.

12. Gotoh, O. 1982, "An improved algorithm for matching biological sequences", Journal of molecular biology, vol. 162, no. 3, pp. 705-708.

13. Manavski S. A., Valle G. 2008, "CUDA compatible GPU cards as efficient hardware accelerators for Smith-Waterman sequence alignment", BMC bioinformatics, vol. 9, no. 2, pp. S10.

14. Ioffe S. k, Szegedv C. 2015, "Batch normalization: Accelerating deep network training by reducing internal covariate shift", arXiv:1502.03167.

15. Hahnloser R. H. R. et al. 2000, Digital selection and analogue amplification coexist in a cortex-inspired silicon circuit", Nature, vol. 405, no. 6789, pp. 947.

i Надоели баннеры? Вы всегда можете отключить рекламу.