Научная статья на тему 'Об информационной емкости символьных последовательностей'

Об информационной емкости символьных последовательностей Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
130
60
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Садовский М. Г.

Введено понятие информационной ёмкости, основанное на сравнении реальной и ожидаемой частот малых фрагментов последовательности. Приведён ряд примеров, рассмотрены основные свойства информационной ёмкости.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Information capacity of symbol sequences

The concept of informational capacity is introduced which based on a comparison of the real and expected frequencies of small fragments in a symbol sequence. Main characteristics of the informational capacity are examined. A few examples are presented.

Текст научной работы на тему «Об информационной емкости символьных последовательностей»

Вычислительные технологии

Том 10, № 4, 2005

ОБ ИНФОРМАЦИОННОЙ ЕМКОСТИ СИМВОЛЬНЫХ ПОСЛЕДОВАТЕЛЬНОСТЕЙ

М. Г. Слдовский Институт биофизики СО РАН, Красноярск, Россия e-mail: msad@icm.krasn.ru

The concept of informational capacity is introduced which based on a comparison of the real and expected frequencies of small fragments in a symbol sequence. Main characteristics of the informational capacity are examined. A few examples are presented.

Введение

Символьные последовательности как объект исследования встречаются в самых разных областях знания — от математики и информатики до биологии и лингвистики. Часто символьные последовательности выступают в роли математической модели той среды, которая передает и хранит информацию. Интерпретация той информации, которая представлена в символьной последовательности, зависит от конкретной области знаний, в рамках которой рассматриваются свойства такой последовательности. Вопрос о количественных характеристиках содержания этой информации может быть разрешен в рамках анализа статистических свойств самой последовательности безотносительно к конкретным свойствам природного прототипа.

Ответ на вопрос о количественных показателях информационной емкости может быть сформулирован в точных терминах. Говоря об информационной емкости последовательностей, следует подчеркнуть, что в прикладных задачах, как правило, фигурируют конечные символьные последовательности. Являясь конечным объектом, такие последовательности обладают нулевой информационной емкостью. Для того чтобы содержательно вести речь об информационной емкости, необходимо перейти от рассмотрения конечных символьных последовательностей к рассмотрению ансамблей бесконечных текстов, в том или ином смысле соответствующих исходной конечной последовательности1. Такой переход совершается путем построения частотного словаря рассматриваемой последовательности. Далее мы не будем различать частотный словарь, построенный по конечной последовательности, и соответствующий ему частотный словарь, построенный по всему ансамблю; специальные указания на различия будут делаться в случае, если это будет необходимо для понимания.

Содержательно информационная емкость является мерой предсказуемости при построении продолжения слова (короткого фрагмента), взятого из последовательности. Формулировка гипотез о продолжениях слов, взятых из последовательности, требует указания того правила, по которому будет оцениваться вероятность того или иного продолжения,

© Институт вычислительных технологий Сибирского отделения Российской академии наук, 2005.

Имеющих такой же частотный словарь.

ожидаемого для данного слова. Здесь возможны два варианта. Первый — заменить исходную последовательность на модельную (обычно предполагают, что исходная последовательность является реализацией какого-либо случайного процесса) и оценить вероятность продолжения, опираясь на свойства этого модельного случайного процесса. Второй вариант состоит в том, чтобы оценить вероятность продолжений у слов, опираясь лишь на знание частот самих этих слов. Мы будем следовать второму пути.

Вообще говоря, исследования статистических свойств символьных последовательностей весьма популярны, особенно в связи с расшифровкой большого объема генетических данных. Большую часть исследований в этом направлении составляют работы, выполненные в рамках первого подхода, — сравнения с модельными случайными последовательностями; мы не будем подробно на них останавливаться, поскольку настоящая работа выполнена в рамках другого подхода. Изучение статистических свойств нуклеотидных последовательностей имеет давнюю историю.

1. Частотные словари и наиболее ожидаемая частота слов

Рассмотрим какую-либо символьную последовательность длины N символов из конечного алфавита Н мощности С = ||Н||, не содержащую пробелов2; любую связную подпоследовательность длиной д символов, встречающуюся в ней, будем называть словом (длины д). Совокупность всех слов (длины д), встречающихся в ней, будем называть д-носителем. Сопоставив каждому слову ш из д-носителя его частоту

/. иш

и = N

получим частотный словарь Ш(д) (толщины д); здесь иш — число копий этого слова.

Вопрос об информационной емкости символьной последовательности эквивалентен вопросу об уровне предсказуемости продолжений слов. Ответить на вопрос о предсказуемости продолжений можно двумя способами: первый — высказать гипотезу о свойствах всей последовательности целиком и на ее основе попытаться оценить вероятности возможных продолжений, второй — оставаться в рамках гипотезы о наиболее вероятном продолжении слов данной длины. Мы будем действовать в рамках второго подхода.

Это означает, что, отвечая на вопрос о предсказуемости продолжений, мы ограничимся лишь рассмотрением частотного словаря толщины д. Понятно, что вся информация, содержащаяся в частотном словаре Ш(/), есть и в частотном словаре Ш(д), / < д. Действительно [1, 2], информационное содержание частотного словаря Ш(д) — это неопределенность в выборе того или иного конкретного слова из последовательности, по которой составлен этот частотный словарь. Мера такой неопределенности есть энтропия

S (Ш(д)) = - £ и 1п /ш (1)

ш

соответствующего частотного словаря [3]. Вместе с тем частота любого слова ш' длины I (/ < д), ш' С ш, может быть однозначно вычислена по частотному словарю Ш(д) толщины д. Для этого необходимо просуммировать частоты всех слов длины д, отличающихся

2Рассмотрение несвязных последовательностей также возможно, однако ничего содержательно нового это не дает, а возникающие технические трудности лишь затрудняют понимание.

первыми (либо последними) д — I символами. Если частотный словарь строится по конечной последовательности, то эти две суммы не совпадают — возникают краевые эффекты, связанные с конечностью исходной последовательности. Для того чтобы избежать такого рода эффектов, исходную последовательность следует замкнуть в кольцо [4, 5].

Как правило, словарь Ш(д) толщины д содержит больше информации, чем словарь Ш(/) толщины I, д > I. Однако существует критическая толщина словарей (*, начиная с которой все словари большей толщины содержат столько же информации, сколько и словарь Ш((*). Отношение

г =-,

1п N

где N — длина последовательности, является мерой избыточности последовательности (некоторые приложения этой меры избыточности к задачам молекулярной биологии см. в [6-9]).

В общем случае информационное содержание частотных словарей возрастает по мере роста их толщины. Именно это обстоятельство и позволяет вести речь об их информационной емкости. Информационная емкость частотного словаря — это мера отличия реальных частот слов длины д от их ожидаемых частот. Тем самым понятие информационной емкости существенно зависит от того, каким именно способом будет определяться ожидаемая частота. Здесь возможны два варианта: делать оценки ожидаемой частоты на основе гипотезы о структуре исходной последовательности либо оценивать ожидаемую частоту исходя из частот комбинаций более коротких слов, которые составляют данное. Первый подход получил определенную популярность в задачах молекулярной биологии [10], однако априорное предположение о существовании определенной структурированности биологических макромолекул (точнее, соответствующих им символьных последовательностей) никак не обосновано.

1.1. Принцип максимума энтропии и ожидаемые частоты

Пусть в распоряжении исследователя имеются два частотных словаря — Ш(д) и Ш(д — 1). Реальные частоты слов длины д содержатся в первом из этих двух словарей. Ожидаемые частоты можно оценить, рассматривая все комбинации слов из словаря Ш(д — 1), которые порождают слова из Ш(д). Комбинируя слова из Ш(д — 1), можно получить различные варианты словаря Ш'(д), Ш''(д), Ш'''(д),..., однако не все из них будут удовлетворять линейному ограничению. Дело в том, что такие словари, скомбинированные из слов меньшей длины, должны порождать вполне конкретный словарь Ш(д — 1) при суммировании по первому (либо последнему) символу. Такое линейное ограничение выделяет во множестве словарей Ш'(д), Ш''(д), Ш'''(д),... семейство {Ш(д)}, которое, как правило, содержит более одного словаря. Среди всех словарей из указанного семейства найдется тот Ш(д), для которого энтропия (1) максимальна3. Именно этот словарь реализует принцип наиболее вероятного продолжения слов длины д — 1 в слова длины д. Указанный экстремальный принцип позволяет вычислить частоты /, / £ Ш(д) слов в словаре Ш(д) явным образом

[1, 4, 5]:

7 _ /»1»2»3...»д — 2»д—1 /¿2»3г4 •••»д-1 »д (2)

/пг2 гз...гд-1»д / . (2)

^Существование максимума гарантировано конечностью множества словарей в семействе {W(д)}.

Формула (2) превращается в

/¿112 /¿1 /¿2

для случая д = 2. Возможен случай восстановления словаря Ш(д) по словарю Ш(/) при I < д — 1, однако мы не будем останавливаться на рассмотрении этого случая (подробности см. в [1, 4, 5]).

1.2. Информационная емкость

Построение восстановленного частотного словаря Ш(д) позволяет строго ответить на вопрос об информационной емкости частотного словаря Ш(д). Мерой информационной емкости словаря Ш(д) является значение условной энтропии Б (ш(д)|Ш(д)^ реального частотного словаря относительно восстановленного. Условная энтропия Б определяется следующим образом [3]:

= £ /ш 1п(/Л . (3)

ш \/ш/

Подставляя в (3) выражение (2) для ожидаемых частот, получаем

Б (д) = 2Бд-1 — Бд — Бд-2; (4)

Б (2) = 2Б1 — Б2' (5)

соответственно, для случая д = 2. Выражение (3) определено корректно, поскольку восстановленный словарь Ш(д) содержит все слова, содержащиеся в Ш(д), и, быть может, некоторые еще. Формулы (4) и (5) для случая восстановления Ш(д) по Ш(/) при / < д — 1 превращаются в

Б = (д — / + 1) Бг — Бд — (д — /)Бг-1 и Б = дБ1 — Бд

соответственно.

Поведение величин (4), (5) определяется длиной рассматриваемой последовательности и порядком чередования символов в ней. Для любой конечной последовательности всегда найдется такая критическая длина слов в*, начиная с которой все словари толщины д > в* восстанавливаются однозначно [6-9]. Это означает, что такие словари содержат каждое слово в единственном экземпляре и энтропия таких словарей не меняется с увеличением длины слов4. Из этого следует, что для конечных последовательностей Бд = 0, по крайней мере для д > в*. С другой стороны, в типичном случае разнообразие частотных словарей по мере роста длины слов, содержащихся в них5, нарастает. Соответственно, можно ожидать, что информационная емкость (4) достигнет максимума при некотором д = дт (рис. 1).

Информационная емкость равна нулю6 для последовательностей двух типов: для полностью случайных нескоррелированных последовательностей и для последовательностей, обладающих ярко выраженным порядком и, соответственно, высоким уровнем предсказуемости. Очевидно, что для случайных последовательностей /ш = /ш = /1/2 ... / (для

4И составляет = 1п N, где N — длина последовательности.

5Для сравнительно коротких слов.

6С точностью до эффектов, связанных с конечностью исходной последовательности, для которой строится частотный словарь.

S

Рис. 1. Информационная емкость генома Borrelia burgdorferi.

случая восстановления по словарям толщины q = 1; для более толстых все аналогично), и, соответственно, (4), (5) обращаются в нуль. Оценки для высоко скоррелированных и упорядоченных последовательностей сложнее и заметно зависят от структуры самой последовательности, однако факт скоррелированности означает, что продолжения различных слов весьма хорошо предсказуемы, что и делает значение информационной емкости (4), (5) весьма близкой к нулю для них.

Проиллюстрируем изложенный здесь метод определением информационной емкости генома бактерии Borrelia burgdorferi. Этот геном представляет собой связную символьную последовательность из четырехбуквенного алфавита {A, C, G, T} длиной 910 724 символа. Сама последовательность хранится в EMBL-банке (номер доступа AE000783). Для этой последовательности вычислялись величины (4) и (5) для 2 < q < 20. На рис. 1 показано изменение информационной емкости для этого генома в указанном диапазоне длин слов. Для достаточно длинных слов (q > 15) информационная емкость рассматриваемого генома падает; этот очевидный факт связан с тем, что подавляющее большинство слов такой длины встречается в геноме в единичном экземпляре. Тем самым поведение максимума (4) также оказывается сильно зависящим от длины последовательности (т. е. от структуры частотного словаря соответствующей толщины); значения максимума (4) и его положение имеет смысл сравнивать лишь для близких по длине последовательностей, тогда они выявляют разницу в структурах таких последовательностей.

2. Обсуждение

В работе изложен строгий подход к определению информационной емкости символьной последовательности, точнее, информационной емкости ее частотного словаря. Само понятие информационной емкости становится содержательным лишь при переходе от рассмотрения конечных последовательностей к рассмотрению соответствующих им бесконечных ансамблей (и представляющих их частотных словарей).

Информационная емкость — это мера различия между ожидаемыми продолжениями коротких фрагментов в последовательности в более длинные и реально наблюдаемыми. Смысл величин (4), (5) заключается в том, что они измеряют неопределенность исхо-

да в эксперименте, в котором наугад выбирается некоторое слово из последовательности при условии, что наиболее ожидаемые частоты всех таких слов известны заранее. При этом ожидаемые частоты слов оцениваются по реальным частотам слов меньшей длины, наблюдаемым в той же последовательности. Кроме того, сам по себе способ получения ожидаемых частот также опирается на экстремальный принцип — получая оценки для ожидаемых частот, исследователь не вносит в них никакой априорной или дополнительной информации либо не опирается на знание, не содержащееся в самой последовательности.

Как отмечалось выше, информационная емкость равна нулю для двух типов последовательностей — случайных и высокоупорядоченных. Два этих типа, противоположные по своим статистическим свойствам, оказываются неразличимыми с точки зрения их информационной емкости. Сами такие последовательности тем не менее хорошо различаются по своим статистическим характеристикам: абсолютные значения энтропии Бд частотного словаря (толщины д) для случайной последовательности будут существенно больше, чем для упорядоченной.

Изучая различные символьные последовательности с точки зрения поведения информационной емкости их частотных словарей, важно понимать, в каких пределах может меняться эта величина и как она зависит от толщины рассматриваемого словаря. Максимум величины (4) будет наблюдаться при таком распределении символов, для которого наблюдается наибольшее отклонение реальной частоты от ожидаемой. По-видимому, хорошей оценкой может быть следующая. Рассмотрим последовательность из двухбуквенного алфавита Н = {0,1}. Максимально равновесный словарь толщины д = 1 будет содержать частоты символов /0 = /1 = 1/2. При этом слов длины д =2 всего возможно четыре; для последовательности

0000 . 000 111. „ 1111

N/2 N/2

получим последовательность, для которой7 словарь толщины д = 2 будет иметь вид /11 = /00 = 1/2; /01 = /10 = 0. Для такого словаря информационная емкость (5) достигает максимума и составляет

Б 2 = 1п 2 .

Аналогичную последовательность можно построить и для последовательности из алфавита мощности М > 2. Для этого случая информационная емкость (5) составляет Б2 = 1п М.

Рассмотрим теперь случай словаря толщины д = 3 для последовательности из алфавита Н = {0,1}. По-прежнему мы должны стремиться к тому, чтобы /„• = 1/4 V ¿'^ € {0,1}. Последовательность вида . . . 0011001100110011 . . . обеспечивает требуемый словарь толщины д = 2 и для слов длины д = 3 дает словарь /001 = /011 = /100 = /110 = 1/4; /000 = /010 = /101 = /111 = 0. Информационная емкость (4) для этого случая равна Б3 = 1п 2. В периодической последовательности ... (10111000)п ... частоты всех слов длины д = 3 совпадают и равны /ш = 1/8; в словаре толщины д = 4 ненулевую частоту8 также имеют всего восемь слов: 0001, 0010, 0101, 0111, 1000, 1011, 1100 и 1110. Легко видеть, что для такой последовательности Б4 = 1п2. Вообще говоря, для алфавита {0,1} всегда можно построить последовательность такого типа и Бя = 1п 2 для любого д. Аналогично можно показать, что для произвольного алфавита Н: ||Н|| = М предельное значение информационной емкости (4) будет близко к Бя = (М/2)1п2. Данное обстоятельство делает информационную емкость очень важным инструментом для исследования статистических

7В пренебрежении краевыми эффектами.

8Частота этих слов равна 1/8.

и информационных свойств символьных последовательностей, поскольку значения емкости (4) не зависят от толщины словарей q.

Выше говорилось (см. разд. 1.2), что для высокоупорядоченных последовательностей информационная емкость (4), (5) принимает значения, близкие к нулю. Примеры, построенные выше, показывают, что не для всякой упорядоченной последовательности такое утверждение справедливо; очевидно, оно справедливо лишь для последовательностей, аналогичных показанной на предыдущей странице, и словарей достаточной толщины. Тем не менее измерение информационной емкости помогает различать сложные, случайные и вы-сокоупорядоченные последовательности. Для случайных, а также высокоупорядоченных последовательностей с высокой точностью выполняется соотношение Sq = 0, а отклонения от нулевого значения порождены лишь конечностью последовательности.

Сравнение значений Sq, наблюдаемое при различных q для одной и той же последовательности, позволяет выявить в ней скрытый порядок. На рис. 2 показано изменение информационной емкости, вычисленное для q < q < 8 для некоторых геномов бактерий. Здесь показаны кривые изменения информационной емкости, вычисленные для шести бактериальных геномов: Chromobacterium violaceum (идентификатор AE016825), Desulfovibrio vulgaris (идентификатор AE017285), Geobacter sulfurreducens (идентификатор AE017180), Helicobacter hepaticus (идентификатор AE017125), Synechocystis sp. (идентификатор BA000022) и Thermoanaerobacter tengcongensis (идентификатор AE008691); все геномы депонированы в EMBL-банке. Информационная емкость определялась для словарей толщины 1 < q < 9. Информационная емкость символьной последовательности — еще один инструмент для изучения и анализа ее структурированности. Данные, представленные на рис. 2, показывают, что вычисление информационной емкости для символьных последовательностей, соответствующих естественным объектам (геномам в нашем случае), выявляет в них порядок. При этом данный порядок носит универсальный характер, поскольку определяется по всей последовательности целиком.

Другой возможный вариант выделения порядка в символьных последовательностях — сравнение значений информационной емкости для отдельных фрагментов последовательности, последовательно выделяемых в ней окном фиксированной длины L. Такое срав-

Рис. 2. Немонотонный характер изменения информационной емкости (4), (5) в геномах некоторых бактерий, свидетельствующий о существовании в них порядка.

нение позволяет строить информационный профиль последовательности, являющийся ее структурой.

Обратимся еще раз к определению условной энтропии (3). Очевидно, что наибольший вклад в эту сумму вносят те слова, для которых наблюдается наибольшее отличие реальной и ожидаемой частот. Такие слова следует считать информационно значимыми. Изучение таких слов позволяет выявить связь между различными последовательностями (см., например, [1, 2, 11]). Кроме того, большой интерес представляет изучение распределения таких слов вдоль по последовательности. Для биологических макромолекул наблюдается корреляция между их положением и функциональной ролью тех участков, в которые они попадают [12, 13], т.е. возможен переход от статистики к семантике символьных последовательностей. Еще одно продуктивное приложение идей, связанных с изучением распределения информационно значимых слов, возникает в задачах восстановления утерянных данных [14-16], однако подробное обсуждение этих вопросов выходит за рамки настоящей статьи.

Список литературы

[1] Gorban A.N., PopovA T.G., Sadoysky M.G., WuNSCH D.C. Information content of the frequency dictionaries, reconstruction, transformation and classification of dictionaries and genetic texts // Intelligent Engineering Systems through Artificial Neural Netwerks. Vol. 11: Smart Engineering System Design. N.Y.: ASME Press, 2001. P. 657-663.

[2] Gorban A.N., Popoya T.G., Sadoysky M.G. Classification of symbol sequences over thier frequency dictionaries: towards the connection between structure and natural taxonomy // Open Syst.& Inform. Dyn. 2000. Vol. 7, N 1. P. 1-17.

[3] ГОРБАНЬ А.Н. Обход равновесия. Новосибирск: Наука, 1984. 268 с.

[4] Бугаенко Н.Н., Горбань А.Н., Садовский М.Г. Информационная емкость нуклеотид-ных последовательностей и их фрагментов // Биофизика. 1997. Т. 42, № 5. С. 1047-1053.

[5] Bugaenko N.N., Gorban A.N., Sadoysky M.G. Maximum entropy method in analysis of genetic text and measurement of its information content // Open Syst.& Inform.Dyn. 1998. Vol. 5, N 3. P. 265-278.

[6] Горбань А.Н., Попова Т.Г., Садовский М.Г. Избыточность генетических текстов и мозаичная структура генома // Молекул. биология. 1994. T. 28, № 2. С. 313-322.

[7] САдовский М.Г. К вопросу об избыточности геномов вирусов и прокариот // Генетика. 2002. T. 38, № 5. С. 695-701.

[8] Попова Т.Г., САдовский М.Г. Избыточность генов уменьшается в результате сплайсинга // Молекуляр. биология. 1995. T. 29, № 3. C. 500-506.

[9] Попова Т.Г., САдовский М.Г. Интроны отличаются от экзонов по своей избыточности // Генетика.1995. T. 31, № 10. C. 1365-1369.

[10] Гельфанд М.С. Компьютерный анализ последовательностей ДНК // Молекуляр. биология. 1998. T. 32, № 1. С. 103-120.

[11] Горбань А.Н., Попова Т.Г., САдовский М.Г. Классификация нуклеотидных последовательностей по частотным словарям обнаруживает связь между их структурой и таксономическим положением организмов // Журн. общей биологии. 2003. Т. 64, № 1. С. 65-77.

[12] Мамонова М.А., САдовский М.Г. Информационная ценность различных триплетов некоторых генетических систем // Журн. общей биологии. 2003. Т. 64, № 5. С. 421-433.

[13] Мамонова М.А., САдовский М.Г. К построению статистической семантики геномов // Матер. 11-й Всерос. конф. "Нейроинформатика и ее приложения", Красноярск 3-5 окт. 2003 г. Красноярск, 2003. С. 105-106.

[14] Неменчинская Е.О., Кондратенко Ю.В., САдовский М.Г. Предварительные результаты в проблеме восстановления утерянных данных с помощью кинетической машины Кир-дина // Вычисл. технологии. 2004. Т. 9, № 1. С. 42-57.

[15] Nemenchinskaya E.O., Kondratenko Yu.V., Sadoysky M.G. Entropy based approach to data loss reparation through the indeterminate fine-grained parallel computation / Open Systems & Information Dynamics. 2004. Vol. 11, N 2. P. 161-175.

[16] Gorbunoya E.O., Kondratenko Yu.V., Sadoysky M.G. Data loss reparation due to indeterminate fine-grained parallel computation // Lecture Notes in Computer Science. SpringerVerlag, Heidelberg. 2003. Vol. 2658. P. 794-801.

Поступила в редакцию 2 апреля 2004 г., в переработанном виде —11 января 2005 г.

i Надоели баннеры? Вы всегда можете отключить рекламу.