иркутским государственный университет путей сообщения
странения радиоволн для них приблизительно одинаковы.
BTS Максимальная Максимальная 1
дальность GSM дальность CDMA
BTS-1 2,5 км 45 км 2
BTS-2 700 м. 46 км.
Как видим, максимальные дальности обслуживания CDMA и GSM различаются на порядок.
В заключении выражаю благодарность руководству компании БайкалВестКом за разрешение использовать материалы измерений и научному руководителю профессору Н.Н. Климову за полезную дискуссию.
3.
4.
БИБЛИОГРАФИЯ
Бабков В. Ю. Системы связи с кодовым разделением каналов. М., 2003. 45 с. Петрович Н. Т., Размахнин М. К. Системы связи с шумоподобными сигналами. М., 1969. 232 с.
Гавриленко В. Г. Распространение радиоволн в современных системах мобильной связи [Б. м.], 2003. 103 с.
CDMA20001X Data Services Optimization Guide. Huawei : Business Objects, 2004. 198 p.
Архипов В. В., Константинов Ю. М., Мартьянов В. И.
УДК 57.087+007.51
ЛОГИКО-ЭВРЕСТИЧЕСКИЕ МЕТОДЫ ПОИСКА ВТОРОИЧНЫХ СТРУКТУР РНК
Математически задача преобразования нук-леотидных последовательностей РНК во вторичную структуру может трактоваться как важный частный случай комбинаторных задач высокой сложности [1, 2].
Прямое применение для этой задачи классического метода удовлетворения ограничениям в логическом программировании [3] или подходов [4-6], в той или иной степени идущих от логики, наталкивается на некоторые технические трудности, связанные с отсутствием свободы выбора значений переменных из доменов (областей значений). Эти и другие причины не позволяют трактовать данные методы как полноценную альтернативу традиционным математическим методам, рассмотренным в лекции [1].
Но если ввести дополнительные ограничения на вторичные структуры (связанные не только с минимальной энергией), то логико-эвристические методы решения комбинаторных задач высокой сложности [6] могут оказаться вполне конкурентно способной альтернативой или, как минимум, полезным дополнением.
Важно отметить, что задачи преобразования нуклеотидных последовательностей РНК во вторичную структуру с дополнительными ограничениями являются по сложности МР -полными (в [1] предполагается даже экспоненциальная сложность) и, следовательно, не могут для всех случаев решаться эффективно каким-либо одним методом.
Необходим постоянно расширяющийся спектр методов решения, каждый из которых имеет свою "нишу" (область эффективной работы).
В настоящее время логико-эвристические методы решения комбинаторных задач высокой сложности используются для сетевого планирования (расписания). Точнее, эти методы применяются для решения задач календарного, ресурсного и стоимостного планирования производства, обслуживания и другого, включая задачи поддержки организации учебного процесса (например, известная проблема проектирования расписания занятий в учебных заведениях [6]).
В настоящей работе рассматривается модификация логико-эвристических методов решения комбинаторных задач высокой сложности для поиска вторичных структур РНК, удовлетворяющих ряду ограничений (связанных не только с минимальной энергией). Ограничения для вычислительных экспериментов выбирались для поиска последовательностей нуклеотидов, соответствующих потенциальным микроРНК [7, 8]. Исходные данные для вычислительных экспериментов, результаты которых приводятся в данной работе, взяты с сайта www.ncbi.nlm.nih.gov, а также из банков нуклеотидных последовательностей GenBank (США) и EMBL (Европа).
Адаптация логико-эвристических методов решения комбинаторных задач высокой сложности проводилась вначале на поиске полного спек-
системным анализ и его приложения
тра совершенных повторов в генетических текстах (геномы Bradyrhizobium japonicum
(BA0000040_GR), Streptomyces avermitilis (BA0000030_GR)), в результате чего была создана программа, работающая с достаточно высокой скоростью и настраиваемая по многим параметрам.
Важно отметить, что логико-эвристические методы изначально ориентированы на использование многопроцессорных вычислительных систем [6, теорема 2].
Общую схему решения комбинаторных задач высокой сложности логико-эвристическими методами можно трактовать как преобразования начальной (инициальной) многоосновной алгебраической системы (для конкретной прикладной задачи это реляционная база данных, так как домены можно считать основными множествами, а реляционные таблицы - как отношения на основных множествах) в конечную (финальную), удовлетворяющую ограничениям.
Как правило, для конкретной задачи можно найти конечный базис преобразований и таким образом решать переборную задачу, порождая пространство многоосновных алгебраических систем, получаемых из инициальной применением той или иной комбинации преобразований.
Оптимизация переборов сводится к возможно более быстрому решению в каждой точке пространства поиска трех фундаментальных задач:
а) просмотру вперед (checking forward [3]) для уменьшения количества применяемых преобразований;
б) определению точки возврата для тупика (intelligent backtracking [3] или глубокий возврат по принятой у ряда авторов в России терминологии);
в) проверки выполнимости ограничений на многоосновной алгебраической системе, полученной после выполнения выбранного преобразования (применение демонов для определения невязок - терминология специалистов по системам искусственного интеллекта и оптимального управления).
1. Логико-эвристические методы решения комбинаторных проблем. В логико-эвристическом подходе [6] инициальной моделью является многоосновная алгебраическая система (а.с.)
M = (Л1г...,As; fi,...Jn; А,..„рк>, (1) где A - основные множества, f - операции (функции) на основных множествах, р - предикаты (отношения) на основных множествах. В дальнейшем будем рассматривать только а.с. дан-
ной сигнатуры
с=; Рк >•
Для решения комбинаторной задачи требуется перестройка отношений и функций такая, что получившаяся в результате а.с. удовлетворяет ограничениям. В рамках классического логического подхода такого рода перестройки ограничиваются формульным заданием каких-либо отношений и функций (через базовые данными средствами строятся вычислимые), либо через расширение основных множеств термами (например, списочная надстройка в семантическом программировании [4]), а реализуемость (вычислимость) поддерживается автоматическим доказательством теорем (АДТ) или его частным случаем - логическим программированием [3]. Проверка ограничений сводится к интерпретации формул на а.с. (проверке истинности).
При решении комбинаторных проблем подобного рода "уточнений" (через ввод формульных отношений и функций) недостаточно. Схемы решения задач в методе удовлетворения ограничениям [3] или в логико-эвристическом подходе [6] требуют определения операторов преобразования функций и отношений исходной а.с. М (1), позволяющих получать последовательности а.с. (пространство состояний исходной а.с. М), а сама проблема состоит в поиске а.с., удовлетворяющей заданным ограничениям. Подобная формализация, возможно, напоминает подход Месаровича и Та-кахары [9] (наиболее близки операторам преобразований функции перехода состояний в теории реализации), но не требует ввода параметра времени и будет приведена только для случая дискретных конечномерных задач.
Для формализации процесса решения комбинаторных проблем определим основу процесса (ОП) как тройку
П = (М, А, Я>, (2)
• •
где М - а.с. сигнатуры с (1), которая будет рассматриваться как начальные условия процесса решения, А = } - множество операторов
преобразования а.с., Я = {Яи...,Ят} - множество ограничений, определенных на а.с. данной сигнатуры с и принимающих значение истина или ложь.
Слово Ж = w1 в алфавите А назовем
•
решением комбинаторной проблемы, заданной ОП (2), если все ограничения Я выполнены на а.с. Ж(М) = (...(М))...) . Таким образом, поиск последовательностей операторов преобразований, являющихся решением, и является основным со-
иркутским государственный университет путей сообщения
держанием логическо-эвристического подхода.
Если искать аналогии с классическими методами, такими как динамическое программирование, то решение Ж следует называть допустимым управлением. Основное отличие методов решения комбинаторных проблем логического подхода и традиционных методов (динамическое и другое программирование) состоит в том, что здесь во главу угла ставится удовлетворение ограничениям (поиск допустимого управления), а не вопрос оптимизации по тому или иному критерию. Хотя, конечно, относительная оптимизация (выбор наилучшего из совокупности найденных допустимых решений) делается практически всегда.
Рассмотрим важнейшие технические приемы для повышения эффективности решения комбинаторных проблем в рамках логического подхода. Пространство поиска решения, очевидно, порождается вариантами выбора операторов преобразований А = } в каждой точке про-•
странства. Точку пространства поиска решения назовем тупиковой, если проведенная последовательность преобразований не может быть дополнена до решения комбинаторной проблемы. Стратегия "смотри вперед" состоит в анализе текущей точки пространства поиска решения и уменьшении вариантов выбора операторов преобразований
А = {^}, т.е. убираем из этого множества •
операторы, заведомо ведущие в тупиковые состояния. Стратегия стандартного и глубокого возврата (backtracing) состоит в откате назад при получении тупикового состояния.
При стандартном возврате откат назад делается на один шаг (т.е. берется предыдущая точка пространства состояний) и вместо оператора 5{ применяется оператор (может быть и меньшего номера, если используется стратегия "смотри вперед"). При глубоком возврате осуществляется анализ причин тупикового состояния и откат может осуществляться на много шагов назад, что, конечно, очень сильно сокращает перебор. Стратегия "чем хуже, тем лучше" состоит в выборе самой левой точки с признаком влияния на попадание в тупиковое состояния. Понятно, что данная стратегия неполна, но наиболее сильно сокращает пространство поиска. Для обеспечения эффективности реализации возврата необходимо уметь быстро восстанавливать среду точки возврата (восстанавливать а.с., соответствующую этой точке пространства состояний).
В логико-эвристическом подходе [6] глубокий возврат дополняется неполным восстановлением среды точки возврата, что обеспечивает со-
хранение части алгоритмического ресурса, потраченного между точками возврата и тупика (т.е. некоторые вычисления остаются). Более точно, пусть применение слова щ...ЩЩ+1 . ■ -Щ в алфавите А = { ^ } приводит к тупиковой точке, а
•
точке возврата соответствует применение слова щ = щ . ■ -Щ . В рамках стратегии неполного восстановления среды точки возврата откат может осуществляться к точке пространства состояний, соответствующей применению слова
щ ..мхщ ...ип, где слово щ... ип входит с точностью до вычеркивания букв в слове щ+1 .. .щ . Такой подход значительно усложняет многие технические моменты программной реализации метода (как в плане обеспечения корректности решения, так и в организации данных, фиксирующих траекторию решения, сбор мусора и т.п.), но отключение этой возможности (неполное восстановление среды точки возврата) не позволяет в реальное время решать, например, задачу планирования расписания занятий.
Рассмотрим конкретизации данной схемы для вышеуказанных задач. В методе удовлетворения ограничениям для переменных хг,...,хи необходимо найти значения аап из конечных множеств Л1,...,Лп соответственно, удовлетворяющие ограничениям. Нетрудно заметить, что данная постановка может быть трансформирована в задачу построения а.с., удовлетворяющей ограничениям. Операторами преобразований будет выбор элементов из множеств Л ,. , Л .
В динамическом программировании системе X необходимо сопоставить а.с. М с основными множествами, соответствующими областям изменения параметров из X, если в сигнатуру а.с. М ввести отношения, позволяющие присваивать параметрам из X любые значения (конечно, еще надо ввести все остальные необходимые функции и отношения, например, сложение, умножение и др.). Тогда в качестве операторов преобразований можно взять совокупность / (X, у),..., /(X,),..., где / - функция перехода системы в новое состояние, у - управления.
При логико-эвристическом подходе явно выделяются следующие типы данных, структуры управления решением и базовые алгоритмы:
1) данные, представляющие объекты планирования и их ресурсы;
2) структуры управления, фиксирующие траекторию решения и обеспечивающие откат назад на любой шаг решения (т.е. обеспечивающие полное
системным анализ и его приложения
восстановление среды точки возврата);
3) алгоритмы проверки выполнимости ограничений на каждом шаге решения (демоны);
4) алгоритмы восстановления среды точки возврата;
5) алгоритмы сдвига в выборе следующего элемента ресурса;
6) алгоритмы распознавания тупика и определения точки возврата (обеспечивают глубокий возврат);
7) алгоритмы редактирования шагов решения между тупиковой точкой и точкой возврата (обеспечивают глубокий возврат без полного восстановления среды точки возврата).
Алгоритмы пунктов 3)-7) должны иметь очень эффективную реализацию, отсутствие алгоритма 7) ограничивает область реального применения этих методов (по крайней мере, для решения задач проектирования расписания занятий для учебных заведений).
2. Логико-эвристические методы проверки выполнимости ограничений. Рассмотрим алгоритмы проверки выполнимости ограничений на каждом шаге решения (демоны) при постановке задачи в стиле метода удовлетворения ограничениям. Как отмечалось выше, в методе удовлетворения ограничениям для переменных х,...,хи необходимо найти значения а,.••,а из конечных множеств Л1,...,Лп соответственно, удовлетворяющие ограничениям Я = {Яг,...,Я} . Нетрудно заметить, что данная постановка может быть трансформирована в задачу проверки принадлежности кортежа элементов (а,.■■,а) п -местным отношениям Я,...,Яот. При таком подходе отношения Я,...,Яот можно считать классами ситуаций (кластерами) в пространстве ситуаций, заданном декартовым произведением Л1 ® Лп, а переменные х,.••,Х - показателями, задающими ситуацию и принимающими значения из множеств Л,.••,Л„ соответственно. Эффективность проверки выполнимости ограничений для логико-эвристических методов на однопроцессорном компьютере определяет следующая
Теорема 1 [6]. Верхняя граница сложности проверки принадлежности ситуации (а,.■■,а) классам ситуаций (кластерам) Я,...,Яот не превышает 0(п2).
Логико-эвристические методы проверки выполнимости ограничений можно реализовать на многопроцессорных системах.
Теорема 2 [6]. Верхняя граница сложности
проверки принадлежности ситуации (a,...,ап) классам ситуаций (кластерам) R,...,Rm для компьютера с n и более процессорами не превышает O(n).
Конечно, для более общих случаев трудно сформулировать (а иногда и невозможно) результаты, подобные вышеприведенным теоремам, но для случая поиска вторичных структур РНК, удовлетворяющих ограничениям, описанным ниже, данные теоремы можно использовать.
Отметим также, что проведенные практические эксперименты показали: на проверку выполнимости ограничений тратится от 25% до 60% вычислительного ресурса решения комбинаторной задачи высокой сложности.
3. Логико-эвристические методы поиска вторичных структур РНК, удовлетворяющих ограничениям. При решении задачи поиска повторяющихся последовательностей (повторов) в генетических текстах метод был модифицирован. Предполагаем, что в тексте не будет встречаться символ произвольного нуклеотида " *". Тогда оценка сложности в теореме 1 может быть снижена до O(n). Таким образом, задача поиска повторяющихся слов в генетическом тесте будет решена за время порядка квадрата длины текста в худшем случае, в среднем же сложность метода будет оцениваться величиной O(n logn) .
Описанный метод с успехом можно применять и для поиска в геномных последовательностях кандидатов в гены микроРНК. В генетическом тексте микроРНК представляет собой несовершенный палиндромный повтор длиной 20-25 нуклеотидов, при этом промежуточная область между повторяющимися участками должна иметь размер от 9 до 130 нуклеотидов. На структуру промежуточной области и самого повтора накладывается ряд дополнительных условий [6, 7]:
1) минимальное количество спаренных оснований у гена микроРНК и комплементарного участка - 15, максимальное количество неспаренных оснований - 5;
2) микроРНК содержит не более 6 одинаковых нуклеотидов подряд;
3) количество последовательно идущих неспа-ренных оснований не более 2;
4) содержание в микроРНК G и C не менее 30% и не более 70% соответственно;
5) минимальная свободная энергия микроРНК -менее чем 30 ккал/моль;
6) минимальная свободная энергия шпилечной структуры, в которую входит микроРНК, - менее чем 60 ккал/моль.
иркутским государственный университет путей сообщения
Чтобы использовать описанный выше метод для поиска микроРНК, необходимо разделить процесс построения дерева, содержащего информацию о позиционировании в тексте последовательностей, и процесс поиска для текущей последовательности комплементарной пары. Сложность такого алгоритма, очевидно, не будет отличаться от сложности алгоритма поиска повторов. Полученные с помощью этого способа последовательности в дальнейшем могут быть проверены на соответствие дополнительным условиям (ограничениям), накладываемым на структуру промежуточной области и самого повтора.
Программа поиска последовательностей нуклеотидов, соответствующих потенциальным микроРНК (удовлетворяющим ограничениям 1-6), просчитывалась на геноме Arabidopsis. Было найдено следующее количество последовательностей:
Complite-chromosomel-chainl
Complite-chromosome2-chain1
Complite-chromosome3-chain1
Complite-chromosome4-chainl
Complite-chromosome5-chain1
- 24 последовательности;
- 53 последовательности;
- 41 последовательность;
- 47 последовательностей;
- 51 последовательность.
сительно женской X хромосомы.
Таблица 1
1 хромосома - 492;
2 хромосома - 416;
3 хромосома - 264;
4 хромосома - 180;
5 хромосома - 234;
6 хромосома - 221;
7 хромосома - 313;
8 хромосома - 155;
9 хромосома - 213;
10 хромосома - 214;
11 хромосома - 196;
12 хромосома - 281;
13 хромосома - 92;
14 хромосома - 193;
15 хромосома - 171;
16 хромосома - 233;
17 хромосома - 293;
18 хромосома - 76;
19 хромосома - 362;
20 хромосома - 141;
X хромосома - 217;
Y хромосома - 24.
Просчет проведен примерно за 6 часов работы офисного настольного компьютера.
Программа также применялась для поиска кандидатов в гены микроРНК в геноме человека. При этом к условиям 1-6 были добавлены следующие 2 условия:
1. Промежуточная область (между микроРНК и комплементарным регионом) содержит короткие (2,3 нк и более) палиндромные повторы, расположенные в зеркальном порядке;
2. Количество выпяченных (не имеющих пары) или асимметрично неспаренных нуклеотидов - не более 2 на микроРНК. Таким образом, микроРНК и комплементарный регион могут различаться размером на 2 нуклеотида.
Было найдено количество кандидатов в гены микроРНК (см. табл. 1). Просчет проведен примерно за 15 часов работы офисного настольного компьютера.
Обращает внимание малое количество последовательностей, удовлетворяющих ограничениям, на мужской Y хромосоме, что подтверждает ее потенциальную "истощенность" (отмечаемую многими генетиками и не только у человека) отно-
4. Заключение. Постановки задач, подобные рассмотренной выше, не требуют использования всего инструментария логико-эвристических методов решения комбинаторных задач высокой сложности. Работа с наборами последовательностей нуклеотидов (например, филогенетический анализ [10]) и поиск в них множества последовательностей нуклеотидов, удовлетворяющих достаточно сложным ограничениям, возможно, потребует в дальнейшем использования всех средств данного подхода.
БИБЛИОГРАФИЯ
1. Воробьев Д. Г. Вторичная структура РНК и методы ее расчета // Информационная биология : спецкурс. М., 2007. Режим доступа : www.bionet.nsc.ru.
2. Лахно В. Д. Биоинформатика и высокопроизводительные вычисления // Вестн. РФФИ. М., 2000. № 3 (21). С. 38-45.
3. Hentenrick P. Constraint Satisfaction in Logic Programming. Cambrige : The MIT Press, 1989. 356 p.
4. Гончаров С. С., Свириденко Д. И. £ -
системным анализ и его приложения
программирование // Вычислительные системы : Логико-математические аспекты МОЗ : сб. науч. тр. / под ред. Ю. Г. Косарева, С. С. Гончарова. Новосибирск : ИМ СО АН СССР, 1985. Вып. 107. С. 3-29.
5. Васильев С. Н., Жерлов А. К. Об исчислении типово-кванторных формул // ДАН. 1995. Т. 343,№ 2. С. 583-585.
6. Мартьянов В. И. Логико-эвристические методы сетевого планирования и распознавание ситуаций // Проблемы управления и моделирования в сложных системах : тр. III Между-нар. конф. Самара, 2001. С. 469-473.
7. Détection of 91 Potential Conserved Plant Mi-croRNAs in Arabidopsis Thaliana and Oryza Sativa Identifies Important Target Genes / E. Bonnet, J. Wuyts, P. Rouze, Y. Peer // Proc.
Natl. Acad Sci. USA. 2004. V. 101, no. 31. P.11511-11516.
8. Lindow M., Krogh A. Computational Evidence for Hundreds of Non-conserved Plant Micro-RNAs // BMC Genomics. 2005. V. 6. P. 119.
9. Месарович М., Такахара Я. Общая теория систем: математические основы. М. : Мир, 1978. 312 с.
10. Колчанов Н. А. Молекулярная эволюция регуляции генетических систем [Электронный ресурс] // Информационная биология : спецкурс. М., 2007. Режим доступа : www.bionet.nsc.ru.
Шульга Т. Э.
УДК 519.71
ОБЩАЯ СХЕМА УПРАВЛЕНИЯ ДИСКРЕТНЫМИ СИСТЕМАМИ НА ОСНОВЕ ФУНКЦИОНАЛЬНОЙ ИЗБЫТОЧНОСТИ
Введение. Одним из факторов, определяющих эффективность использования сложных и, как следствие, дорогостоящих технических систем, является длительность их эксплуатации. В свою очередь, длительность эксплуатации определяется не только надежностью, но и способностью системы изменяться в соответствии с быстро меняющимися требованиями внешней среды. Поэтому современные технические средства должны обладать соответствующей функциональной гибкостью, возможностью изменения параметров и режимов работы, поддерживать определенные процедуры настройки.
Современному состоянию общей теории управляющих систем характерно использование для модификации поведения двух основных типов избыточностей: аппаратной (структурной) и функциональной (временной) [1]. Аппаратная избыточность подразумевает введение в состав системы дополнительных резервных копий элементов, на которые может быть возложена задача реализации заданного функционирования при выходе из строя одной из основных частей или при необходимости модификации поведения системы.
Функциональная избыточность предполагает возможность использовать свойства текущего закона функционирования для формирования на выходах требуемой совокупности реакций только за счет имеющегося в данный конкретный момент или искусственно создаваемого резерва времени (организация «повторного счета», повторный запуск логической операции и т.п.) При этом для формирования на выходе требуемой совокупности реакций на вход следует подавать специальные последовательности входных символов, которые будем называть восстанавливающими. Восстанавливающая последовательность - это последовательность входных символов, которая, будучи применима при любом текущем состоянии системы, в качестве последнего выходного символа даст требуемый выходной символ. Если возможно построить восстанавливающие последовательности для каждой требуемой реакции из некоторой заданной совокупности реакций, то будем говорить, что система обладает функциональной избыточностью относительно заданной совокупности требуемых поведений. Функциональная избыточность может выявляться в созданной системе при решении за-