9. Захарова И.Г., Карамзин Ю.Н., Трофимов В.А., Веремеенко Т.В. Расчет процесса теплового самовоздействия двумерных световых пучков в прозрачной и облачной среде // Программное обеспечение ЭВМ. Библиотека прикладных программ БИМ-М. № 21. Минск: Ин-т ма-тем. АН БССР, 1990. С. 123-130.
10. Самарский А.А. Теория разностных схем. М.: Наука, 1989.
11. Самарский А.А., Николаев Е.С. Методы решения сеточных уравнений. М.: Наука, 1978.
12. Trofimov V. A., Matusevich О. V. Comparison of efficiency of various difference schemes for the problem of SHG in media with quadratic and cubic nonlinear response // Abstract of FDM'06. Rousse; Bulgaria, 2006. P. 24-25.
13. Ashihara S. et al. Soliton compression of femtosecond pulses in quadratic media // JOSA B. 2002. 19. N 10. P. 2505-2510.
14. www.intel.com
15. Воеводин В. В., Воеводин Вл. В. Параллельные вычисления. СПб.: БХВ-Петербург, 2002.
16. www.openmp.org
Поступила в редакцию 22.11.06
УДК 519.2
0. В. Шестаков
ОБ УСТОЙЧИВОСТИ МЕТОДА ВОССТАНОВЛЕНИЯ РАСПРЕДЕЛЕНИЙ МНОГОМЕРНЫХ СЛУЧАЙНЫХ ФУНКЦИЙ ПО РАСПРЕДЕЛЕНИЯМ ПРОЕКЦИЙ1
(кафедра математической статистики факультета ВМиК, e-mail: oshestakov@cs.msu.su)
1. Введение. Томографические методы находят широкое применение во многих областях науки. Эти методы основаны на обращении преобразования Радона и позволяют восстановить описывающую объект функцию нескольких переменных, если известны все ее проекции. В различных приложениях (см. [1, 2]) иногда приходится рассматривать случайные функции нескольких переменных. При этом основной особенностью является то обстоятельство, что разным реализациям проекций соответствуют разные реализации случайной функции. В результате восстановление даже одной реализации многомерной случайной функции обычными томографическими методами невозможно.
Задачи подобного рода привели к появлению нового направления теории томографии — стохастической томографии. Основной интерес в задачах стохастической томографии представляют собой вероятностные характеристики случайных функций.
В работах [3-5] предпринимается попытка ответить на вопрос: можно ли восстановить вероятностные характеристики случайной функции, зная вероятностные характеристики ее проекций? Приводится ряд контрпримеров. Показывается, что для определенного класса случайных функций такое восстановление возможно, и для этого класса разрабатывается основанный на моментах проекций метод восстановления распределений случайных функций по распределениями проекций. В [6] приводятся численные оценки погрешности этого метода.
В данной работе мы предлагаем модифицированную версию метода восстановления распределений случайных функций. Метод основан на интерполяции функций моментов многочленами Чебышева и позволяет значительно уменьшить погрешность восстановления по сравнению с методом, предложенным в [5]. Будет рассмотрено два случая: когда погрешность проекций не превосходит заданного уровня и когда проекции регистрируются с аддитивным шумом.
1 Работа выполнена при финансовой поддержке РФФИ (гранты № 05-01-00535, 04-01-00671).
2. Постановка задачи. Пусть имеется двумерная случайная функция £(х,у). Относительно этой случайной функции будем предполагать, что она интегрируема с вероятностью 1 и имеет компактный носитель. Без потери общности будем считать, что этим носителем является единичный круг с центром в начале координат: II = {(х,у) 6 И.2 : х2 + у2 ^ 1}. Функции, совпадающие всюду, за исключением множеств нулевой лебеговой меры, будем считать эквивалентными. Тогда проекции функции £(х,у) — это одномерные случайные функции вида
л/Г^Р"
= J сое <р — у вт (р, в вт <р + у сое <^б[0,7г), — 1 ^ 5 ^ 1.
Предполагается, что известны все совместные распределения (по в) проекций для каждого угла (р. Задача состоит в нахождении совместных распределений случайной функции £(х,у).
Оказывается, в общем случае нельзя однозначно определить совместные распределения У1), • • •, £(хт, Ут), если известны совместные распределения ^ (в!),..., С(«га) для всех т = = 1,2,... и всех (р 6 [0,7г) (см. [4]). Однако удается выделить довольно широкий класс случайных функций, достаточный для многих приложений, в котором вероятностные характеристики двумерной случайной функции могут быть полностью восстановлены, если известны вероятностные характеристики некоторого множества проекций.
3. Класс Т случайных функций и теорема единственности. Пусть Т — множество всех случайных функций £(х,у) вида
где /1 (ж, у), /г(ж, у),... — последовательность интегрируемых функций, определенных в единичном круге С/, а г/ — случайная величина, принимающая целые положительные значения. Далее класс Т рассматривается в качестве основной модели.
Случайные функции из класса Т есть не что иное, как дискретные случайные элементы в пространстве Ь1(и), и их вероятностная структура полностью определяется набором
(Л(ж, г/), /2(ж, г/),. ..;Р1,Р2, ■ ■ ■),
оо
где = у) = /¿(ж, у)), г = 1,2,..., ^ Рг = 1- Распределение у) будем обозначать Р^.
¿=1
Оказывается, что в рамках введенной модели (класс Т) распределение двумерной случайной функции полностью определяется распределениями проекций, а именно имеет место следующая теорема (см. [3]).
Теорема. Пусть £(х,у) Е Т, г](х,у) 6 Т и
— Рг/'Р
для всех <р 6 А С [0,7г), где Л бесконечно. Тогда
=
то. е. в классе Т распределение любой случайной функции однозначно определяется распределениями любого бесконечного множества проекций.
4. Группировка проекций. Итак, в классе Т случайных функций возможно восстановить распределение двумерной случайной функции, зная распределения бесконечного множества ее проекций. В работе [5] предложен алгоритм, позволяющий разделить множество зарегистрированных проекций на группы, соответствующие различным реализациям случайной функции. Однако погрешность этого метода достаточно велика, поскольку используемую в нем функцию момента приходится экстраполировать. Здесь мы предлагаем модифицированную версию этого метода, которая за счет увеличения числа операций позволяет значительно уменьшить погрешность восстановления. Предлагаемый здесь метод рассчитан на случай, когда Л = [0, тг).
Мы опишем алгоритм группировки проекций для случая, когда случайная функция может принимать только два состояния. Обобщение на любое конечное число состояний очевидно, а для случая
счетного числа состояний можно применить "усечение" распределений проекций, как это делается в [5].
Итак, пусть случайная функция £(х,у) принимает значения /1 (х,у) и /2 (х,у) с вероятностями р\ и р2- Предполагается, что известны распределения для р> 6 [0,7г), т.е. для каждого р 6 [0,7г)
известны функции /^(в), I = 1,2, являющиеся проекциями функций //(«), I = 1,2, и реализующиеся с вероятностями р\ и р2 соответственно. Причем, вообще говоря, заранее неизвестно, какая реализация проекции какой реализации функции соответствует, т.е. может быть так, что (я) является проекцией /2 (ж, у), а /2 (в) — проекцией /\(х, у). Необходимо распределить функции /^(в), I = 1, 2, для всех р £ [0,7г) по группам так, чтобы каждая группа реализаций проекций относилась к одной реализации случайной функции.
Если р\ ф р2, то такое разделение можно произвести по вероятностям реализаций проекций, т.е. для всех р £ [0,7г) то значение /¡'(в), которое реализуется с вероятностью р\, мы относим к первой группе, а значение /^(в), которое реализуется с вероятностью р2, — ко второй.
В случае, когда р\ = Р2 = метод группировки проекций основан на следствии из обобщенной проекционной теоремы, которое утверждает, что
т
Интеграл (р) называют то-м моментом проекции для данного угла <р, и равенство означает,
что то-й момент проекции представляется конечным рядом Фурье по переменной р>. Используя это свойство проекций, можно построить алгоритм группировки проекций.
Сначала возьмем интегралы от /^(в), г = 1,2, по в для некоторого р> 6 [0,7г) (т.е. посчитаем
(¥>))• Если интегралы отличны друг от друга, то, поскольку значения этих интегралов не зависят от угла р>, можно произвести группировку, основываясь на этих значениях. Чтобы это сделать, для каждого р> Е [0,7г), беря интегралы по 5 от (в), г = 1,2, будем относить /^(в) к той или иной группе в зависимости от того, чему равен интеграл. В результате в каждой группе окажутся функции /^(в), р> £ [0,7г), интегралы от которых по в равны одному и тому же значению.
Если интегралы от /^(в), г = 1,2, по в совпадают, будем рассматривать моменты проекций для т > 0. Заметим, что в силу компактности носителя функций если все моменты двух функций совпадают между собой, то эти две функции эквивалентны. Значит, если функции /¡'(в), I = 1,2,
различны, то найдется номер то, для которого моменты проекций (</?), I = 1,2, различаются.
Посчитаем моменты (р>п) в точках срп = ^ 1 ^ = 1, 2, га = 1,..., М, где М = 2то + 1. Всего
существует 2м способов распределить значения ,1\т\<рп), I = 1,2, по двум группам (на практике М, как правило, невелико). Обозначим через Р множество всех возможных распределений. Решим системы уравнений
т
Е 1т3егп^ = Ы, 1к= 1,2, к=1,...,М,
3=-т
для всех возможных распределений к из Р. В результате получим 2м функций (обозначим их (</?), к = 1,...,2М), претендующих на роль функций моментов ,1\т\<р), I = 1,2. Если предположить отсутствие погрешностей, то достаточно, перебирая (</?), проверять, равно ли значение (</?*) какому-либо из значений (V3*), / = 1, 2, в произвольно выбранной точке р)*, отличной от точек рп.
При том /г*, при котором равенство имеет место, совпадает с одной из ,1\т\<р), I = 1,2, для
всех р 6 [0,7г), поскольку многочлены степени М, совпадающие более чем в М точках, тождественно равны.
После того как найдены функции моментов, вычисляя для каждого р 6 [0, тг) моменты проекций, мы относим проекции к той или иной группе в зависимости от того, со значением какой из найденных функций в точке р совпадает это вычисленное значение момента. Затем можно восстановить каждую реализацию случайной функции, а значит, и ее распределение обычными томографическими методами.
5. Метод группировки проекций при наличии погрешностей в проекциях. На практике мы имеем дело с конечным набором проекций для углов <¿>1,... Причем, как правило, проекции задаются не точно, а с некоторой погрешностью. Погрешности возникают вследствие несовершенства оборудования, регистрирующего проекции, случайных помех при измерении, ошибок интерполяции и других причин.
Предположим, что проекции каждой реализации у) заданы с погрешностью, не превышающей какого-то заданного уровня е:
/Г («)-/,№
< £,
в 6 [-1,1], /=1,2, г = 1,...,ЛГ,
проекции, измеренные с ошибкой.
Тогда значения интегралов от проекций заданы с погрешностью
1 1 /(/Л«) -/,>))*« ^ /1/Г («)-/,№
¿в < 2е,
-1
а значения моментов проекций 1
-1
с погрешностью 1
Ив < I Е I ¿>т I <С
2е
т + 1
-1 -1 -1
Следовательно, можно считать, что интегралы от /^'(й), I = 1,2, г = 1,..., М, не совпадают, и производить группировку проекций на основании значений этих интегралов, если выполнено условие
1 1
-1 -1
> 2е
для некоторого 1 ^ ] ^ N. Если же это условие не выполнено, то можно считать, что они совпадают и разница между ними возникает за счет погрешностей.
Для оценки погрешности, с которой вычисляются функции моментов проекций, воспользуемся известной оценкой погрешности интерполяции многочленами Чебышева (см. [7]). В результате для функции претендующей на роль функции момента (</?), I = 1 или I = 2, должно
няться
гМ/^л _ И"1),
выпол-
или
(т)
/ 4
< - 8 + - 1п(2га + 1)
/ 4
^ - 8 + - 1п(2га + 1)
т + 1 V 7Г
для всех i = 1,..., Лг. Поэтому алгоритм поиска такой функции можно представить следую-
щим образом.
1. Выбираем распределение к из множества возможных распределений Р и находим функцию
2. Полагаем г = 1.
3. Проверяем, выполняется ли условие
или
Ъе ( 4
^ - 8 + - 1п(2га + 1)
т + 1 \ 7Г
/ 4
^ - 8 + - 1п(2га + 1) .
т + 1 V 7Г '
4. Если условие не выполнено, то исключаем распределение к из множества возможных распределений Р и переходим к шагу 1. Если условие выполнено и I ф И, то полагаем г = г + 1 и переходим к шагу 3. Если же условие выполнено и I = И, то алгоритм завершает работу и мы полагаем
Поскольку мы рассматриваем случай, когда случайная функция может принимать два состояния, достаточно найти одну функцию момента и производить группировку проекций по ее значениям.
Описанный метод является более трудоемким, чем метод, предложенный в [5], где используется экстраполяция функции момента, но оценка его погрешности значительно лучше, чем оценка в [6], что позволяет надеяться на более точное восстановление состояний случайной функции.
6. Группировка проекций в модели с аддитивным шумом. Рассмотрим теперь следующую модель проекционных данных:
+ «е[-1,1], /=1,2, г=1,...,ЛГ,
где (в) — истинные проекции, а (в) — однородные случайные функции с нулевым математическим ожиданием и ковариационной функцией К8{81—^2), одинаковой для всех <рч и I. Мы предполагаем, что проекции для различных углов <рч и для различных I регистрируются независимо друг от друга. Тогда моменты проекций будут описываться следующей моделью (включая случай то = 0):
•С М = М +
где £1^ — независимые случайные величины с нулевым математическим ожиданием и дисперсией
1 1
2
°т = У У (5152)тК8(51 - 82)А8Хй82. -1 -1
Поиск различающихся моментов осуществляется проверкой гипотез против альтернатив
Я1: Ф 4т)Ы
для 1= 1,..., Лг. (Описание критериев одновременной проверки подобных гипотез можно найти, например, в [8, 9].)
При обнаружении различающихся моментов (то ^ 1) так же, как в пункте 4, для всех 2м распределений Р составим системы уравнений
т
Е = Ы, 1к= 1,2, к = 1,..., М.
3=-т
Решая эти системы методом наименьших квадратов [10], получим 2м функций ./„ш! р%) (Ь =
= 1,...,2М, г = 1,...,./У), претендующих на роль функций моментов Так как случайная
функция принимает два состояния, достаточно найти оценку одной функции момента. В качестве такой оценки «/^ш! /г* (^г) возьмем ту ./„ш! /г^г), которая минимизирует выражение
N
гМ _ И™) :
¿=1
на множестве всех распределений к из Р.
Затем для каждого г = 1,..., ./V относим к первой группе то , которое минимизирует по I
разность ./„ш! /г* (^г) — {^рг) , а оставшееся относим соответственно ко второй группе.
Если гипотезы Но отвергнуты при то = 0, т.е. отличаются интегралы от проекций, то системы решать не нужно. Группировка в этом случае производится по средним значениям интегралов проекций (средние значения уточняются на каждом шаге), поскольку I = 1,2, не зависят
от p>i.
СПИСОК ЛИТЕРАТУРЫ
1. Liu W., Frank J. Estimation of variance distribution in three-dimensional reconstruction. 1. Theory // J. Opt. Soc. Am. A. 1995. 12. P. 2615-2627.
2. RadermacherM. Three-dimensional reconstruction of single particles from random and nonrandom tilt series // J. Electron Microscopy Technique. 1988. 9. P. 359-394.
3. Ушаков В.Г., Ушаков Н.Г. Восстановление вероятностных характеристик многомерных случайных функций по проекциям // Вестн. Моск. ун-та. Сер. 15. Вычисл. матем. и киберн. 2001. № 4. С. 32-39.
4. Шестаков О. В. О единственности восстановления вероятностных характеристик многомерных случайных функций по вероятностным характеристикам их проекций // Вестн. Моск. ун-та. Сер. 15. Вычисл. матем. и киберн. 2003. № 3. С. 37-41.
5. ShestakovO.V. An algorithm to reconstruct probabilistic distributions of multivariate random functions from the distributions of their projections //J. of Mathematical Sciences. 2002. 112. N 2. P. 41984204.
6. Шестаков О. В. Влияние погрешностей в проекционных данных на алгоритм восстановления распределения случайной функции из распределений ее проекций // Вестн. Моск. ун-та. Сер. 15. Вычисл. матем. и киберн. 2002. № 2. С. 35-40.
7. Гончаров В. JI. Теория интерполирования и приближения функций. М., 1933.
8. Benjamini Y., Wei L. False discovery rate control in multiple hypothesis testing using dependent statistics // J. Statist. Plan. Infer. 1999. 82. P. 163-170.
9. Abramovich F., Benjamini Y. Thresholding of wavelet coefficients as multiple hypotheses testing procedure // Wavelets and Statistics / Ed. by A. Antoniadis, G. Oppenheim. N.Y.: Springer-Verlag, 1995. P. 5-14.
10. Ивченко Г. И., Медведев Ю.И. Математическая статистика. М.: Высшая школа, 1992.
Поступила в редакцию 03.10.2006
УДК 577.112.5
И. А. Федулова
РОБАСТНЫЙ АЛГОРИТМ ИДЕНТИФИКАЦИИ ПРОТЕИНОВ В БАЗЕ ДАННЫХ1
(кафедра автоматизации научных исследований факультета ВМиК, e-maib.fedulova@cs.msu.su)
1. Введение. Идентификация протеинов — одна из важных задач в протеомике. Протеин представляет собой последовательность молекул аминокислот, соединенных в линейную цепочку. Протеины всех живых организмов построены из 20 различных аминокислот. В настоящее время существует большое число баз данных, хранящих аминокислотные последовательности различных протеинов. Например, популярная база SwissProt [1] содержит последовательности около 200 000 протеинов. Аминокислотные последовательности обычно кодируются буквенными строками, где каждая буква кодирует определенную аминокислоту.
Идентификацей протеинов называется процесс, в котором по экспериментальному образцу протеина определяется его название или номер в базе данных.
При составлении баз данных аминокислотных последовательностей протеинов биологи использовали метод деградации Эдмана, который основывался на отщеплении одной аминокислоты с конца протеина и ее последующем определении с помощью химической реакции. Так, по одной аминокислоте
1 Работа выполнена при поддержке гранта РФФИ 05-07-90238.