Научная статья на тему 'Статистические методы поиска набора координат, на котором случайный вектор имеет запреты'

Статистические методы поиска набора координат, на котором случайный вектор имеет запреты Текст научной статьи по специальности «Математика»

CC BY
166
24
i Надоели баннеры? Вы всегда можете отключить рекламу.
Область наук
Ключевые слова
СТАТИСТИЧЕСКИЙ КРИТЕРИЙ / ЗАПРЕТЫ РАСПРЕДЕЛЕНИЙ / STATISTICAL TEST / BANS OF DISTRIBUTIONS

Аннотация научной статьи по математике, автор научной работы — Денисов Олег Викторович

Наблюдается стационарная последовательность случайных векторов длины L, имеющих распределение случайного вектора £; координаты векторов принимают значения в конечном множестве. Рассматривается гипотеза о существовании некоторого множества номеров координат В С {1,...,L}, такого, что подвек-тор £© (проекция £ на координаты с номерами из В) распределён как заданный случайный вектор п, распределение которого имеет запреты. Строится критерий согласия на основе анализа запретов эмпирического распределения. Когда априори известно, что гипотеза выполнена, предлагаются три алгоритма поиска части В, работающие при разной доле информации о распределении случайного вектора п.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Statistical methods of search for coordinate set on which a random vector has bans

A stationary sequence of random vectors of length L with the distribution of a random vector £ is observed. Coordinates of vectors in it take values in a finite set. The following hypothesis is considered: there is a set В С {1,..., L} such that the subvector £© (being the projection of £ onto coordinates with numbers in В) has the distribution of a given random vector п with the distribution having bans. A concordance criterion is constructed by the analysis of an empirical distribution bans. In the case of the hypothesis validity (a priori), three algorithms to search for a part of В are proposed. They work under various portions of the information about the random vector п distribution.

Текст научной работы на тему «Статистические методы поиска набора координат, на котором случайный вектор имеет запреты»

2015 Теоретические основы прикладной дискретной математики №2(28)

ТЕОРЕТИЧЕСКИЕ ОСНОВЫ ПРИКЛАДНОЙ ДИСКРЕТНОЙ МАТЕМАТИКИ

УДК 519.233.33+519.244.4

СТАТИСТИЧЕСКИЕ МЕТОДЫ ПОИСКА НАБОРА КООРДИНАТ, НА КОТОРОМ СЛУЧАЙНЫЙ ВЕКТОР ИМЕЕТ ЗАПРЕТЫ

О. В. Денисов

ООО «Центр сертификационных исследований», г. Москва, Россия

Наблюдается стационарная последовательность случайных векторов длины L, имеющих распределение случайного вектора £; координаты векторов принимают значения в конечном множестве. Рассматривается гипотеза о существовании некоторого множества номеров координат В С {1,...,L}, такого, что подвек-тор £© (проекция £ на координаты с номерами из В) распределён как заданный случайный вектор п, распределение которого имеет запреты. Строится критерий согласия на основе анализа запретов эмпирического распределения. Когда априори известно, что гипотеза выполнена, предлагаются три алгоритма поиска части В, работающие при разной доле информации о распределении случайного вектора п.

Ключевые слова: статистический критерий, запреты распределений. DOI 10.17223/20710410/28/1

STATISTICAL METHODS OF SEARCH FOR COORDINATE SET ON WHICH A RANDOM VECTOR HAS BANS

O. V. Denisov

Certification Research Center, Moscow, Russia

E-mail: [email protected]

A stationary sequence of random vectors of length L with the distribution of a random vector £ is observed. Coordinates of vectors in it take values in a finite set. The following hypothesis is considered: there is a set В С {1,..., L} such that the subvector £© (being the projection of £ onto coordinates with numbers in В) has the distribution of a given random vector п with the distribution having bans. A concordance criterion is constructed by the analysis of an empirical distribution bans. In the case of the hypothesis validity (a priori), three algorithms to search for a part of В are proposed. They work under various portions of the information about the random vector п distribution.

Keywords: statistical test, bans of distributions.

Введение

Понятие запретов дискретного вероятностного распределения введено в рабо тах [1, 2]; в [2] предложен статистический метод поиска минимальных запретов. В частности, такие методы могут иметь приложения в стеганографии [1, пример 3].

В данной работе эти подходы применяются при решении более конкретно поставленной задачи проверки статистической гипотезы о наличии некоторого частного распределения заданного вида у наблюдаемого многомерного распределения. Для этого развивается понятийный аппарат, связанный с запретами. Главными новыми понятиями являются «графы простых запретов» и «устойчивость координаты случайного вектора к запретам». На их основе построен критерий согласия с гипотезой и три алгоритма поиска некоторых номеров координат из тех, на которых сосредоточено частное распределение; получены оценки вероятностей ошибок критерия и алгоритмов.

Заметим, что ранее запреты распределения выхода простейших неавтономных автоматов исследовались в связи с криптографическими приложениями [3, 4]. При этом определение запрета давалось несколько иначе — в терминах решений систем автоматных уравнений. Для двоичного регистра сдвига понятие запрета введено С. Н. Сумароковым в 1968 г.

Перейдём к строгой постановке задачи. Пусть X — произвольное конечное множество мощности к. Наблюдается отрезок стационарной последовательности случайных векторов длины Ь

х(г) = (х^г),... ,хь(г)) е Xь, 1 ^ г ^ м,

имеющих распределение случайного вектора £: х(г) ~ £, 1 ^ г ^ N, N — длина отрезка (число наблюдений).

Рассматривается задача проверки сложной статистической гипотезы Н(п) о наличии особенного множества номеров координат

0 = {91 ,...,дм }С{1,...,Ь},

такого, что соответствующий подвектор на этих координатах £© имеет распределение случайного вектора

П = (П1,...,Пм),

известной длины М < Ь, которое полностью или частично известно. Далее предполагается, что оно имеет запреты; строгое определение запрета распределения приведено ниже.

Через х/ = (х^,..., х^г) здесь и далее обозначаем подвектор вектора х, состоящий из координат с номерами из множества I = {¿1,...,гг}. Для произвольного множества А обозначим через 2 множество всех подмножеств множества А; А(г) — множество всех г-элементных подмножеств А; А — дополнение к множеству А.

Итак, гипотеза Н(п) формулируется как гипотеза о том, что £ имеет соответствующее частное распределение:

Н (п) = {з 0 С{1,...,Ь}(м) : £© - п}.

Если априори известно, что предположение Н(п) выполнено, то встаёт вопрос об оценке множества 0 как параметра распределения.

Далее в п. 1 введён ряд новых понятий, связанных с носителями и запретами частных распределений, попутно доказывая некоторые их свойства. В п. 2 построен статистический критерий проверки гипотезы Н(п) и при некоторых предположениях получены оценки его ошибок. Затем предлагаются три алгоритма поиска части множества в, работающие при разной доле информации о распределении п. При полной информации о п предлагается последовательный алгоритм 1; он имеет нулевую вероятность ошибки. Алгоритмы 2 и 3 строятся при отсутствии информации о распределении п и работают на фиксированном объёме материала.

В п. 3 вводятся ограничения на распределение £, упрощающие построение критерия, расчёт параметров критерия и алгоритмов. Для схемы независимых наблюдений получены верхние оценки для числа наблюдений N, при котором вероятности ошибок не превосходят заданной величины.

Согласно [2, с.57], данные методы могут быть применены для «...статистического выявления скрытых каналов, в которых вставки осуществляются с помощью некоторых функциональных соотношений». У нас это соответствует задаче поиска распределения вида «вектор аргументов и вектор-функция от него» при фиксированной ¥(х) : Xп ^ Xт, где вектор аргументов х не имеет запретов. В простейшем случае, когда х = (х\,..., хп) распределён равномерно, случайный вектор обозначаем через

х¥ = (Х1, . . . , Хп, Л(х),..., /т(х)), х - и(Хп).

1. Основные понятия

Введём сначала теоретические характеристики распределения £, связанные с запретами, а затем эмпирические.

1.1. Запреты распределения случайного вектора

и графы запретов

Случайный вектор £ имеет дискретное распределение, поэтому далее без ограничения общности считаем, что носитель распределения £

Япрр(£) = {х е Xь : Р{£ = х} > 0}

совпадает с множеством значений случайного вектора: Яирр(£) = £(П), то есть £ принимает все свои значения с положительной вероятностью. Разрабатываемые методы основаны на анализе только наблюдаемых носителей частных распределений £.

Введём ряд определений и обозначений. Вектор а е Xь называется запретом размерности Ь распределения £, если Р{£ = а} = 0. При этом а называется простым запретом размерности Ь, если

Р {£{1,...,ь}\й = а{1,...,ь}\м} > ° 1 ^ г ^ Ь,

то есть любой его собственный подвектор не является запретом распределения любого подвектора £.

Множество всех запретов размерности Ь распределения £ обозначим через 2 (£), а простых запретов размерности Ь — через ДД£). Очевидно, что

2в(£) С 2(£) = Xь \ Япрр(£).

Принадлежность вектора к запретам может определяться лишь значениями некоторых его координат. Чтобы далее выявлять такие наборы координат, рассмотрим запреты частных распределений.

Вектор а е Xг будем называть запретом размерности г распределения £ на множестве (номеров координат) 7 е {1,..., Ь}(г), если а е 2(^), 1 ^ г ^ Ь. При этом а будем называть простым запретом распределения £ (размерности г), если а е ДДО). Это равносильно тому, что для 7 = ... , ]г} выполнено

Р{£/ = а} = 0, Р {£дШ = а{1,...,г}\{в}} > 0, 1 ^ в ^ г.

Кратчайшими запретами распределения £ будем называть запреты наименьшей размерности. Эту размерность назовём устойчивостью к запретам распределения £ и обозначим 2Шщ(£).

Очевидно, что кратчайшие запреты всегда являются простыми. Из определений также следует, что свойство «быть простым запретом» сохраняется при расширении случайного вектора: для 171 = г, а е Xг выполнено

а е Zs(£J) тогда и только тогда, когда а является простым запретом размерности г распределения £/ для всех I э 7.

Заметим, что каждый запрет размерности г на наборе 7 влечёт появление к запретов размерности г + 1 на наборах вида 7 и {г}, г е 7. Такие запреты размерности г + 1 не несут новой информации о множестве Яирр(£) при знании всех запретов размерности г, и в этом смысле интересны лишь простые запреты. Теперь введём основные инструменты анализа.

Определение 1. Графом запретов размерности г распределения £ назовём г-однородный гиперграф (кратко г-граф) на вершинах с номерами из {1,... , Ь}

£ (г, £ ) = {7 С {1,...,Ь}(г) : Zs(£J ) = 0} .

Его рёбрами являются все наборы, на которых распределение £ имеет простые запреты размерности г. Граф

£ш1п(£) = £ (2ш1п(£ ),£)

назовём графом кратчайших запретов. Его можно определить также как первый непустой г-граф в цепочке £(1, £), £(2,£), ..., £(Ь, £).

Везде далее будем считать, что 2(£) = 0 (в противном случае анализ не даст никакой информации о распределении £), и тогда в этой цепочке есть хотя бы один непустой г-граф.

Обозначим также через

£(£)= и £(г,£) с 2{1'...'ь}

гиперграф (неоднородный в общем случае), состоящий из наборов всех простых запретов.

Для произвольного гиперграфа £ С 2{1'."'Ь} через

У(£)= и 7, у(£):= |У(£)|

J ед

обозначим соответственно множество тех вершин гиперграфа £, которые покрыты хотя бы одним его ребром, и число таких вершин.

Определение 2. Будем говорить, что г-графы £ и £ 'изоморфны (£ = £'), если существует биекция ф : V(£) ^ V(£'), такая, что

7 е £ ^ ф(7) е £.

Это означает, что £' может быть получен из £ взаимно однозначным изменением номеров вершин после удаления из £ и £' вершин, не лежащих ни в одном ребре. Необходимым условием изоморфности, очевидно, является равенство v(£) = v(£'). Для г-графа £ и множества I С {1,..., Ь}, 1 ^ г ^ |11, через

£/ = £ П I(г)

обозначим ограничение £ на множество вершин I, то есть соответствующий г-под-граф £. Из условия (1) имеем равенство £ (г, £)/ = £ (г, £/). Отсюда следует, что при гипотезе Н(п) имеем

£ (г, £ )© = £ (г, £©) = £ (г, п), 1 ^ г ^ М.

На этом свойстве основан критерий согласия с гипотезой Н(п) и статистические алгоритмы поиска частей множества в, в том числе его части:

©шш = V(£min(£©)) С в.

Так как £шт(£©) = £шт (п), то |©шт| = v(£min(п)).

1.2. Эмпирические характеристики распределения Заметим, что введённые выше характеристики инвариантны относительно любого изменения распределения вероятностей £, при котором сохраняется носитель распределения. Поэтому их определения можно дать без использования понятия вероятности, оперируя лишь множеством Яирр(£).

Продемонстрируем этот путь при определении аналогичных эмпирических характеристик распределения £. Обозначим через

X = X(Ж) С Яирр(£) С XЬ

множество всех различных векторов среди наблюдений х(1),... , х(Ж). Элементы множества 2(X) = Xг\Х назовём эмпирическими запретами (запретами множества X) размерности Ь.

Введём операцию ограничения X на множество координат с номерами из I е е {1,... , Ь}(г) (проекции X на I): X/ = {а/ : а е X} С Xг.

Вектор а е 2(X) называется простым эмпирическим запретом размерности Ь, если а/ е X/ для всех 0 = I С {1,...,Ь}. Множество всех простых эмпирических запретов размерности Ь обозначим через ).

Аналогично запретам распределения, для 7е{1,... , Ь}(г) элементы множеств 2(XJ) и Zs(XJ) называем г-мерными эмпирическими запретами (соответственно простыми г-мерными эмпирическими запретами) на множестве 7; определяем г-графы эмпирических запретов £ (г, X), 1 ^ г ^ Ь, и их объединение — гиперграф £ (X).

Заметим, что все эти понятия можно было ввести сразу на базе предыдущих определений, формально интерпретируя параметр X как обозначение для некоторого произвольного распределения с носителем X.

Множества X и X/ являются статистическими оценками носителей Supp(£) и Supp(£i), всегда лежащими в них, и поэтому всегда Z(X/) D Z(£/), I С {1,... , L}. Легко видеть, что

всегда zmin(X) ^zmin(£), и если здесь достигается равенство, то Gmin(X) D Gmin(£).

Для множеств простых запретов включение G(r, X(N)) D G(r, £) в общем случае неверно, что показывает следующий

Пример 1. Пусть X = Z2, L = 2, Z(£) = {(1, 0)}. Тогда одномерных запретов £ не имеет, G(1,£) = 0, а имеющийся запрет размерности 2 является простым, и граф Gmin(£) = G(2,£) состоит из единственного ребра {1, 2}.

Далее, пусть X = {(0, 0)}. Тогда эмпирическими запретами размерности 2 являются все ненулевые векторы, вектор (1) является простым запретом на множествах {1} и {2}, G(1, X) = {{1}, {2}} D G(1,£). Отсюда также следует, что любой ненулевой вектор длины 2 не является простым эмпирическим запретом, и поэтому Zs(X) = 0,

G(2, X) = 0.

Этот пример также показывает существенность условия о равенстве в (2).

1.3. Предположение о вероятностной модели

Далее будем считать, что для любых 0 < а < 1 и 1 ^ R ^ L определена функция N = N^R, £, а), такая, что

P {VJ е {1,...,L}(r) (X (N )j = Supp(£j))} ^ 1 - а (3)

при N ^ Ni(R, £, а). Это означает, что при всех достаточно больших N с вероятностью не менее заданной все R-мерные проекции выборки принимают все возможные для них значения. Заметим, что функция N1 зависит не только от распределения £ в фиксированный момент времени, но и от распределения {x(i)}t^1 всей последовательности состояний. Для упрощения обозначений эту зависимость будем иметь в виду, не указывая явно.

Очевидно, что при N ^ N1(R, £,а) справедливы следующие оценки:

P {VI, 1 ^ |I| ^ R (Z(X(N)/) = Z(£/), Zs(X(N)/) = Zs(£j))} ^ 1 - а;

P {Vr е {1,..., R} (G(r, X(N)) = G(r, £))} ^ 1 - а. (4)

1.4. Гипотеза о наличии функциональной вставки

Важным частным случаем гипотезы H(п) является случай, когда п имеет распределение вида «вектор аргументов и функции от него», где вектор аргументов не имеет запретов. В частности, это выполнено для п ~ xf. Тогда при фиксированной f : Xn ^ Xm сложная статистическая гипотеза H(п) строго формулируется так:

30 = InpuOut е {1,...,L}(n+m) (£(П)/гар = Xn, V^ е Q (£Mou = f (£M/nP))). (5)

Здесь множества Inp, Out образуют разбиение множества 0; первое может являться множеством номеров аргументов, а второе — множеством номеров значений функции.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Заметим, что гипотеза H(п) является существенным обобщением (5) и включает также случаи, когда на координатах с номерами особенного множества реализована не вектор-функция, а нечто более сложное.

Рассмотрим пример, демонстрирующий идею использования графов запретов при поиске частных распределений вида xf.

Пример 2. Пусть X = Z2, L ^ 5 и по наблюдениям над реализациями случайного

вектора £ = (6,6, . . . ,£l-2,£l-1 = 6£2,£l = £1 Ф £2 Ф £з), (6,. . .,£l-2) - U (ZL-2), требуется найти функциональную вставку-конъюнкцию.

Решение. Здесь моделью частного распределения на особенном множестве координат является вероятностная схема n = xf = (x1 ,x2,x1x2), (x1,x2) ~ U(Z2) вида xf. Для неё G(1, xf) = 0 и Gmin(xf) = G(2, xf) = {{1, 3}, {2, 3}}.

Одномерные распределения £ также не имеют запретов, двумерные распределения имеют запрет (0,1) на наборах координат из G(2, £) = {{1, L — 1}, {2, L — 1}} = G(2, xf). Тогда при N ^ N1(r, £, a), r = 2 с вероятностью не менее 1 — а, согласно (4), выполнено G(2, X) = G(2,£). Это позволяет сделать вывод, что вставка-конъюнкция возможна только на координатах с номерами из в* = {1, 2, L — 1}, причём = f (x1, x2).

Устойчивость к запретам координат случайного вектора

Заметим, что если в примере 2 положить £l = £1 ф £2, то £ на J = {L — 1,L} будет иметь простой запрет (1,1), поскольку £1£2 = 1 ^ £1 = £2 = 1 ^ £1 ф£2 = 0. Тогда граф G(2, X(N)) при всех N будет содержать ребро {L — 1,L}. Это нарушит изоморфизм G(2, X(N)) и G(2, xf) при всех N, и метод определения в в указанном виде будет неприменим.

Чтобы избежать таких сложностей, введём ограничение на распределение £: все кратчайшие запреты распределения £ образованы координатами с номерами из в. Оно соответствует естественному предположению о том, что сначала осуществляется поиск подвектора, наиболее уязвимого для нашего метода. Далее всюду будем считать предположение выполненным. Оно записывается проще с помощью следующих определений.

Устойчивостью к запретам i-й координаты случайного вектора £ назовём величину

z(i,£) = min {|J| : J э i, Zs(£j) = 0} .

Она равна наименьшему значению r, при котором i Е G (r, £), то есть номер i участвует в простом запрете размерности r. Если i не участвует ни в одном простом запрете, то по определению считаем z(i,£) = то. Очевидно, что

zmin(£) = min z(i,£).

Легко видеть, что в примере 2 справедлива импликация (£3£l-1 = 1 ^ £l = 1), откуда следует, что {3, L — 1, L} —ребро графа G(3, £). Поэтому с учётом далее доказываемой теоремы 5, п. 3, имеем

'2 при i е {1, 2, L — 1}, z(i,£)=<(3 при i e{3,L}, (6)

то при 4 ^ i ^ L — 2.

Рассмотрим также максимальную устойчивость координат к запретам

zmax(£) = max z(i,£).

Теперь сформулированное ограничение записывается так: при условии H(n) выполнено условие

Vi Е в (z(i, £) > zmin(£©)).

Оно эквивалентно тому, что 0тт(£) не содержит рёбер с номерами из <Э, то есть равенству

0т1п(£) = £тт(бэ). (7)

Согласно (6), в примере 2 это условие выполнено.

2. Проверка гипотезы и поиск особенного множества

На основе введённых графов запретов сначала построим критерий согласия с гипотезой Н(п). В случае априорной справедливости Н(п) предложен последовательный алгоритм 1 определения втщ.

2.1. Критерий на основе графа кратчайших запретов

Предлагается следующий критерий согласия с гипотезой Н(п):

0тт(Х(Ж)) = 0тт(п)) принимаем гипотезу Н(п). (8)

Докажем теорему о вероятностях ошибок критерия.

Теорема 1. Пусть ъ = ът;п(п) < го. Тогда:

1. При любом N ^ 1 критерий (8) с вероятностью 1 отклоняет все альтернативы £, у которых Ътш(£) < Ъ или (Ът1п(£) = Ъ, |0тт (£ )1 > |0тт (п)1).

2. При N ^ Ж! (ъ, £, а) и альтернативе £, такой, что ът;п(£) > ъ, вероятность ошибки критерия не превосходит а.

3. Если выполнено ограничение (7) и N ^ N1 (ъ, £, а), то вероятность ошибки критерия при гипотезе Н(п) не превосходит а.

Доказательство.

1. Обозначим через А условие-предпосылку в (8), а через г = ът;п(Х) — число вершин в рёбрах графа 0тт(Х).

Если г < ъ, то А не выполнено и гипотеза отвергается. С учётом (2), при альтернативе первого вида из п. 1 теоремы имеем

г ^ ътт (£) < ъ.

Если г = ъ и выполнена альтернатива второго вида, то, согласно (2), граф 0тт(Х) содержит граф 0(ъ,£) и, следовательно, число его рёбер больше числа рёбер 0(ъ,£). Поэтому здесь также невозможно условие А. Пункт 1 доказан.

2. При этой альтернативе 0(ъ,£) = 0. Поэтому, согласно (4), для N ^ ^(ъ, £,а) с вероятностью не меньше 1 — а происходит событие 0(ъ, X) = 0, которое несовместно с событием А.

3. Из условий Н(п) и (7) имеем 0тт(п) — 0тт(£©) = 0т1п(£). При N ^ ^(ъ,£,а), согласно (4), с вероятностью не меньше 1 — а происходит событие 0тт(£) = 0тт(Х), что с учётом предыдущего равенства влечёт событие А. ■

Замечание 1. Особенностью критерия является то, что при его применении не накладывается никаких ограничений на распределение £, кроме (7). Но от распределения {х(£)}^1 и, в частности, от распределения £ зависит объём материала N1^), достаточный для гарантированной верхней оценки вероятности ошибки критерия.

Замечание 2. Основной вклад в сложность проверки условия (8) может вносить построение графа 0(ъ, X^)), ъ = ът;п(п). Этот граф можно строить с помощью

^ ^ битовых массивов длины к2, соответствующих всем 3 Е {1,... , и первона-

чально инициализированных нулями. Проходя по всем наблюдаемым векторам х(£),

1 ^ £ ^ N, будем записывать единицы по адресам для всех </. После этого

нулевые элементы в массиве позволят определить запреты и простые запреты размерности ъ эмпирического распределения.

Временная и емкостная сложности такого алгоритма оцениваются величинами порядка ( ) N, ( ) к2 соответственно. При больших Ь они быстро растут с ростом ъ. ъъ

Поэтому в критерии согласия для достижения малой временной сложности и для простоты критерия ограничиваемся графами запретов наименьшей размерности. В целом можно предположить, что чем сложнее строение ^тт(п), тем мощнее будет критерий (тем больше альтернатив он будет отклонять).

Кратко изложенный подход можно сформулировать так:

1. Для данного п находим ъ-однородный гиперграф £тт(п), где ъ — длина кратчайшего запрета частных распределений п.

2. При статистическом анализе распределения £ оцениваем гиперграф £тт(£), и если оценка изоморфна графу £тт(п), то принимаем Н(п).

3. Чем меньше ъ, тем меньше временная и емкостная сложность проверки критерия, а также величина ^(ъ, •).

2.2. Алгоритмы поиска некоторых номеров координат п о д в е к т о р а с и з в е с т н ы м л и б о н е и з в е с т н ы м распределением Везде далее будем считать, что априори справедлива гипотеза Н(п) и стоит задача определения множества в или его части. При известном графе £тт(п) предлагается следующий последовательный алгоритм 1 поиска множества вт;п.

Алгоритм 1. Поиск множества вт;п

Вход: х(£) е X£ =1, 2,... , £тш(п) Выход: втт, Т 1: N := 1;

2: Пока ътт(Х^)) < ътт(п) или |£т1п(Х^))| > |£тш(п)1 3: N := N +1;

4: Вернуть У(£тш(*^))) и N_

Здесь в качестве статистической оценки вт;п рассматривается множество номеров координат, на которых расположены кратчайшие запреты эмпирического распределения.

Теорема 2. Пусть при гипотезе Н(п) выполнено ограничение (7). Тогда:

1. Вероятность ошибки алгоритма 1 в случае его окончания равна нулю.

2. Для распределения момента т окончания работы алгоритма 1 справедлива оценка Р {т > ^(ътт(п),£,а)} ^ а.

Доказательство.

1. Как и при доказательстве п. 2 теоремы 1, условия Н(п) и (7) обеспечивают выполнение двух первых соотношений в цепочке

£тт(п) = £тт(£е) = £тт(£) С £т1п(Х). (9)

Из этих условий и первого условия п. 2 алгоритма 1 также следует равенство

ътш(£) = ътт(п) = ътт(Х ^)),

которое с учётом (2) даёт последнее включение в (9).

Тогда второе условие п. 2 алгоритма означает равенство количеств рёбер левого и правого графов в цепочке (9). Отсюда следует, что 0:п(£) = 0тт(Х). Поэтому множества вершин, покрытых рёбрами каждого из них, совпадают. 2. Оценка вероятности следует из (4) и импликаций

(0т,"(Х > = 0™п(£)) - (°т,п(Х) = 0т,п(,)) ^ = ^ |) •

справедливых при условиях Н(п) и (7). ■

Заметим, что если втп = в (что эквивалентно условию ътп(п) < ътах(п)), то требуются дополнительные действия для поиска остальных элементов особенного множества.

Далее переходим к алгоритмам поиска части в при отсутствии информации о графе 0тп(п) и графах запретов большей размерности. В отличие от алгоритма 1, они работают на фиксированном объёме материала, но вероятность их ошибки в общем случае ненулевая.

Алгоритм 2 на фиксированном объёме материала N находит все кратчайшие запреты эмпирического распределения и возвращает множество вершин соответствующего графа в качестве статистической оценки части особенного множества.

Алгоритм 2. Статистическое оценивание втп

Вход: х(г) Е X1 < г < N Выход: вт,п 1: Вернуть У(0т,п(Х(N)))

Следствие 1. Если при условиях Н(п) и (7) выполнено N ^ ^(ъ^^), £, а), то Р {вт,п = вт,п} ^ 1 — а.

Доказательство. Обозначая ъ = ът,п(п), из предположения (4) с учётом ограничения (7) получаем, что событие {0(г, X) = 0, 1 < г < ъ, 0(ъ, X) = 0:п(£)} происходит с вероятностью не менее 1 — а при N ^ ^(ъ,£,а). Оно влечёт равенство 0:п (X) = 0:п(£), которое с учётом цепочки (9) доказательства теоремы 2 даёт равенство 0тт(X) = 0т,п(£©). ■

Далее аналогично можем строить статистические оценки множества

в<д := {г е в: ъ(г,£©) < Я} С в номеров координат, устойчивость к запретам которых не превосходит Д, — алгоритм 3.

Алгоритм 3. Построение оценки в*<к

Вход: х(г) е Xь, 1 < г < N, Д ^ 1 —параметр алгоритма Выход: в<д 1: Вернуть в<д := и V(0(г, X^)))

1<г<Я

При некотором ограничении, в общем случае усиливающем ограничение (7), докажем следующую оценку надёжности алгоритма 3.

Следствие 2. Если N ^ ^(Я, £,а), выполнено условие Н(п) и ограничение Уг Е © №£) > Я), то Р {©* д = 0<д} ^ 1 - а.

Доказательство. Согласно ограничению, для каждого 1 ^ г ^ Я рёбра графа Я (г, £) не содержат номеров из 00, откуда = и У(Я (г, £)).

Остаётся заметить, что при N ^ ^(Я,£,а), согласно предположению (4), событие {Я(г, X) = Я (г, £), 1 ^ г ^ Я} происходит с вероятностью не менее 1 — а. С учётом предыдущего равенства оно влечёт событие = ©<я}. ■

Не будем останавливаться на оценках сложности методов построения эмпирических простых запретов, а также на оценках сложности проверки условия изоморфизма г-графов и особенностях реализации этих методов — этот круг проблем выходит за рамки работы, причём проблема изоморфизма хорошо известна. Сосредоточимся на вопросах построения графов запретов и оценках числа наблюдений.

3. Расчет параметров критерия и алгоритмов

Для применения критерия (8) согласия с Н(п) и алгоритмов 1-3 поиска части 0 надо уметь:

1) рассчитывать значение 2т;п(п), строить граф Ятт(п);

2) строить функции ^(г, £,а) и проверять ограничение (7).

Согласно теореме 1, знание функций N1^) требуется для оценки надёжности критерия при его применении. Такое же замечание справедливо для алгоритмов 2 и 3, согласно следствиям из теоремы 2.

3.1. Формула для N1

Получим формулу для оценочной функции ^(г, £,а) в случае независимых наблюдений х(£) ~ £. Обозначим далее через

Ртт(г,£ ) = ш1п {р = Р{£л = а} : 3 е {1,...,Ь}(г), а Е Xг , р> 0} > 0

самую малую ненулевую вероятность г-мерных распределений £.

Теорема 3. Пусть х(£) ~ £, £ ^ 1 — последовательность независимых случайных векторов, 0 < а < 1. Тогда в качестве функции N1^) может быть взята функция

М*(г, £, а) =-;—— (г 1п — 1п а

11 } Ртт(г,£ Н г

Доказательство. Достаточно доказать, что при N ^ N1 (•) справедлива оценка (3).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

'гу /А Ь

- имеем < —- < —

\г/ г! \ г

Используя эту оценку и неравенство 1 + х ^ ех, оцениваем сверху вероятность непоявления какого-либо допустимого подвектора на каких-либо г координатах величиной

/ г \г {Ь\ Ь /Ье\г

Из неравенства г! > имеем ( ) < _Г < (— ) . Положим р = рт;п(г,£).

Р{33 е {1,..., Ь}(г) (X(N= Supp(£J))} ^

^ Е Е Р {xJ(£) = а, 1 ^ £ ^ N} ^ (1 — р)м < ехр(—ВД,

зе{1,...,ь}М ае^(п) \г/ V г /

которая не превосходит а при N ^ ^*(г, £, а). ■

Поясним наличие величины 1 /р, р = рт;п(г, £), в предложенном выражении для N1. Пусть V — случайная величина, равная числу наблюдений до первого момента появления исхода с вероятностью р. В схеме независимых наблюдений она имеет геометрическое распределение с параметром р. Для момента т первого появления всех возможных г-грамм в X справедлива оценка т ^ V. Поэтому для момента остановки т последовательного алгоритма, ожидающего появления всех возможных г-грамм в X, имеем т ^ V. Отсюда получаем Ет ^ Ev = 1/р. Так как

Р{т > N} ^ Р^ > N} = р(1 — р)м + р(1 — р)м+1 + ... = (1 — р)м,

1п а

вероятность Р{т > N} может быть не больше а только при N ^ -—---. Последняя

1п(1 — р)

дробь эквивалентна - 1п — при р ^ 0. Поэтому порядок величины 1/р в предложенной

ра

функции не может быть уменьшен.

Теперь можем получить оценку объёма материала, при котором критерий идентификации (8) имеет вероятность ошибки не более заданной величины при гипотезе о равномерности частных распределений £. Она очевидно вытекает из теоремы 3 и п. 2 теоремы 1.

Следствие 3. Пусть в схеме независимых наблюдений выполнено

( "¿е

ъ = ът,п(п) < го, N ^ ^*(ъ,£,а) = 2М ъ 1п — — 1па

Тогда при альтернативе о равномерности всех ъ-мерных частных распределений £ (сюда, в частности, входит простая гипотеза £ ~ и(Xь)) вероятность ошибки критерия (8) не превосходит 1 — а.

Получим оценки для рт;п(г, £), считая по определению рт;п(0,£) = 1. Теорема 4. Для любого 1 < г < ъ — 1, ъ = ът,п(£), справедливы неравенства

рт,п(г,£) < 1 рт,п(г — 1,£) < ... < "-Г рт,п(0, £) = к-.

Следовательно, рт;п(ъ,£) < рт;п(ъ — 1,£) < к1-2.

Доказательство. Заметим, что при г < ъ каждая вероятность (г — 1)-мерного распределения £ равна сумме некоторых к ненулевых вероятностей г-мерных распределений и поэтому не меньше величины крт,п(г, £). Отсюда вытекает первое неравенство в первой цепочке, а из него остальные. Во второй цепочке первое неравенство очевидно, а второе получено из первой цепочки при г = ъ — 1. ■

Таким образом, величина рт;п(г, £) при 0 < г < ъ — 1 убывает от начального значения 1 при каждом увеличении г на 1 не менее чем в к раз; равенство рт;п(г, £) = к-г достигается тогда и только тогда, когда все г-мерные распределения £ равномерны. Величина рт;п(ъ,£) может быть как меньше, так и больше величины к-1рт;п(ъ — 1,£).

3.2. Упрощающие условия Покажем, что условие

случайные векторы £© и £© независимы (10)

существенно упрощает вычисление ът,п(£) и проверку ограничения (7).

Теорема 5. Пусть для некоторого 0 = A С {1,... , L} случайные векторы £a и £д независимы. Тогда

1) G(r,£) = G(г,£а) UG(г,£д) для всех 1 ^ r ^ L; (11)

2) z(a,£) = z(a,£A) для всех а Е A;

оч л Г! ( с\ пРи Supp(£a) = X

3) если A = {а}, то z(a,£) = <

I 1 иначе.

Доказательство.

1. Предположим противное: пусть существует b — простой запрет распределения £/uj, где 0 = I С A; 0 = J С A. Тогда из условия независимости имеем

0 = P{£juj = b} = P{£j = bj }P{£j = bj},

и один из сомножителей в последнем выражении равен нулю. Но это противоречит простоте запрета. Пункт 1 доказан.

2. Пункт 2 следует из п. 1, поскольку вершина а Е A может лежать только в рёбрах графов G (г,£а).

3. Если Supp(£a) = X, то утверждение очевидно. В противном случае распределение £а не имеет запретов, а в r-мерных простых запретах при r ^ 2 номер а не участвует согласно п. 1. Пункт 3 доказан. ■

Равенство (11) означает, что если £ можно разделить на два независимых подвек-тора, то графы запретов распадаются на не связанные между собою графы запретов подвекторов. Можно также показать, что условие независимости в теореме 5 не является необходимым для условия (11).

Следствие 4. Если при справедливости гипотезы H(п) выполнено условие (10), то ограничение (7) равносильно условию zmin(n) < zmin(£©).

Доказательство. Из п. 2 теоремы 5 имеем min z(i,£) = zmin(£©), minz(i,£) =

¿e© ¿e©

= zmin(£©). Осталось заметить, что при гипотезе H(п) выполнено равенство zmin(£©) = = zmin (п). ■

Введём второе упрощающее условие

£© не зависит от £© - U(XL-1©1). (12)

Оно получено путём добавления в условие независимости (10) условия равномерности распределения координат, не принадлежащих подвектору. Можно сказать, что в этом случае подвектор на координатах с номерами из в «погружен» в не зависящий от него равномерно распределённый случайный вектор £©.

При условии (12) из п. 3 теоремы 5 получаем, что zmin(£©) = го. Тогда, согласно следствию 4, выполнено ограничение (7) и корректно далее используемое единое обозначение для устойчивостей к запретам трёх распределений

z = zmin(£) = zmin (£©) = zmin(n).

Кроме того, при условии (12) для любого R выполнено ограничение следствия 2, при котором оценивалась надёжность алгоритма 3.

При введённом условии (12) и гипотезе H(п) распределение £ определяется распределением п (с точностью до перестановки координат). Поэтому можем явно выразить фигурирующую в оценках объёма материала величину pmin(z,£) через распределение п.

Теорема 6. Если выполнены условия H(п), (12) и z < L, то

Pmin(r,£) = min{pmin(r, п),1 Pmin(r - 1, п)}, 1 ^ r ^ z; (13)

k

Pmin(r,£) ^ k-r, 1 ^ Г ^ Z. (14)

Доказательство. Докажем утверждения в случае r = 1. Здесь имеем

pmin (1,£) = min{Pmin(1,£©) , pmin (u©)},

что совпадает с правой частью (13), поскольку pmin(1,£©) = 1 = 1 pmin(0,n). Из по-

k k

следней формулы также вытекает справедливость (14) при r = 1.

Осталось доказать утверждения в случае 2 ^ r ^ L — 1, z ^ 2. Очевидно, что для всех 2 ^ r ^ L — 1 выполнено равенство

Pmin(r,£) = min{pmin(r,£©),Pmin(r,£© ),Pjoi(r)}, (15)

где Pjoi(r) — минимум ненулевых вероятностей r-мерных распределений на координатах, содержащих номера из в и 0 одновременно.

Используя равномерность распределения £© в первом переходе и первую цепочку неравенств теоремы 4 во втором переходе, при 2 ^ r ^ z имеем равенства

Pjoi(r) = min Pmin(l,£©)k1-r = Pmin(r — 1,£©)k-1 = Pmin(r — 1,n)k-1.

Согласно (15) и полученному выражению для pjoi(z), для доказательства равенства (13) осталось обосновать неравенство

Pmin(r — 1,n)k-1 ^ Pmin(r,£©) = k-.

Но при всех 2 ^ r ^ z оно следует из первой цепочки теоремы 4. Из последнего неравенства также вытекает (14). ■

Заметим, что при z = L утверждения теоремы могут быть неверны. В частности, тогда в (13) левая часть равна первому выражению под знаком минимума, а второе выражение под знаком минимума может быть меньше первого. Например, для £ =

= п = (0) имеем pmin(1,£) = 1 > ^ = ^Pmin(0,n).

О возможности обобщения результатов на случай r > z заметим следующее. Равенство (13) прямого обобщения не допускает, поскольку, например, при z = M величина pmin(r, п) не определена для r > z. Неравенство (14) при r > z в общем случае неверно.

Например, при £ = (0,x), x ~ U(X) имеем z = 1, pmin(2,£) = — > k-2.

k

Итак, при гипотезе H(п) дополнительное условие (12) позволяет по величинам, полностью определяемым распределением п:

— построить критерий и алгоритм 1;

— рассчитать оценку N-j^z^^), £, а) объёма материала критерия и алгоритмов 1 и 2.

Заметим, что при этом условии из (14) вытекает нижняя оценка для достаточного числа наблюдений: для всех 1 ^ r ^ zmin^)

N*(r,£,a) ^ kr ( r(ln kL + 1J — lnа) .

Заключение

Определение запрета размерности r на множестве номеров координат J Е Е {1,..., L}(r), приведённое в работе, обобщает определение 1 [2, с. 55], в котором такие запреты рассматриваются лишь при J = {1,... ,r}. Поэтому наше понятие кратчайшего запрета отличается от понятий наименьшего и минимального запретов [2, с. 55]. В наших терминах a Е Xs является минимальным запретом в смысле [2], если он является запретом на множестве номеров координат J = {n — s + 1,... , n} (последних s координатах) и не является запретом на множестве {n — s + 2,... , n}.

В [2, c. 55] предложен алгоритм построения статистической оценки множества всех минимальных запретов распределения £ размерности не более so при независимых наблюдениях. Получено выражение для математического ожидания числа эмпирических запретов (на последних координатах) размерности не более s0, а также верхняя оценка для математического ожидания числа v(s0) таких эмпирических запретов, не являющихся теоретическими:

Ev(so) ^ soks0(1 — Pmin(so,£))N,

где p'min(s0,£) —минимум ненулевых вероятностей распределения на последних s0 координатах. Очевидно, что эта величина связана с аналогичной введённой величиной неравенством p'min(s0,£) ^ pmin(s0,£). Из неравенства для Ev(s0) с помощью неравенства Маркова сделан вывод о состоятельности при N ^ го предложенной оценки множества таких запретов.

Ранее в [5] и других работах А. А. Грушо и Е. Е. Тимониной исследовалась задача построения состоятельных критериев, которые предполагалось применять для статистического выявления сбоев в протоколах и технических устройствах.

Проведённая конкретизация задачи и развитие понятийного аппарата позволили сформулировать конкретные алгоритмы её решения, дать допредельные оценки вероятностей ошибок. Такое направление развития предполагалось в заключении работы [1].

Предложенный подход, в свою очередь, может развиваться в следующих направлениях:

— получение явных верхних оценок числа наблюдений для критерия и алгоритмов в случае «функциональной вставки» п — xf, в том числе для конкретных классов функций;

— получение оценок числа наблюдений для более сложных распределений выборки, например схемы конечно зависимых наблюдений, схемы псевдослучайного образования аргументов функции.

ЛИТЕРАТУРА

1. Грушо А. А., Тимонина Е. Е. Запреты в дискретных вероятностно-статистических задачах // Дискретная математика. 2011. Т. 23. №2. C. 53-58.

2. Грушо А. А., Грушо Н. А, Тимонина Е. Е. Статистические методы определения запретов вероятностных мер на дискретных пространствах // Информатика и её применение. 2013. Т. 7. №1. C. 54-57.

3. Михайлов В. Г., Чистяков В. П. О задачах теории конечных автоматов, связанных с числом прообразов выходной последовательности // Обозрение прикл. и промышл. матем. Сер. дискретн. матем. 1994. Т. 1. Вып. 1. С. 7-32.

4. Сумароков С. Н. Запреты двоичных функций и обратимость для одного класса кодирующих устройств // Обозрение прикл. и промышл. матем. Сер. дискретн. матем. 1994. Т. 1. Вып. 1. С. 33-55.

5. Грушо А. А., Тимонина Е. Е. Некоторые связи между дискретными статистическими задачами и свойствами вероятностных мер на топологических пространствах // Дискретная математика. 2006. Т. 18. №4. C. 128-136.

REFERENCES

1. Grusho A. A., Timonina E. E. Zaprety v diskretnykh veroyatnostno-statisticheskikh zadachakh [Prohibitions in discrete probabilistic statistical problems.] Diskretnaya Matematika, 2011, vol.23, no. 2, pp. 53-58. (in Russian)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

2. Grusho A. A., Grusho N. A., Timonina E. E. Statisticheskie metody opredeleniya zapretov veroyatnostnykh mer na diskretnykh prostranstvakh [Statistical techniques of bans determination of probability measures in discrete spaces.] Inform. Primen., 2013, vol.7, no. 1, pp. 54-57. (in Russian)

3. Mikhaylov V. G., Chistyakov V. P. O zadachakh teorii konechnykh avtomatov, svyazannykh s chislom proobrazov vykhodnoy posledovatel'nosti [Problems of the finite automata theory associated with a number of inverse images of the output sequence.] Obozrenie Prikl. i Promyshl. Matem. Ser. Diskretn. Matem., 1994, vol.1, iss. 1, pp. 7-32. (in Russian)

4. Sumarokov S. N. Zaprety dvoichnykh funktsiy i obratimost' dlya odnogo klassa kodiruyushchikh ustroystv [Prohibitions of binary functions and reversibility for a class of encoders.] Obozrenie Prikl. i Promyshl. Matem. Ser. Diskretn. Matem., 1994, vol.1, iss. 1, pp. 33-55. (in Russian)

5. Grusho A. A., Timonina E. E. Nekotorye svyazi mezhdu diskretnymi statisticheskimi zadachami i svoystvami veroyatnostnykh mer na topologicheskikh prostranstvakh [Some relations between discrete statistical problems and properties of probability measures on topological spaces.] Diskretnaya Matematika, 2006, vol. 18, no. 4, pp. 128-136. (in Russian)

i Надоели баннеры? Вы всегда можете отключить рекламу.