ТЕОРИЯ ВЕРОЯТНОСТЕЙ И МАТЕМАТИЧЕСКАЯ СТАТИСТИКА
УДК 519.226, 519.244.3, 519.244.8 doi: 10.18101/2304-5728-2017-4-9-20
О ПРОВЕРКЕ ГИПОТЕЗЫ О ПЛОТНОМ ВЛОЖЕНИИ ДЛЯ
ДИСКРЕТНЫХ СЛУЧАЙНЫХ ПОСЛЕДОВАТЕЛЬНОСТЕЙ
© Меженная Наталья Михайловна
кандидат физико-математических наук, доцент,
Московский государственный технический университет им. Н. Э. Баумана
Россия, 105005, г. Москва, ул. 2-я Бауманская, 5
E-mail: [email protected]
Гипотеза о плотном вложении состоит в том, что одна дискретная последовательность может быть вложена в другую таким образом, что знаки вкладываемой последовательности разделены в результирующей последовательности не более, чем одним знаком. В работе предложен последовательный критерий проверки гипотезы о плотном вложении для дискретных равновероятных случайных последовательностей над конечным алфавитом и изучены его свойства. Вероятность ошибки первого рода (вероятность отклонения верной гипотезы о плотном вложении) построенного критерия равна нулю. Получено выражение для вероятности ошибки второго рода при альтернативной гипотезе, которая состоит в том, что рассматриваемые дискретные последовательности независимы. Рассмотрен также класс подобных критериев. Оказывается, что небольшое изменение процедуры проверки сильно меняет вероятности ошибок. Приведена численная иллюстрация и обсуждение полученных результатов.
Ключевые слова: плотное вложение; последовательный критерий; гипотеза о независимости; вероятности ошибок первого и второго рода; дискретная случайная последовательность.
Введение
Пусть Хп = (х1,...,хи) и Ym ={у1,...,ут) —последовательности элементов множества А„ = {0,...,N -1},jV > 2, длин пит соответственно. Будем говорить, что Хп =(х1,...,хи) является плотной подпоследовательностью Ym = (jj,..., ут), если существуют такие натуральные числа
1 = к < h < ■ ■ ■ < L ^ т, Л+1 -jke{\,2},k = \,...,n-1, (1)
что хк =ул,к = \,...,п.
Впервые задача о плотном вложении одной дискретной последовательности в другую рассмотрена в [1]. Получена верхняя оценка для вероятности того, что заданная двоичная случайная последовательность может быть плотно вложена в последовательность независимых двоичных случайных величин с равномерными распределениями. В работе [2] полу-
чено обобщение этого результата на последовательности со значениями в алфавите с любым конечным числом элементов, а также показано, что эта оценка неулучшаема. Также в [2] получена нижняя оценка для вероятности плотного вложения. Обобщение понятия плотного вложения на случай, когда знаки вкладываемой последовательности могут отстоять друг от друга более, чем на один знак, проведено в [3]. Там же получена нижняя оценка для вероятности вложения с произвольным допуском для дискретных случайных последовательностей. Подробно задача об ограниченных двоичных вложениях и ее значимость для задач криптоанализа рассмотрена в [4], [5]. Вопрос об исследовании свойств дискретных последовательностей общего вида и способов их перечисления приведен в [6]. В настоящей работе мы рассмотрим одну задачу о статистической проверке свойств дискретной случайной последовательности.
1. Построение критерия и его свойства
Рассмотрим задачу о проверке гипотезы Н0п о том, что Хп извлечена из начала последовательности независимых равномерно распределенных на множестве Ам случайных величин 7га как ее плотная подпоследовательность. Ясно, что извлеченная по правилу (1) из начала последовательности }'п, последовательность Хп всегда может быть плотно вложена в начало последовательности Ут .
Самый простой способ проверки гипотезы Н0п состоит в том, чтобы
опробовать все 2я-1 вариантов плотного вложения последовательности Хп в начало последовательности Ут. Вероятность отклонить гипотезу Н0п, если она верна, равна нулю. Согласно теореме 1 работы [2] вероятность ошибочного принятия гипотезы Н0п убывает экспоненциально быстро. Неравенство (3) работы [2] дает верхнюю оценку рп для вероятности того, что последовательность Хп может быть плотно вложена в начало независимой от нее последовательности К,,, которая при п<т имеет вид
+ (ж + ), (2)
не зависит от последовательности Хп и достигается на последовательностях, в которых нет совпадений соседних знаков.
Критерий "Г согласия с гипотезой Н0п, не использующий опробования всех вариантов вложения, был предложен в [7]. В настоящей работе проведем подробный анализ его свойств, а также приведем детальные доказательства сформулированных в [7] утверждений. Критерий Т использует следующий алгоритм:
1) если х1 ф , то гипотеза Н0п отклоняется;
2) если х1 = у1, то ищем в (у2,...,ут) первый знак, равный х2. Обозначим его у^ . Если /2 > 3. то Н0п отклоняется, в противном случае продолжаем проверку;
3) далее ищем в +1,---,Ут) первый знак, равный х3. Обозначим его
у2 . Если Уз > 5, то Н0п отклоняется, в противном случае продолжаем проверку;
к) ищем в (Уjll+l,■■■,Уm) первый знак, равный хк . Обозначим его V,- . Если ]к > 1 + 2{к — 1), то Н0п отклоняется, в противном случае продолжаем проверку и так далее до к = п.
Пусть
Ц = 1, Ц=Ц(Х^ = тш{Г>Ц + ... + Ц_1:у,=хк}, к = 2,...,п,
Тк=Ь'2+... + Ь'к. (3)
Таким образом, критерий Т состоит в следующем. Если х, = у, и на к -м шаге выполнено неравенство
Тк < 2(к -1), (4)
то решение не принимается. В противном случае гипотеза Н0п отклоняется. Если х1 = у1 и при всех к = 2... ..п выполнено неравенство (4), то считаем, что гипотеза Н0п не противоречит результатам наблюдений.
Заметим, если Н0п верна, то существует набор чисел /,..... /я. удовлетворяющих (1), и хк = ул,к = 1,..,,п. Значит, Ь'к = ^ -]к_х <2, к = 2,...,п,
и Тк = Ь'2+... + Ь'к < 2(к -1). Таким образом, при описанной процедуре вероятность ошибки первого рода (вероятность отклонить верную гипотезу Н0п) равна нулю.
Изучим вероятность ошибки критерия Т при альтернативной гипотезе Н1п о том, что последовательность Хп не зависит от последовательности }'п, и состоит из независимых равномерно распределенных на множестве Ам случайных величин, а также величину среднего числа знаков, используемых критерием до принятия решения. Пусть д .я —число проверенных знаков последовательности Хп до принятия решения в критерии Т, когда верна гипотеза Н , / = 0.1 . Ясно, что = п .
Обозначим через [х] целую часть числа х, g{m>(x) — т -ю производную функции g по х.
Теорема 1. Вероятность ошибки второго рода критерия <Т при п> 2 равна
Р{Я0й|Я1и} = ^1-ХаД (5)
к= 1
где последовательность чисел <зк имеет производящую функцию
<*(я) = 1---ехР12.-,—
1 ~sp l^i ml
(x^a-x)-1)
(in-1)
(6)
Величина среднего числа шагов до принятия решения при верной гипотезе Н1п равна
( п-2 _
(7)
1
Е К = —
N
к=1 V к=\ ; j
Замечание 1. Формулу (6) можно также записать в виде (см. (13))
п-2 \\
ч
a(s) = 1 -/Vexp
1 / , (1_дт1)"5 (\
т\
2>
m-\+j
:=s/N
2. Доказательства Доказательство теоремы 1. Вероятность ошибки второго рода критерия <Т равна
Р{Я0и IHJ = P{xt = у„Т{ < 2(/ -1),/ = 2,...,«} = = ?{х, = >>}|l - f^P{Tt < 2 (/ -1),/ = 2 ,...,k-1 ,Тк > 2 (к -1)} j =
= -^l1- X ^ ^ -V,i = 2,...,k-1 ,Tk > 2 (к -1)} j. (8)
Для вычисления вероятностей в правой части (8) рассмотрим вспомогательную задачу.
Пусть Z1,Z2,...,ZIJ,... — последовательность независимых одинаково распределенных случайных величин с геометрическими распределениями (см. [8], с. 238) :
Р {L. = к} = pqk4 ,k = \,2,...,i=\,2,...,q=\-p. (9)
Пусть Sn = Д + ... + Ln - 2n . Найдем
т^Рф <0,5^0,...Д,-1^0Л>0} (Ю)
вероятность того, что на п -м шаге впервые выполнено неравенство
п
^Ц > 2п при п > 1.
1=1
со
Лемма 1. Производящая функция 1(5) = s е [0,1), последова-
тельности (10) имеет вид 1-5
т(,) = 1--^ехр WUx^il-xYT" 1 -sp
(П)
Замечание 2. Ряд (11) сходится в точке 5 = 1 при р< 1/2. Поэтому т(1) = 1 при р< 1/2 (см. теорему 2 §2 главы 12 (с. 448) книги [9]).
Замечание 3. Формулу (11) можно преобразовать. При т > 2
(х2т-\\-хГ)
(т-1)
(
ч1-ху
( т-1
ч (т-1)
2>
т- 1+у
л,
J
(т-1)!
(1-х)"5
( т-1
N (т-1)
2>
,т- 1+у
л,
J
■ф) = 1-———ехр 1 -яр
1
= 1--ехр
(
яр
1 -¡¡Р
(т-1)!
(1-х)"5
( т-1
Ъ
ч (т-1)
т 1 /
1 - ря
яр
■I
1
со ~т т-1
Л
1 -яр ,71 т (\-.sp)'" ^2т\
Х=5р у
ч (т-1)
Теперь воспользуемся разложением логарифма в ряд Тейлора при
Ы<1
^ г-"
1- = -1п(1-4
(12)
Получим
■ф) = 1-7-——ехр<
1 - ря
яр
1 - яр 1 -яр
-1п
( т-1
1--
-1Ы
1 -яр) ~[т\
ч (т-1)
(
Так как 1п
1--
1 -яр
= 1п
1-
1 -р
1 -яр
= 1п —-, ТО
1 -яр
1-я 1 -яр х(5) = 1-------ехр
1 - ря /)(1-5)
со „т (т-1
т\
ч (т-1)
= 1 - р 1 ехр
т-1
-[т\
ч (т-1)
(13)
Вернемся к нашему критерию. Так как знаки последовательности Ут независимы и распределены на множестве Аы равномерно, то распределения случайных величин Ь'к (X) одинаковы при всех Хп. Известно, что если Хп состоит из всех нулей, то случайные величины /,'..... /,' независимы в совокупности и для них выполнены равенства
ПЦ = 1} = М-1 (1 - ЛГ1 у-1, / > 1Д = 2,..., И. (14)
(см., например, [8], с. 327-328). Значит, эти свойства выполнены для любой последовательности Хп. Закон распределения случайный величин
Ь'2,...,Ь'п — это тот же геометрический закон распределения (9) с р = \! N и д= \-\IN.
Обозначим с = х и ст
я "\р=ИЫ Л=\-ИЫ
(я) = Очевидно, что
с(5) = т(5)| =1Ш =1 _1Ш , где х(.у) определена формулой (11). В этих обозначениях равенство (8) можно записать в виде
ПН„ |я„! =
(15)
—,п = 1.
N
Теперь перейдем к вычислению среднего числа ЕЭ|я знаков последовательности Хп, используемых критерием. Так как
Р{31(1 =1} = 1-#-\ Р{Э1и =к + Ц = акМ-\ к = \,...,п -2,
1 со 1 / п-2 Л
^ к=п-\ ^ V ¿=1
то Е9|я задается формулой (7). Теорема 1 доказана.
Доказательство леммы 1. Так как случайная величина /,7 равна номеру испытания Бернулли, в котором впервые произошел успех, то сумма
п
А — это номер опыта, в котором произошел п -й успех в испытаниях
1=1
Бернулли. Поэтому
+ = £ = о,1,2„... (16)
Значит,
Р^ = т} = р{£х, = 2п + = С£т_1Р"д"+",т = -п,-п + \... (17) Известно (см. [9], с. 466), что
СО Я
ьо-ФГ^х-р^^О}. (18)
^ п
Найдем производящую функцию х(я), вычислив правую часть (18). Из (17) получаем, что
т=-п т=-п т=0
Подставив полученное выражение в правую часть (18), получим
СО Я/ 17 А ® Г." / Я Л
ьа-т^г^х- =1- ■
17=1 ^ V 177=0 / 17=1 ^ V 177=1 /
Теперь используем разложение для натурального логарифма (12). Имеем
00 п
ьа-ф))-1 =-1п(1-*) + 1п(1-^)-Х — ^С^д". (19)
я=1 П т=1
Рассмотрим отдельно последнее слагаемое в правой части (19). Сначала изменим порядок суммирования:
п т=1 т=1 т\п=т (и-1)! и
со ~ со
= ^~Х(п + гп-УтЛ*р)я ■ (20)
га I ^^
т= 1 •
Здесь и далее через обозначена к -я факториальная степень числа а .
со
При | х |< 1 выполнено равенство ^ хп+т~1 = х2т1 (1 - х)"1, которое
п=т
можно продифференцировать т-1 раз:
СО ,
(п + т- 1)[тЧ] хп+т4 = (х2тЧ (1 - хГ1)
\(m-l)
Подставив последнее выражение в (20), получим
СО / {,г-.\П И СО / 1\
^^ V! ^^ ^^ W11
я=1 11 т=1 m=l Ul •
Тогда из (19)
Лемма 1 доказана.
3. Численная иллюстрация
со
Так как ^ся=1 при всех N>2 (см. замечание 2), то вероятность
Я=1
ошибки второго рода критерия Т стремится к нулю при п —> оо . Так как Тп = Sn |, то среднее число знаков последовательности Хя, достаточных для принятия верной гипотезы Н1п, равно ЕЭ|я, задаваемому формулой (7). В таблице 1 приведены значения вероятности ошибки второго рода (ошибочного принятия гипотезы Н0п). Они вычислены по формуле (15), исходя из разложения функции o(s) в ряд Тейлора в точке 5 = 0. Данное разложение получено с помощью системы Wolfram Mathematica 10. При произвольном N первые 15 членов разложения имеют вид
, ч (TV-l)2s 2(7V-1)V 5(jV-1)453 14(7V-1)V
C(S) =-9--1--2--1--fi--1--5--
N N N N
42(7V-1)V 132(7V-1)V 429(N -Y)ss7
+ + W2 + WA +
1430(ЛГ-1)9.?8 4862(7У-1)1059 16796(ЛГ-1)п/
^16 ^18 К20 58786(7У-1)125П 208012(Л^-1)13512 742900(7У -1)1 V
Ы22 ы24 ы26
2674440(7У -I)1 V4 9694845(7У -1)1(У5
дг28 ту30
Таблица 1. Значения вероятности ошибки второго рода критерия Т .
п=2 п=3 п=4 п=5 п=6 п=1 п=8
N=3 0,1852 0,1193 0,0828 0,0600 0,0448 0,0342 0,026576
N=4 0,1094 0,0566 0,0319 0,0189 0,0116 0,0073 0,004721
N=5 0,0720 0,0310 0,0147 0,0073 0,0038 0,0020 0,001100
N=6 0,0509 0,0188 0,0076 0,0033 0,0015 0,0007 0,000316
N=1 0,0379 0,0122 0,0043 0,0016 0,0006 0,0003 0,000107
N=8 0,0293 0,0084 0,0026 0,0009 0,0003 0,0001 41-Ю"6
N=9 0,0233 0,0060 0,0017 0,0005 0,0002 52-Ю-6 17-Ю"6
N=10 0,0190 0,0044 0,0011 0,0003 0,0001 26-10"6 8-Ю"6
В таблице 2 приведены значения среднего числа знаков ЕЭ|я при разных N и п. При N = 2 наблюдается наибольший рост ЕЭ|я с ростом п. Это вызвано тем, что в этом случае ст'(1) = со .
Таблица 2. Значение среднего числа знаков ЕЭ|я, используемых кри-
м "Г п эи гипотезе Н1п.
п=2 п=3 п=4 п=5 п=6 п=1 п=8 п=9 «=10
N=2 1,50 1,88 2,19 2,46 2,71 2,93 3,14 3,34 3,52
N=3 1,33 1,52 1,64 1,72 1,78 1,83 1,86 1,89 1,91
N=4 1,25 1,36 1,42 1,45 1,47 1,48 1,49 1,49 1,49
N=5 1,20 1,27 1,30 1,32 1,33 1,33 1,33 1,33 1,33
N=6 1,17 1,22 1,24 1,24 1,25 1,25 1,25 1,25 1,25
N=1 1,14 1,18 1,19 1,20 1,20 1,20 1,20 1,20 1,20
N=8 1,13 1,15 1,16 1,17 1,17 1,17 1,17 1,17 1,17
N=9 1,11 1,13 1,14 1,14 1,14 1,14 1,14 1,14 1,14
N=10 1,10 1,12 1,12 1,12 1,12 1,12 1,12 1,12 1,12
Ниже (рис. 1) представлен график зависимости вероятности ошибки второго рода Ря = Р{#0я |Н1п} от п при N = 2, а также верхняя оценка для вероятности плотного вложения рп по формуле (2). Из графиков видно, что вероятность ошибки второго рода значительно больше, чем рп. Это обусловлено тем, что при проверке гипотезы Н0п по критерию 1 мы
вкладываем каждый следующий знак последовательности Хп на ближайшее возможное место, при этом некоторые из величин Ь'2,...,Ь'к могут быть больше 2. Например, если п = 5 Л' = 1. /„' = 1. ¡!л = 1. /,' = 3. то
Т2 = 1<2(2-1),Г3 =2< 2(3-1),Т4 =3 <2(4-1),Т5 =6 <2(5-1) и гипотеза
НПп принимается, хотя места расположения знаков Хп в ¥гп не удовлетворяют условию (1).
Из приведенных расчетов видно, что было бы хорошо подкорректировать свойства критерия Т выбором подходящего множителя в правой части неравенства (4). В частности, это позволит сократить среднее количество проверяемых знаков при всех N >2. Естественно, в этом случае вероятность ошибки первого рода будет положительна. Оказывается, что выбор одной и той же константы с е (1,2) при всех п в (4) ведет к резкому увеличению ошибки первого рода.
Рис. 1. График зависимости вероятности ошибки второго рода Ря = Р{Н0п | Н1п) критерия 'Т от п при N = 2. Для сравнения приведена оценка вероятности плотного вложения по формуле (2).
Например, пусть 1 < с < 2 и вместо (4) используем Тк < с(к -1). Оценим вероятность ошибки второго рода при N = 2. При верной гипотезе Н()п мы всегда будем ее отклонять, если первый и второй знаки последовательности Хп вкладываются через один, т.е.
На самом деле приведенная оценка является грубой. Экспериментальная оценка вероятности ошибки первого рода по 1000 наблюдений при N = 2 и различных значениях с представлена на рисунке 2.
: 8
0.25 - .
0.20
й» *
л*
Р{Я1я |Я0и}>Р{х1 = *у2,х2 = Л} = 1/8.
Рис. 2. Экспериментальная оценка вероятности ошибки первого рода по 1000 наблюдений при N = 2 и различных значениях с .
Вероятность ошибки второго рода при разных с представлена на графике ниже. Видно, что при достижении значения с = 2 она меняется скачком.
Рис. 3. Вероятность ошибки второго рода при N = 2 и различных
значениях с.
Таким образом, дальнейшая модификация критерия требует определения границы с как функции от длины вкладываемой последовательности п. При этом ясно, что для первых нескольких шагов с не может быть меньше 2.
Заключение
В работе рассмотрен последовательный критерий проверки гипотезы о плотном вложении одной дискретной последовательности в другую. Вероятность ошибки первого рода этого критерия равна нулю. Найдено аналитическое выражение для вероятности ошибки второго рода при альтернативной гипотезе о независимости рассматриваемых последовательностей. При описанной процедуре она оказывается не слишком маленькой
при небольшом размере алфавита. Аналогичными рассуждениями можно изучить класс подобных критериев, у которых вероятность ошибки первого рода положительна. Оказалось, что даже при небольшом изменении параметра с вероятность ошибки первого рода перестает быть нулевой и сразу достигает величины порядка 0,3, а вероятность ошибки второго рода уменьшается приблизительно в два раза.
Литература
1. Golic J. Dj. Constrained embedding probability for two binary strings // SIAM J. Discrete Math. 1996. Vol. 9, No. 3. P. 360-364.
2. Михайлов В. Г., Меженная Н. М. Оценки для вероятности плотного вложения одной дискретной последовательности в другую // Дискретная математика. 2005. Т. 17, № 3. С. 19-27.
3. Меженная Н. М., Михайлов В. Г. Нижние оценки для вероятности вложения с произвольным допуском // Вестник Московского государственного технического университета им. Н. Э. Баумана. Серия: Естественные науки. 2012.№ 2. С. 3-11.
4. Donovan D. М., Lefevre J., Simpson L. A Discussion of Constrained Binary Embeddings with Applications to Cryptanalysis of Irregularly Clocked Stream Ciphers // Balakrishnan R. Veni Madhavan C. (Eds.) Discrete mathematics. Proceedings of the international conference on discrete mathematics, Indian Institute of Science, Bangalore, December 2006. P. 73-86.
5. Kholosha A. Clock-Controlled Shift Registers for Key-Stream Generation. IACR Cryptology ePrint Archive 2001: 61 (2001). URL: eprint.iacr.org/2001/061 .pdf.
6. Кошевой H. Д., Костенко E. M., Доценко H. В., Павлик А. В. Метод перечисления символьных последовательностей // Радюелектронш i комп'ютерш системи. 2012. № 3 (55). С. 45-49.
7. Меженная Н. М. Предельные теоремы в задачах о плотном вложении и плотных сериях в дискретных случайных последовательностях, дис... канд. физ.-мат. наук / Московский государственный институт электроники и математики. М., 2009.
8. Феллер В. Введение в теорию вероятностей и ее приложения: в 2 т. М.: Мир, 1984. Т. 1.528 с
9. Феллер В. Введение в теорию вероятностей и ее приложения: в 2 т. М.: Мир, 1984. Т. 2. 751 с.
ABOUT TESTING THE DENSE EMBEDDING HYPOTHESIS FOR DISCRETE RANDOM SEQUENCES
Natalya M. Mezhennaya Cand. Sci. (Phys. and Math.), A/Prof., Bauman Moscow State Technical University 5 2nd Baumanskaya St., Moscow 105005, Russia
The dense embedding hypothesis says that one discrete sequence can be embedded in the other in such a way that the characters of the inserted sequence are separated in the resulting sequence by at most one character. We propose a sequential test for the dense imbedding hypothesis for discrete equiprobable random sequences over a finite alphabet and study its properties. The probability of type I error (the probability of rejection of the dense embedding hypothesis when it's true) of the constructed test equals zero. We derive an expression for the probability of type II error under the alternative hypothesis that the discrete sequences under consideration are independent. A class of similar test is also considered. It turns out that a small change in the testing procedure greatly changes the error probabilities. A numerical illustration and discussion of the results are given.
Keywords: dense embedding; sequential test; hypothesis of independence; probabilities of type I and type II errors; discrete random sequence.