ТЕОРИЯ ВЕРОЯТНОСТЕЙ И МАТЕМАТИЧЕСКАЯ СТАТИСТИКА
Научная статья УДК 519.24
Б01: 10.18101/2304-5728-2023-2-3-13
О РАСПРЕДЕЛЕНИИ ЧИСЛА ЦЕПОЧЕК СПЕЦИАЛЬНОГО ВИДА В РАЗМЕЧЕННОМ ПОЛНОМ ГРАФЕ
© Меженная Наталья Михайловна
кандидат физико-математических наук, доцент,
Московский государственный технический университет имени Н. Э. Баумана Россия, 105005, г. Москва, ул. 2-я Бауманская, 5 [email protected]
© Краснова Александра Андреевна
студентка,
Московский государственный технический университет имени Н. Э. Баумана Россия, 105005, г. Москва, ул. 2-я Бауманская, 5 [email protected]
© Макарян Леон Суренович
студент,
Московский государственный технический университет имени Н. Э. Баумана
Россия, 105005, г. Москва, ул. 2-я Бауманская, 5
Аннотация. В работе рассматривается распределение числа цепочек из одинаковых меток вершин полного графа, в котором метки присваиваются вершинам случайно в соответствии с заданным распределением на конечном множестве и независимо друг от друга. Доказана центральная предельная теорема для числа таких цепочек, когда число вершин стремится к бесконечности, а длина цепочки остается фиксированной, в том числе в схеме серий (когда вероятности меток, присваеваемых вершинам, могут меняться с ростом числа вершин графа). Для части области изменения параметров построена оценка расстояния между функцией распределения числа цепочек указанного вида и функцией распределения стандартного нормального закона в равномерной метрике. При помощи численного моделирования установлено, что нормальная аппроксимация может применяться к распределению числа цепочек меток вершин на полных графах с числом вершин порядка сотни.
Ключевые слова: полный граф, случайные метки, пути на графах, нормальное распределение, центральная предельная теорема.
Для цитирования
Меженная Н. М., Краснова А. А., Макарян Л. С. О распределении числа цепочек специального вида в размеченном полном графе // Вестник Бурятского государственного университета. Математика, информатика. 2023. № 2. С. 3-13.
Введение
Большое количество сложных систем [1] допускают интерпретацию в виде сетей или графов, где вершины являются элементами системы, а ребра отвечают за связь между ними. В таких моделях, как правило, не все вершины и связи между ними одинаковы. Для их характери-зации используются специально подобранные числовые характеристики, каждая из которых приписывает то или иное свойство каждой из вершин или ребер — так называемые веса, а соответствующие графы принято называть взвешенными. Данный тип графов может быть использован в медицине для представления плотности нейронных связей [2, 3], в управлении для организации эффективного взаимодействия между командами [4], в урбанистике для демаркации регионов [5].
Графы со случайными метками на вершинах или ребрах по-прежнему остаются недостаточно изученной областью. Поиску цепочек на графах со случайными метками также посвящено небольшое количество работ. В [6] рассмотрена задача о поиске кратчайшего пути на полном графе со случайными метками, значения которых равномерно распределены на отрезке [0; 1], а в [7] получен алгоритм для поиска цепочек на подобном графе.
Однако гораздо меньшее внимание уделяется взвешенным графам, метки у которых расположены на вершинах. Такие графы широко применяются в вычислительной биологии, например, для представления аминокислот, где атомная масса каждого атома молекулы является меткой на вершине [8].
В настоящей работе рассматривается задача об аппроксимации нормальным законом распределения числа цепочек из одинаковых меток вершин на полном графе, в котором метки на вершинах независимы между собой и присваиваются вершинам в соответствии с заданным распределением на конечном множестве.
1 Центральная предельная теорема
Рассмотрим полный граф с п вершинами, п > 2. Занумеруем ребра в лексикографическом порядке в соответствии с парами номеров вершин. Каждой вершине независимо от остальных присваивается метка, которая выбирается из конечного множества {а\,..., ат}, т > 2, с заданными вероятностями р1,... ,рт, р1 + ... + рт = 1. Будем говорить, что вершины 1 < ¿1 < ... <11 < п образуют цепочку меток а\,... ,а1 длины I, 1 < I < п, если а3 — метка вершины 13,в = 1,..., I. При этом поскольку граф полный, то все вершины соединены ребрами, и наше определение согласовано с классическим определением цепи на графе.
Рассмотрим случайную величину равную числу цепочек вершин [9, с. 21] на графе, состоящих из одинаковых меток а3, в € {1,..., т},
а именно
С = 1%1,...,г1,
1 <¿1 <...<г;<га
где — индикатор того, что вершины с номерами г1,... обра-
зуют цепочку одинаковых меток.
Обозначим через N(0,1) стандартный нормальный закон распределения, через
Ф(-ш) = —= ( expj-J> dy v2n J-те I "
— функцию распределения N(0,1), через А — сходимость по распределению.
Теорема 1. Пусть l > 1, p = Cna, где C > 0, (--1 ) —- <
\m /21 — 1
a < 0 при некотором натуральном m > 3. Тогда
(i — E{)/7d{ а N(0,1) при n А те, (1)
и все моменты случайной величины (i — E£)/y/D£ сходятся к моментам N(0,1) при n А те.
Очевидным образом из теоремы 1 получаем следующее утверждение.
Следствие 1. Пусть n > l > 1, ps = Cna, где C > 0, — ——- < a <
2l — 1
0. Тогда
(i — E{)/yD£ А N(0,1) при n А те,
и все моменты случайной величины (i — Ei)/y/D£ сходятся к моментам N(0, 1) при n А те.
Теорема 2. Пусть n > l > 1, ps = Cna, где C > 0, —1 < a < 0,
Cj(l ■ Cj--1! + 1)2 ( n3(1-1/2)(«+1) ,
тогда для любого w £ R
P ((i — E£)/vD < w) — $(w)I < 32(1 + V6)Q1/2. (2)
Замечание 1. Порядок величины Q при ps = const и n А те: Q x
C
n
Здесь и далее запись an х bn означает, что
0 < lim an = c < те.
П^те bn
Замечание 2. Порядок величины ( при р3 = Спа, —1 < а < 0:
„-¡31—2
( ~ _п_ = „(3/2—31)«—1/2 (3)
( ~ п(31—3/2)(а+1) = п . (3)
Замечание 3. Область значений параметра а, в которой правая часть оценки (2) ^ 0 :
1
а < 3(1 — 21).
Сравним эту область изменения параметра а и область для него в теореме 1. При т = 3 области в теоремах 1 и 2 совпадают. При т > 3 область сходимости к нормальному закону, полученная в теореме 1, шире.
2 Доказательства теорем
Для доказательства нам понадобятся вспомогательные результаты. Так, поскольку
Е1гь...Л = ^
тогда
Е£ = СП р18.
Лемма 1. Ковариация случайных индикаторов 1^,...,^ и 1Л,...,Л, если имеется к общих вершин в наборах ¿1,..., ¿1 и ]1,...,]1, 1 < к < I, равна
соу(1п ,...л, 1Л,...,Л )= р21—к (1 — рк), (4)
тогда
£ соу(1п,...л, 1Л,...,Л) = Ск С— р21—к(1 — рк).
31,...,31
Если все вершины совпадают (к = I), то
С0у(1г1,...,гг, 1Л ,...,д ) = р!(1 — р!). (5)
Доказательство. Рассмотрим случай, когда имеется к общих вершин, 1 < к < I. Зафиксируем их. Тогда потребуется 21 — к меток с заданными вероятностями р3 для двух цепочек меток длин I. Значит, вероятность того, что наборы вершин ¿1,..., ¿1 и ]1,... ,]1 образуют цепочки меток, равна
Е(1г1,...,гг 1^1,...,^'г )= р2 .
Следовательно, значение ковариации равно
С0у(1п ,...л, 1Л,...,Л) = р2—к (1 — рк).
С учетом возможных вариантов выбора к общих вершин получим £ еоу(1гь...Л, 1Л,...,Л) = Ск С— р21-к(1 - рк).
31,...,31
Пусть теперь все вершины совпадают. Тогда математическое ожидание того, что наборы вершин ¿1,..., ¿г и ^ ..., ^ образуют цепочки, равно
Е(1гх ,...,111 ,...,п ) =
Отсюда сразу получаем (5).
□
Лемма 2. Пусть р,3 £ (0; 1), п > 3, тогда дисперсия случайной величины £ равна
= СП (ЕСкС-к(р2г-к-р2г) + р!(1 -Р!)) . (6)
Доказательство. Согласно определению случайной величины £
В£ = Е Е соу(Ч,...л, 11 ,...,л).
«1.....¿г 31,...,31
Зафиксируем к общих вершин, при этом ковариации определяются формулами (4) и (5). Выбираем к вершин Ск способами из I, а оставшиеся I—к вершин — С^ способами. При фиксированном наборе ¿1,..., гг считаем число различных наборов ...,^, образующих цепочку одинаковых меток, при которых ровно к элементов из ^1,..., jl совпадают с элементами из г 1,..., ¿г. Общее количество случайных индикаторов — СП, поэтому домножим на это выражение, тогда
= СП (ЕСкС—к(р21-к-Р21 )+рв(1 -Р!)) .
□
Теперь перейдем к доказательству теоремы 1. Нам понадобится вспомогательный результат, который опирается на понятие «графа зависимостей».
Граф Г = (V, Е) будем называть графом зависимостей для системы случайных величин {X£ V}, если для любой непересекающейся пары множеств вершин А1, А £ V, таких, что нет ребер из Е, соединяющих вершины в А1 с вершинами в А2, наборы случайных величин {Х«,г £ А1} и {Х«,г £ А2} независимы.
Теорема 3 [Теорема 2, [10]]. Пусть {Х^}^ — семейство ограниченных случайных величин для любого п: < Ап, с графом зависимостей Гп. Пусть Мп — максимальная степень вершины Гп (в случае,
N
если Гп не содержит вершин, положим Мп = 1). Пусть £га = ^ и
г=1
= В£га. Если существует такое целое т > 3, что
(Ж„/М„)1/т ■ М„А„/стга — 0 при п -го, (7)
тогда
(5п - Е5га)/стга — N(0,1) при п -го. (8)
Также все моменты (£га — Е£га)/ап сходятся к моментам стандартного нормального распределения.
Построим теперь граф зависимостей для системы индикаторов {1гь...,гг}. В нем будет С^ вершин, каждая из которых соответствует одному из случайных индикаторов. Вершины, соответствующие 1гь...,гг и ,
связаны ребром, если 1 < |{г1,..., гП} П {^1,... < I.
Оценим сверху максимальную степень вершины О в построенном графе зависимостей Г. Зафиксируем одну из вершин цепочки меток, соответствующих 1^1,...,гг. Для каждой такой зафиксированной вершины выберем I — 1 вершину из общего количества свободных вершин СП—1 способами. Также будем учитывать петли, тогда общее выражение для верхней оценки О можно записать в виде:
О < I ■ + 1. (9)
Применим теорему 3 к нашему набору случайных индикаторов. Случайные индикаторы 1^1,...,гг ограничены сверху единицей, следовательно, можно считать, что = 1. Число N — общее число вершин в графе зависимостей для системы индикаторов {1л,...^г}, значит, N = Сп. Согласно (9)
М„ < I ■ + 1. 2 1
Пусть р - 0, р3 = Спа, ———- — -—- < а < 0, С > 0. Вы-
т(21 — 1) 21 — 1
полним подстановку в (6) и переобозначим в (6) к-е слагаемое через
~<к г~Л_ к
Ьк = СП СПк СП_'к _ к (1 — рк). Тогда при п - го
„21 _ к„ (21 _ к)а
П П па+1 ^ Ьк+1 = п _(1+а)Ьк,
Ьк+1 п2П_к_ 1п(2П_к_ 1)а
х Ьх + п _(1+а)Ьх + п _2(1+а)Ь1 +
Ь
к
Значит,
О = Ь1(1 + 0(п-1-а)), п А те,
где запись /(ж) = 0(д(ж)) означает, что / является «О» большим от д при ж А те, то есть существует такая константа С > 0, что для всех |ж| > N имеет место неравенство |/(ж)| < С|д(ж)|. Тогда при п А те
О х СП (с1 ■ С- ■ п(21-1)а + п1а) X п(21-1)(а+1) X Ь1,
х ^п(21-1)(«+1) х п(1-1/2)(а+1). (10)
Выполним подстановку в (7). Тогда при т > 3
1 \ 1/т 1-1 п \ п
А 0,
п1 -1 ) п(1 - 1/2)(а+1)
п1/тп(1/2-1)а-1/2 А 0,
п1/т+(1/2-1)а-1/2 А 0 при а>т(2Ь) - 2Г-Г ■ (11)
Следовательно, по теореме 3 выполняется (8), что и соответствует утверждению (1) из теоремы 1.
□
Перейдем к доказательству теоремы 2. Воспользуемся следующим утверждением.
Теорема 4 [Следствие 2, [11]]. Пусть {Х^}^ — случайные величины с графом зависимостей Гп = (V, Е). Положим, £п = ^ и = О£п. Пусть Мп — максимальная степень вершины Гп, и предположим, что |ХПг| < Ап. Определим
Я =* ^ , (12)
тогда
< 32(1 + ^6)Я1/2.
р ( £га Е£га < ^ ) -
^га
Применим теорему 4 к нашей задаче. Подставим найденные ранее значения Ап = 1, Б из (9) и ап из (10) в (12). Тогда
~ С1 (1 ■ С1-1 +1)2 Я < Я = —-^-3-.
(п(1-1/2)(«+1))3
Тем самым теорема 2 доказана. □
Замечания 1-3 получаем из следующих соотношений. Порядок величины Q при = const и n ^ го:
Q = f
n
Найдем а, —1 < а < 0, при котором Q ^ 0:
гзг-2
Q » n(3l-3/2)(a+1) = П
n (3/2-3l)a-1/2
<5 ^ о при а < (13)
При т = 3 области для параметра а в (13) и (11) совпадают. Если т > 3, область, полученная в (11), шире:
1 2 1
>
1 — 21 m(1 — 21) 3 — 61'
3 Численные значения оценки скорости сходимости
Из приведенных в теореме 2 оценок скорости сходимости оказывается, что нужно графы достаточно большого размера, чтобы эти оценки были содержательны. Порядок полученных оценок позволяет доказать центральную предельную теорему в ряде случаев, но скорее носит для практических задач качественный, чем количественный, характер .
Естественно ожидать, что для меньшего на порядки количества вершин нормальная аппроксимация также будет работать. Изучим этот вопрос при помощи численных методов.
Пусть
г = .
^га
Посчитаем распределение и аппроксимируем его стандартным нормальным распределением. Используем метод Монте-Карло по 10 000 испытаний, в каждом из которых генерируем метки на графе из заданного множества с заданными вероятностями и ищем цепочку меток длины 1 = 3. Моделирование проводим в системе компьютерной алгебры Wolfram Mathematica версии 13.1. Определим отклонение функции распределения от функции распределения N(0,1) в равномерной метрике:
е = sup |P (£* < w) — $(w)| .
w
Рассмотрим значение е при различных значениях n, n ^ го, и ps.
При увеличении n отклонение е полученной функции распределения от функции распределения стандартного нормального распределения оказывается значительно меньше, чем оценка в теореме 2.
Таблица 1. Оценка скорости сходимости
п а е
50 0.1 19 28 0.261
0.3 529 357 0.147
0.5 2463 1068 0.110
0.7 6727 1853 0.090
0.9 14283 2019 0.087
100 0.1 160 156 0.192
0.3 4382 2031 0.110
0.5 20305 6094 0.081
0.7 55662 10807 0.061
0.9 117913 11753 0.057
500 0.1 20767 8631 0.096
0.3 560605 115390 0.046
0.5 2.59 ■ 106 348392 0.035
0.7 7.11 ■ 106 623692 0.034
0.9 1.51 ■ 107 674872 0.030
1000 0.1 166289 48030 0.062
0.3 4.49 ■ 106 650142 0.031
0.5 2.08 ■ 107 1.96 ■ 106 0.030
0.7 5.71 ■ 107 3.55 ■ 106 0.027
0.9 1.21 ■ 108 3.81 ■ 106 0.023
5000 0.1 2.08 ■ 107 2.64 ■ 106 0.030
0.3 5.62 ■ 108 3.58 ■ 107 0.019
0.5 2.60 ■ 109 1.09 ■ 108 0.016
0.7 7.14 ■ 109 1.97 ■ 108 0.011
0.9 1.52 ■ 101и 2.14 ■ 108 0.010
Заключение
Рассмотрено распределение числа цепочек из одинаковых меток вершин полного графа, в котором метки присваиваются вершинам случайно в соответствии с заданным распределением на конечном множестве. Изучена возможность аппроксимации нормальным распределением распределения числа таких цепочек, когда число вершин графа стремится к бесконечности, а длина цепочки остается фиксированной, в том числе в схеме серий (когда вероятности меток могут меняться с ростом числа вершин). Для части области изменения параметров построена оценка до функции распределения стандартного нормального закона в равномерной метрике. Рассмотрен вопрос о качестве предложенной аппроксимации для графов меньшего размера при помощи численных методов. Таким образом, оказывается, что в графах небольшо-
го объема (порядка сотни вершин) возможно использовать нормальную аппроксимацию для значений функции распределения величины
Литература
1. Jorgensen P., Tian F. Duality for gaussian processes from random signed measures // Mathematical Analysis and Applications: Selected Topics. 2018. P. 23-56. D01:10.1002/9781119414421.ch2
2. Hu C., Cheng L., Sepulcre J., Johnson K., Fakhri G., Lu Y., Li Q. A spectral graph regression model for learning brain connectivity of Alzheimer's disease // PLoS One. 2015. Vol. 10, № 5. P. 24. DOI: 10.1371/journal.pone.0128136
3. Chen S., Zhang Z., Mo C., Wu Q., Kochunov P., Hong L. Characterizing the Complexity of Weighted Networks via Graph Embedding and Point Pattern Analysis // Entropy. 2020. Vol. 22, № 9. P. 12. DOI: 10.3390/e22090925
4. Liemhetcharat S., Veloso M. Weighted synergy graphs for effective team formation with heterogeneous ad hoc agents // Artificial Intelligence. 2014. Vol. 208. P. 41-65. DOI: 10.1016/j.artint.2013.12.002
5. He M., Glasser J., Pritchard N., Bhamidi S., Kaza N. Demarcating geographic regions using community detection in commuting networks with significant self-loops // PLoS One. 2020. Vol. 15, № 4. P. 31. DOI: 10.1371/journal.pone.0230941
6. Hassin R., Zemel E. On Shortest Paths in Graphs with Random Weights // Mathematics of Operations Research. 1985. Vol. 10, № 4. P. 557-564. DOI: 10.1287/moor.10.4.557
7. Janson S. One, Two and Three Times log n/n for Paths in a Complete Graph with Random Weights // Combinatorics, Probability and Computing. 1999. Vol. 8, № 4. P. 347-361. DOI: 10.1017/S0963548399003892
8. Knisley J., Knisley D. Vertex-weighted graphs and their applications // Utilitas Mathematica. 2014. Vol. 94, № 7. P. 16.
9. Карпов Д. В. Теория графов. Москва: Изд-во МЦНМО, 2022. 560 с. Текст: непосредственный.
10. Janson S. Normal Convergence by Higher Semiinvariants with Applications to Sums of Dependent Random Variables and Random Graphs // The Annals of Probability. 1988. Vol. 16, № 1. P. 305-312. DOI: 10.1214/aop/1176991903
11. Baldi P., Rinott Y. On Normal Approximations of Distributions in Terms of Dependency Graphs // The Annals of Probability. 1989. Vol. 17, № 4. P. 1646-1650. DOI: 10.1214/aop/1176991178
Статья поступила в 'редакцию 15.05.2023; одобрена после рецензирования 14.06.2023; принята к публикации 23.06.2023.
ON THE DISTRIBUTION OF THE NUMBER OF SPECIAL KIND CHAINS IN A MARKED COMPLETE GRAPH
Natalya M. Mezhennaya Cand. Sci. (Phys. and Math.), A/Prof., Bauman Moscow State Technical University 5 2nd Baumanskaya St., Moscow 105005, Russia
Alexandra A. Krasnova Student,
Bauman Moscow State Technical University 5 2nd Baumanskaya St., Moscow 105005, Russia
Leon S. Makaryan Student,
Bauman Moscow State Technical University 5 2nd Baumanskaya St., Moscow 105005, Russia
Abstract. In this paper we consider the distribution of the number of chains of identical labels of vertices in a complete graph where labels are assigned to vertices randomly according to a given distribution on a finite set and independently of each other. The central limit theorem is proved for the number of such chains when the number of vertices tends to infinity and the chain length remains fixed, including the series scheme (when probabilities of labels assigned to vertices can change with increasing number of vertices of the graph). For a part of parameter variation area we built an estimation of distance between distribution function of number of chains of specified kind and distribution function of standard normal law in uniform metrics. Using numerical simulation it was determined that normal approximation can be applied to the distribution of number of chains of vertex labels on complete graphs with number of vertices of the order of hundred.
Keywords: complete graph, random labels, paths on graphs, normal distribution.
For citation
Mezhennaya N. M., Krasnova A. A., Makaryan L. S. On the Distribution of the Number of Special Kind Chains in a Marked Complete Graph. Bulletin of Buryat State University. Mathematics, Informatics. 2023. N. 2. P. 3-13.
The article was submitted 15.05.2023; approved after reviewing 14.06.2023; accepted for publication 23.06.2023.