Научная статья на тему 'Модель топа новостей на основе экстремального дробового шума'

Модель топа новостей на основе экстремального дробового шума Текст научной статьи по специальности «Математика»

CC BY
35
8
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Модель топа новостей на основе экстремального дробового шума»

Библиографический список

1. Лебедев, А.В. Максимумы рекуррентных случайных последовательностей [Текст] // Вестник МГУ. - Сер. 1. Матем.-Мех. - 2001. - № 1. - С. 10-14.

2. Лебедев, А.В. Максимумы рекуррентных случайных последовательностей. Случай тяжелых хвостов [Текст] // Вестник МГУ. - Сер. 1. Матем.-Мех. - 2001. - № 3.- C. 63-66.

3. De Haan L., Resnick S.I., Rootzen H., de Vries G.C. Extremal behaviour of solutions to a stochastic difference equation with applications to ARCH processes. // Stoch. Proc. Appl. 1989. V. 32. № 1. P.213-224.

4. Kozubowski T.J., Podgorski K. Log-Laplace distributions // Int. Math. J. 2003. V. 3. № 4. P. 467-495.

5. Embrechts P., Kluppelberg C.P., Mikosh T. Modelling extremal events for insurance and finance. Springer, 2003.

6. Новицкая, О.С., Яцало, Е.Б. Экстремумы рекуррентных случайных последовательностей // Вестник МГУ. - Сер. 1. Матем.-Мех. - 2008. № 5, С. 6-10.

7. Alpuim М.Т., Catkan N.A., Husler J. Extremes and clustering of nonstationary max-AR(1) sequences. // Stoch. Proc. Appl. 1995. V. 56. № 1. P. 174-184.

8. Лебедев, А.В. Степенные хвосты и кластеры в линейных рекуррентных случайных последовательностях // Труды VI Колмогоровских чтений. - Ярославль: Изд-во ЯГПУ, - 2008 - С. 126130.

А.В. Лебедев

МОДЕЛЬ ТОПА НОВОСТЕЙ НА ОСНОВЕ ЭКСТРЕМАЛЬНОГО ДРОБОВОГО ШУМА

1. Введение. В современных средствах массовой информации и сети Интернет часто составляют списки наиболее популярных новостей в порядке убывания их популярности. Такой список называют "тоном". Той-/с состоит из к наиболее популярных новостей (например, той-10). Отмстим, что аналогичные списки составляют из песен, музыкальных групп, знаменитостей и т.п.; их называют также чартами, рейтингами и др. Популярность чего-либо в общем случае может оцениваться интуитивно (но мнению экспертов) или статистически (но частоте упоминаний, результатам голосований и др.). Будем считать, что она выражается произвольной неотрицательной величиной.

Рассмотрим следующую модель. Пусть новости поступают пуассоновским потоком с интенсивностью А в случайные моменты ij,... tn,... и популярность п новости в момент времени t > Ü описывается случайным процессом т]„ = £nf{t—tn), где п > 1 — независимые неотрицательные случайные величины с одинаковым непрерывным распределением F, f(t) — неотрицательная функция, непрерывная справа, интегрируемая по Риману на

В наборе случайных величии 13 каждый момент отлично от нуля лишь конеч-

ное их число (почти наверное). Поэтому для данного набора можно определить максимум М(t) и к максимумы M^(i) (т.е. значения к в порядке убывания) [1, гл. 2]. Эти величины

Отмстим, что М(£) представляет собой процесс экстремального дробового шума. Этот термин употребляется в отношении процессов, получаемых из классического (аддитивного) дробового шума заменой операции суммирования па максимум или минимум [2]. Процесы M^k'(t) также можно рассматривать как модификации дробового шума с заме-

2. Одномерные распределения популярностей. Введем сумму

'Работа выполнена при поддержке РФФИ, проекты № 07-01-00077, № 07-01-00373.

которая описывает, популярность скольких новостей в момент I превышает уровень и, и содержит лишь конечное число слагаемых (почти наверное).

Лемма 1. Случайная величина ,5'(Ь, и) имеет пуассоновское распределение с параметром

Доказательство. Воспользуемся известным свойством пуассоповского потока: при условии, что число точек на отрезке [0, £] известно, их можно считать независимо и равномерно распределенными па этом отрезке (без учета порядка). Новость, поступившая в момент I — з, з € [0, ¿], даст единичный вклад в сумму с вероятностью Р[и//(з)). Усредняя по моменту поступления, получаем, что каждая точка, независимо от других, даст вклад с вероятностью

Переходя к производящим функциям, получаем

ОО ( \f\Tl

М2за,и) = ^ + (1 _г<(м)))„ = ехр{А^(и)(г _ 1)}>

,7=о п-

что как раз соответствует пуассоновскому распределению с нужным параметром. Теорема 1.

Р(М(*) < и) = Р(М<*>(*) < и) = £ .

1=0

Доказательство. Используем сстсствснные соотношения:

Р(М(0 <и) =Р(5(*,«) = 0); Р(М<к)(*) <и) = Р(5'(«,«) <к- 1).

Подобный метод применялся в [1, §2.2] для исследования максимумов независимых одинаково распределенных случайных величин.

Следствие 1. Пусть интеграл

сходится при и > щ > 0 и ¡¿(и) = XI(и), тогда

Шп Р(А/(0 <и) = е-»(и\ Шп Р(А/(а)(0 < и) = §

—'-оо —1=0

при и > ио.

В данном случае предельный переход очевиден. Заметим, что если существует щ > 0 такое, что 1(и) расходится при всех и < щ, то /¿(£, и) —> +оо, £ —» оо, так что Р(А/(£) < и) —» 0, Р < и) —> 0, т.е. предельные функции распределения равны нулю при

и < щ■ Таким образом, следствием можно пользоваться и в этом случае, формально полагая Д(и) = +оо и //(и)'е-я(1,) = 0, / > 0. Далее будем предполагать, что условие следствия 1 выполнено, т.е. интеграл сходится при всех достаточно больших и, а значит, предельные распределения существуют.

Обозначим предельные распределения М(£) и при £ —> оо через Ф и Ф^ и

введем случайные величины с такими распределениями М, а также независимую от

них величину £ с распределением Г.

2. Многомерные распределения популярностей. Рассмотрим Б(1, и) как случайный процесс по и > 0 при фиксированном Ь > 0.

Теорема 2. Пусть заданы числа щ > и2 > ... > ит > 0, т > 2. Тогда случайные величины Б^,и2) — .... 3(Ь,ит) — £(£,ит_1) независимы и имеют пуас-

соновские распределения с параметрами ц{Ь,и 1), и2) — и 1),... . /¿(£,«т) — ит_х) соответственно.

Обозначим указанные параметры через 1 < ? < т.

Доказательство. Используем те же соображения, что и при доказательстве теоремы 1. Вклад отдельно взятой новости, поступившей в равномерно распределенный на отрезке [0, £] момент времени, в вектор (£(£, г^), ио) — «х),.. ., ит) — £(£, ит-1)) принимает значения (1,0,..., 0), (0,1,.. ., 0),...,

(0,...,0,1) с вероятностями г^щ), гДиг) — ^(«1),..., г({ит) — 7^ («„,_[), которые обозначим через Аг^, 1 < г < /л. Его производящая функция равна

ЕЛгм~< + (1 - = Е -1) +1.

¿=1 1=1

Таким образом, получаем

j^j „S(t,u 1) _5(i,«2)-5(i,u0

,S(i,Um) — S(i,Um_l) _

E

71=0

-At

n!

¡=1

е~л< £ - 1) + 1 = «p E A/*(*)(* - 1) ,

¿=1

что и доказывает утверждение теоремы.

Таким образом, процесс S(t,u) но и > 0 имеет независимые нуассоновскис приращения (со знаком минус). Множество точек популярностей текущих новостей образует на оси (0,+оо) неоднородный нуассоновский ноток.

Зная совместное распределение сумм S(t, tti),..., S(t, ит), можно пайти совместное распределение к максимумов, используя соотношение

р (М(0 < щ, М<-Щ <щ,..., M™(t) < ит) = = Р(S(t, щ) = 0, S(t, и2) < 1,..., S(t, Um) < т - 1),

однако в общем виде формулы оказываются очень громоздкими. Рассмотрим случай 771=2. Следствие 2. Для любых ui > и2 > 0 верно

Р(M(t) <uuM^(t) < и2) = e~^Hß(t,u2) -ß(t,m) + 1).

Доказательство. Имеем

P(M(t) < иьЛ/(2)(0 <и2) =P(S{t,Ul) = 0,S{t,u2) < 1) = = е-р(«,«1)(е-А^2 (0 + Д^2(^)е-Л/«(<)) = + 1).

Следствие 3. Для любых и 1 > и2 > 0 верно

Um P(M(i) < «ь M(2)(i) < щ) =

= e-Mu2\jx{u2) - ¡х{иу) + 1) = Ф(и2)(1п Ф(их) - In Ф(и2) + 1).

3. Распределения мест и времен пребывания. Пусть время "раскруткимповости от нуля до максимальной популярности мало но сравнению с общим временем, когда она представляет интерес (в отношении песен и знаменитостей это уже нельзя считать верным). Тогда можем предположить, что функция / имеет скачок в нуле и /(0) = 1, а далее функция не возрастает.

Предположим также, что система находится в стационарном (иредслыюм) режиме, что эквивалентно ситуации, когда поток новостей начинается в —оо. В этом случае можно найти вероятности того, что очередная новость в момент поступления:

1) займет место лидера

Р1 = Р(м < е) = Г

л)

2) попадет в тои-А-

Рк = Р(М<*> <0 = Г £ с1Г(и);

Jo /=0 I.

3) попадет па к место

Г

Вероятности р^, к > 1, описывают распределение случайного места и, которое занимает очередная новость в момент поступления (без учета ограничений па размер тона).

Вычисление но указанным формулам в общем случае затруднительно. Предположим, что начальная популярность новости имеет распределение Парсто F(x) = 1 — х-а, х > 1, а > 0. Такое предположение, вообще говоря, находится в русле современных представлений о распространенности степенных хвостов в природе, технике и человеческой деятельности [3]. В данном случае интеграл 1{и) при и > 1 считается очень просто:

'{и)=сШ~°л=и" с т"л-

Введем обозначение

/•оо

р = А/ /(¿)°А,

Л)

тогда

Ф(м) = е~ры~", Ф<А>(Ы) = ^ (Ри~"У е-Ри-> ^

/=о

При О < и < 1 имеем

У*оо

/(¿ГсЙ.

Например, если /(¿) = е t > О, получаем р = А/(а-у) и Ф(гг) = е~рих, О < и < 1.

Однако для вычисления вероятностей рь, к > 1, значения функций распределения при

О < и < 1 нам не нужны, поскольку в этой области -Р(и) = О. Интегрируя, получаем

- 1 ~ е~"

Рк = 1 (к-е-'^к - .

¿=1 н \ 1=0 '■/

В вычислительных целях вероятности рк, к > 2 удобнее считать рекурреитно, по формуле

„к—2

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Рк - Рк-1

_ р-р-

(*-!)!"

Примечательно, что все зависит только от одного параметра р.

Можно заметить, что рк, к > 1, представляют собой рандомизированные пуассопов-ские вероятности (со сдвигом на единицу). А именно, случайное место новости и можно представить как пуассоповскуго случайную величину, параметр которой равномерно распределен па отрезке [0,/э], плюс единица. Отсюда, в частности, следует соотношение М;/ = /о/2 + 1.

Кроме того, имеет место асимптотика рк ~ 1/р, Рк ~ к/р, к > 1, при р —> оо. Отсюда следует, что условное распределение места новости в топс-т при условии ее попадания в этот тон асимптотически равномерно при р —> оо, для любого т > 1.

В общем случае порядок новостей в тоне может меняться и в периоды между поступлениями. А именно, если / убывает быстрее экспоненты, то "старые"новости могут опускаться вниз, а "свежие"подниматься вверх; если медленнее, возможен обратный процесс. Единственный случай, когда порядок новостей не меняется, это если / — показательная функция. В этом случае популярность всех новостей меняется со временем пропорционально.

Тогда легко исследовать времена, которые новости проводят на своих местах в топе. Новость может покинуть к место только в момент поступления очередной новости, с вероятностью Рк, независимо от предыдущих событий. Поэтому время пребывания на к месте имеет показательное распределение со средним Х* = (ЛРк)~1- Среднее время пребывания в тоне-т для новости, занявшей в момент поступления к место, к < т, получается равным Тк,т = \~\Pk1 + ... + Р~х).

Следующие таблицы рассчитаны при Л = 1, р = 4; здесь М// = 3.

Вероятности попадания на к место:

к 1 2 3 4 5 6 7 8 9 10

Рк 0,245 0,227 0,19 0,142 0,093 0,054 0,028 0,013 0,005 0,002

Вероятности попадания в топ-А-:

к 1 2 3 4 5 6 7 8 9 10

Рк 0,245 0,473 0,663 0,805 0,897 0,951 0,979 0,992 0,997 0,999

Средние времена пребывания на к месте:

к 1 2 3 4 5 6 7 8 9 10

Тк 4,075 2,116 1,508 1,243 1,114 1,051 1,022 1,008 1,003 1,001

Средние времена пребывания в топс-10 для занявших к-с место при поступлении:

к 1 2 3 4 5 6 7 8 9 10

Тк,ю 15,142 11,067 8,951 7,443 6,2 5,086 4,034 3,013 2,004 1,001

i Надоели баннеры? Вы всегда можете отключить рекламу.