Научная статья на тему 'Использование математических моделей при проектировании и оценке эффективности функционирования интернет-сайтов'

Использование математических моделей при проектировании и оценке эффективности функционирования интернет-сайтов Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
409
78
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
WEB-САЙТ / ЭФФЕКТИВНОСТЬ / УПРАВЛЕНИЕ / МОДЕЛЬ / МЕТРИКА / СТОИМОСТЬ / ЗАДЕРЖКА

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Ванина М.Ф, Ерохин А.Г., Фролова Е.А.

Авторы указывают на вероятностный характер процессов, происходящих на сайтах, поэтому для оценки их временных характеристик представляется возможным использование методов аналитического моделирования и теории массового обслуживания. Модель Web-сайта может быть представлена в виде открытой сети массового обслуживания, где каждый узел моделирует задержку (время пребывания пользователя на странице проектируемого сайта). При этом ставится задача определения класса систем массового обслуживания, наиболее адекватно представляющая процессы, происходящие на страницах сайта. Рассмотрен следующий класс систем массового обслуживания многолинейные системы с потерями (системы типа G/G/l/ 0). Число каналов обслуживания l определяет максимальное количество одновременно находящихся на странице сайта пользователей. Показано, что применение аналитических моделей массового обслуживания позволяет оценивать среднее и максимальное время задержки пользователей на сайте. В процессе дальнейшей эксплуатации сайта полученные данные могут быть уточнены с помощью соответствующих метрик и использованы для совершенствования моделей его развития и построения эффективной процедуры его управления.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Ванина М.Ф, Ерохин А.Г., Фролова Е.А.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

THE USE OF MATHEMATICAL MODELS IN THE DESIGN AND ASSESSMENT OF EFFICIENCY OF INTERNET SITES FUNCTIONING

The authors point out that the processes occurring on the sites are of a probabilistic nature and it is possible to use the methods of analytical modeling and queuing theory to estimate their temporal characteristics. The Web site model can be represented as an open queuing network, where each node simulates a delay (the time of the user's stay on the page of the projected site). At the same time, the task is to determine the class of queuing systems that most adequately represents the processes occurring on the pages of the site. The following class of queuing systems is considered: multilinear systems with losses (systems of the type G / G / l / 0). The number of service channels l determines the maximum number of simultaneously located on the website page users. It is shown that application of analytical queuing models allows to estimate average and maximum time of users' delay on the site. In the course of further operation of the site, the obtained data can be refined with the help of appropriate metrics and used to improve the models of its development and build an effective procedure for its management.

Текст научной работы на тему «Использование математических моделей при проектировании и оценке эффективности функционирования интернет-сайтов»

ИСПОЛЬЗОВАНИЕ МАТЕМАТИЧЕСКИХ МОДЕЛЕЙ ПРИ ПРОЕКТИРОВАНИИ И ОЦЕНКЕ ЭФФЕКТИВНОСТИ ФУНКЦИОНИРОВАНИЯ ИНТЕРНЕТ-САЙТОВ

М.Ф. Ванина, доцент кафедры «Информационных систем», к.т.н., МТУСИ, margo.vanina2012@yandex.ru;

А.Г. Ерохин, доцент кафедры «Информационных систем», к.т.н., МТУСИ, andrew 145@yandex. ru;

Е.А. Фролова, доцент кафедры «Информационных систем» МТУСИ, efrolova@me.com УДК 51-7

Аннотация. Авторы указывают на вероятностный характер процессов, происходящих на сайтах, поэтому для оценки их временных характеристик представляется возможным использование методов аналитического моделирования и теории массового обслуживания.

Модель Web-сайта может быть представлена в виде открытой сети массового обслуживания, где каждый узел моделирует задержку (время пребывания пользователя на странице проектируемого сайта). При этом ставится задача определения класса систем массового обслуживания, наиболее адекватно представляющая процессы, происходящие на страницах сайта.

Рассмотрен следующий класс систем массового обслуживания - многолинейные системы с потерями (системы типа G/G/l/0). Число каналов обслуживания l определяет максимальное количество одновременно находящихся на странице сайта пользователей.

Показано, что применение аналитических моделей массового обслуживания позволяет оценивать среднее и максимальное время задержки пользователей на сайте. В процессе дальнейшей эксплуатации сайта полученные данные могут быть уточнены с помощью соответствующих метрик и использованы для совершенствования моделей его развития и построения эффективной процедуры его управления.

Ключевые слова: web-сайт; эффективность; управление; модель; метрика; стоимость; задержка.

THE USE OF MATHEMATICAL MODELS IN THE DESIGN AND ASSESSMENT OF EFFICIENCY OF INTERNET SITES FUNCTIONING

Margarita Vanina, associate professor of the «Information systems» department, candidate of technical sciences MTUCI;

Andrei Erokhin, associate professor of the «Information systems» department, candidate of technical sciences» MTUCI;

Elena Frolova, associate professor of the «Information systems» department» MTUCI

Annotation. The authors point out that the processes occurring on the sites are of a probabilistic nature and it is possible to use the methods of analytical modeling and queuing theory to estimate their temporal characteristics.

The Web site model can be represented as an open queuing network, where each node simulates a delay (the time of the user's stay on the page of the projected site). At the same time, the task is to determine the class of queuing systems that most adequately represents the processes occurring on the pages of the site.

The following class of queuing systems is considered: multilinear systems with losses (systems of the type G / G / l / 0). The number of service channels l determines the maximum number of simultaneously located on the website page users.

It is shown that application of analytical queuing models allows to estimate average and maximum time of users' delay on the site. In the course of further operation of the site, the obtained data can be

refined with the help of appropriate metrics and used to improve the models of its development and build an effective procedure for its management.

Keywords: web-site; efficiency; management; model; metrics; cost; delay.

Оценка эффективности сайта является очень важной задачей. Большинство существующих сайтов в настоящее время относятся к двум категориям - сайты электронной коммерции и корпоративные сайты. Для оценки эффективности функционирования сайтов разработана система показателей (метрик). Для сайтов, относящихся к категории электронной коммерции, используются четыре метрики: конверсия, время пребывания на сайте, количество отказов и количество просмотренных страниц [1].

Для категории корпоративных сайтов метрика «конверсия» не может быть использована, однако все остальные показатели также могут применяться. Таким образом, показатель «время пребывания пользователя на сайте» может служить важнейшим показателем его эффективности, независимо от того, к какой категории относится сайт.

Оценку времени пребывания пользователя на сайте можно проводить с помощью специальных инструментов [2-3]. Однако для этого сайт должен быть уже создан и эксплуатироваться. Но часто возникает задача оценки временных характеристик сайта до его создания, т.е. в процессе проектирования. Обычно проектируемый сайт ориентируется на высокий уровень пользовательской активности (иначе зачем создавать такой сайт?). Поскольку процессы, происходящие на сайте, носят вероятностный характер, для оценки его временных характеристик представляется возможным использование методов аналитического моделирования и теории массового обслуживания [4].

Современные аналитические модели массового обслуживания позволяют вычислять не только среднее, но и (что более важно) максимальное время пребывания заявок в системе или сети [5-6]. Под максимальным временем пребывания заявки в системе или сети массового обслуживания понимается время, превышение которого возможно только для некоторой, наперед заданной доли заявок Рт. Например, для многолинейных систем массового обслуживания [7] максимальное время пребывания в системе вычисляется с помощью решения трансцендентных уравнений:

-щ-Tqm

а1 ■ е — + а2 • e^Tqm - (1 - Pm ) = 0,

если квадрат коэффициента вариации потока заявок на выходе системы ( С2) больше или равен

1;

Л

\П1

n -1

Л2 -Л1

■e

Л ■ Tqm

Л

Л

-Л2 ■ Tqm

к=0

Л

Y1

n -к-1

\.Л2 -Л1.

■I

j=0

(Л Tqm )j j!

-(1 - Pm )= 0 ,

если квадрат коэффициента вариации потока заявок на выходе системы меньше 1, где а, /лх ,а2, - параметры гиперэкспоненциального распределения, ^ , щ - параметры распределения эрланговского типа:

а2 = 1 -Фр,

К = 2 ■ Фр / Tq, цг = 241 -Ф„)/Tq,

Ф =

2

1

-1

С2 -1

Ctq 1

Л = 11+V(n - 1Мс>1 -1) у,

n -2

e

1

V

У

А — ——

2 Тд

V

ч2

сЦ ■ —1 -1

— I

—1 — 1/сщ-

Теория массового обслуживания позволяет строить и исследовать достаточно простые модели функционирования различных систем.

Каждая из страниц проектируемого сайта может быть представлена в аналитической модели в виде системы массового обслуживания, моделирующей определенную задержку (время пребывания пользователя на странице), а модель всего сайта может быть представлена в виде открытой сети массового обслуживания.

Постановка задачи для предлагаемой модели имеет вид:

Дано:

М - число страниц Web-сайта.

Параметры страницы:

Д - среднее время пребывания пользователя на странице ^ г — 1...М ;

А - интенсивность входного потока заявок к странице (заходов на страницу извне, т.е. не с других страниц сайта) i, г — 1...М ;

|р.|г — 0...М - матрица вероятностей перехода между страницами сайта. Под узлом 0 понимается внешний источник заявок;

Рт - доля посетителей сайта, для которой вычисляется максимальное время задержки.

Найти:

Тд0 - среднее время задержки пользователя на сайте;

Тц - максимальное время задержки пользователя на сайте, т.е. время, превышение

которого возможно только для доли посетителей сайта Рт (обычно в качестве значения Рт выбирают стандартное значение - 0,9 или 0,95);

Тд1, г — 1..М - среднее время задержки пользователя на странице /';

Р , г — 1...М - вероятность отказа в обслуживании (невозможности захода на страницу

Переход на страницы сайта возможен тремя путями: набором адреса в адресной строке браузера, щелчком по гиперссылке на другом сайте, щелчком по гиперссылке на другой

странице данного сайта. Интенсивность А определяет число входов на страницу в единицу времени первыми двумя способами, а матрица вероятностей перехода |р|| определяет

алгоритм перехода по страницам сайта третьим способом.

Современные методы аналитического моделирования [4-7] позволяют учесть возможность неэкспоненциального распределения входных потоков и времени задержки пользователя на страницах сайта. В этом случае в качестве входных параметров добавляются соответствующие квадраты коэффициентов вариации, а в качестве результатов появляется возможность получить стандартные отклонения времени посещения сайта в целом и каждой его страницы в отдельности.

Затем необходимо определить класс систем массового обслуживания (СМО), подходящий для адекватного представления процессов, имеющих место на страницах сайта. Поскольку на каждой странице одновременно могут находится несколько пользователей, рассмотрим класс многолинейных систем массового обслуживания с потерями (типа G/G/l/0).

—1

/

Число каналов обслуживания l будет определять максимальное число одновременно находящихся на странице сайта пользователей. На рис. 1 представлено графическое изображение системы G/G/l/0.

1

l

Рисунок 1.

Выбор данного класса СМО обусловлен следующем:

• каждый сайт имеет ограничение по числу одновременно находящихся пользователей (это число определяется возможностями используемой СУБД и характеристиками web-сервера и его следует максимизировать, но в любом случае оно конечно);

• если число пользователей превышает максимально возможное значение, возможен отказ в посещении web-страницы;

• очередь к web-страницам отсутствует.

При проектировании сайта возможно исследование его характеристик в широком диапазоне изменений параметров, в том числе параметра I. Это впоследствии поможет оценить технические характеристики оборудования, используемого в качестве web-сервера, что, в свою очередь, влияет на стоимостные показатели эффективности.

Применение методов аналитического моделирования невозможно без использования вычислительной техники и специализированных пакетов расчетов. Одним из таких пакетов является пакет программ «Дифар» [8-9], с помощью которого были проведены все приведенные ниже расчеты.

На этапе проектирования сайта можно решить следующие задачи:

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

• определение максимально возможного потока посетителей сайта при заданном времени задержки на странице и максимально возможным числом одновременных посетителей сайта;

• исследование зависимости максимальной задержки пользователя на странице при заданном среднем времени задержки и интенсивности потока посетителей сайта (с учетом максимально возможного числа одновременных посетителей сайта);

• исследование зависимости максимальной задержки пользователя на странице от максимально возможного числа посетителей сайта и интенсивности входного потока (при заданном среднем времени посещения страницы).

В качестве простейшего примера рассмотрим web-сайт, состоящий из одной страницы (/=1). В случае использования системы G/G/l/0 время Тд0 = Тд0 и Тдт^ = Тдт , причем эти

времена не зависят от ^ .

Пусть Тд1 = 3[мин] и максимально возможное число пользователей 1=49. Исследуем поведение системы в диапазоне значений \ = [1 ^100\заявок/мин] с шагом 1. Расчеты с использованием пакета «Дифар» дают результаты, приведенные в табл. 1:

Таблица 1.

ТЧо ТУт0 Р

1,000 3,000 6,9078 0,98253*10-30

2,000 3,000 6,9078 0,13086*10-22

3,000 3,000 6,9078 0,13297*10-17

4,000 3,000 6,9078 0,75851*10-14

5,000 3,000 6,9078 0,61922*10""

6,000 3,000 6,9078 0,12328*10-8

7,000 3,000 6,9078 0,83940*10-7

8,000 3,000 6,9078 0,24604*10-5

9,000 3,000 6,9078 0,36592*10-4

10,000 3,000 6,9078 0,31191*10-3

11,000 3,000 6,9078 0,16741*10-2

12,000 3,000 6,9078 0,61112*10-2

13,000 3,000 6,9078 0,16261*10-1

14,000 3,000 6,9078 0,33683*10-1

15,000 3,000 6,9078 0,57721*10-1

16,000 3,000 6,9078 0,86152*10-1

Как видно из расчетов, при данных характеристиках максимально возможный поток посетителей страниц - 16 чел./мин.

Пусть Л0 = 10[чел./мин], Т^ = з\мин]. Исследуем поведение системы в диапазоне

изменения значений I = [1 ^ 49] с шагом 1. Расчет с помощью пакета «Дифар» дает результаты, приведенные в табл. 2. Как видно из расчетов, при заданной интенсивности посещений сайта при увеличении I значение максимального времени задержки на странице падает, а вероятность потерь (отказа в доступе) растет. Таблица 2.

ТЧо ТЧш0 Р

3,000 6,9078 0,31191*10-3

3,000 6,9400 0,19126*10-2

3,000 6,4373 0,42216*10-2

3,000 5,8723 0,65208*10-2

3,000 5,4189 0,85571*10-2

3,000 5,0844 0,10273*10-1

3,000 4,8378 0,11713*10-1

3,000 4,6493 0,12917*10-1

3,000 4,5068 0,13927*10-1

3,000 4,3936 0,14779*10-1

3,000 4,3017 0,15503*10-1

3,000 4,2259 0,16122*10-1

3,000 4,1623 0,16653*10-1

3,000 4,1083 0,17113*10-1

3,000 4,0618 0,17513*10-1

3,000 4,0215 0,17862*10-1

3,000 3,9861 0,18169*10-1

3,000 3,9549 0,18439*10-1

3,000 3,9271 0,18678*10-1

3,000 3,9022 0,18890*10-1

3,000 3,8797 0,19080*10-1

3,000 3,8594 0,19249*10-1

3,000 3,8410 0,19400*10-1

3,000 3,8241 0,19536*10-!

3,000 3,8087 0,19658*10-1

3,000 3,7945 0,19768*10-1

3,000 3,7813 0,19868*10-1

3,000 3,7692 0,19957*10-1

3,000 3,7579 0,20039*10-1

3,000 3,7474 0,20114*10-1

3,000 3,7376 0,20181*10-1

3,000 3,7284 0,20243*10-1

3,000 3,7198 0,20299*10-1

3,000 3,7117 0,20350*10-1

3,000 3,7041 0,20396*10-1

3,000 3,6970 0,20440*10-1

3,000 3,6902 0,20479*10-1

3,000 3,6838 0,20514*10-1

3,000 3,6777 0,20546*10-1

3,000 3,6720 0,20577*10-1

3,000 3,6665 0,20605*10-1

3,000 3,6613 0,20630*10-1

3,000 3,6564 0,20653*10-1

3,000 3,6516 0,20673*10-1

3,000 3,6471 0,20693*10-1

3,000 3,6428 0,20711*10-1

3,000 3,6387 0,20727*10-1

3,000 3,6348 0,20742*10-1

3,000 3,6310 0,20754*10-1

жмально возможное значение А0 = 10[чел./ мин] и Тд1 = 3[мин ]. Исследуем

поведение системы в диапазоне изменения значений 1=[1/49][посетителей] с шагом 1,

коррелируя при этом значение . Расчет с помощью пакета «Дифар» дает результаты, приведенные в табл. 3:

Таблица 3.

1 ТЯо Р

1 0,20401 8 3,000 6,9078 0,34373

2 0,40816 3,000 6,9078 0,20782

3 0,61224 3,000 6,9078 0,14717

4 0,81633 3,000 6,9078 0,11233

5 1,0204 3,000 6,9078 0,89488*10-1

6 1,2245 3,000 6,9078 0,73019*10-1

7 1,4286 3,000 6,9078 0,60676*10-1

8 1,6827 3,000 6,9078 0,51936*10-1

9 1,8367 3,000 6,9078 0,43315*10-1

10 2,0405 3,000 6,9078 0,37018*10-1

11 2,2449 3,000 6,9078 0,31810*10-1

12 2,4490 3,000 6,9078 0,27457*10-1

13 2,6531 3,000 6,9078 0,23789*10-1

14 2,8571 3,000 6,9078 0,20676*10-1

15 3,0612 3,000 6,9078 0,18019*10-1

16 3,2653 3,000 6,9078 0,15471*10-1

17 3,4694 3,000 6,9078 0,13779*10-1

18 6,6735 3,000 6,9078 0,12084*10-1

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

19 3,8776 3,000 6,9078 0,10615*10-1

20 4,0816 3,000 6,9078 0,93381*10-2

21 4,2857 3,000 6,9078 0,82258*10-2

22 4,4898 3,000 6,9078 0,72547*10-2

23 4,6939 3,000 6,9078 0,64053*10-2

24 4,8980 3,000 6,9078 0,56610*10-2

25 5,1020 3,000 6,9078 0,50078*10-2

26 5,3061 3,000 6,9078 0,44337*10-2

27 5,5102 3,000 6,9078 0,39285*10-2

28 5,7143 3,000 6,9078 0,34833*10-2

29 5,9184 3,000 6,9078 0,30907*10-2

30 6,1224 3,000 6,9078 0,27440*10-2

31 6,3265 3,000 6,9078 0,24377*10-2

32 6,5308 3,000 6,9078 0,21667*10-2

33 6,7347 3,000 6,9078 0,19288*10-2

34 6,9388 3,000 6,9078 0,17143*10-2

35 7,1429 3,000 6,9078 0,15259*10-2

36 7,3469 3,000 6,9078 0,13588*10-2

37 7,5510 3,000 6,9078 0,12015*10-2

38 7,7551 3,000 6,9078 0,10788*10-2

39 7,9392 3,000 6,9078 0,96175*10-3

40 8,1633 3,000 6,9078 0,85769*10-3

41 8,3673 3,000 6,9078 0,76513*10-3

42 8,5714 3,000 6,9078 0,68277*10-3

43 8,7755 3,000 6,9078 0,60946*10-3

44 8,9796 3,000 6,9078 0,54416*10-3

45 9,1837 3,000 6,9078 0,48599*10-3

46 9,3578 3,000 6,9078 0,43415*10-3

47 9,5918 3,000 6,9078 0,38793*10-3

48 9,7959 3,000 6,9078 0,34671*10-3

49 10,000 3,000 6,9078 0,31191*10-3

Как видно из расчетов, значение Tqm^ не зависит от числа одновременных посетителей

и входного потока. Используя полученные значения вероятности отказа в обслуживании, можно принять эффективное управленческое решение о закупке оборудования (обеспечивающего необходимое число одновременных посетителей сайта с заданным уровнем качества).

Сайты из нескольких страниц моделируются уже с помощью аппарата сетей массового обслуживания.

Таким образом, предложенные математические модели дают оценку эффективности создаваемого сайта и позволяют принимать необходимые управленческие решения. В дальнейшем возможно сравнение полученных результатов с реальными результатами измерений по метрикам. Это, в свою очередь, позволит уточнить параметры модели для оценки будущего развития сайта и улучшить адекватность модели.

Литература

1. Фонталин Е. Оценка эффективности корпоративного сайта, 2014. // http://www.cossa.ru/155/60369/ (дата обращения апрель 2016).

2. https://metrika.yandex.ru/ (дата обращения апрель 2016).

3. https://www.google.com/analytics/ (дата обращения апрель 2016).

4. Ерохин А.Г. Математические модели массового обслуживания функционирования

информационных систем. - М.: Медиа Паблишер, 2008. - 92 с.

5. Воронцов Ю.А., Гинцберг Г.С. Диффузионная аппроксимация сетевых диалоговых систем. // Вопросы кибернетики: Протоколы и методы коммутации в вычислительных системах. -М.: НСК АН СССР по комплексной проблеме «Кибернетика», 1986. - С. 44-65.

6. Воронцов Ю.А., Гатилов Д.А., Ерохин А.Г. Математические модели и методы расчётов задержки, надежности и экономической эффективности корпоративных сетей // Наукоемкие технологии, 2003. - № 3. - С. 64-73.

7. Воронцов Ю.А., Ерохин А.Г. Аналитическое моделирование систем и сетей массового

обслуживания методами диффузионной аппроксимации - DIFAR FOR WINDOWS-95 // Св. об официальной регистрации программы для ЭВМ № 990448 от 29 июня 1999 г.

8. Горбунков А.Л. Марковские модели посещаемости web-сайтов, 2007. //

http://hdl.handle.net/10995/1334 (дата обращения апрель 2016).

9. Воронцов Ю.А. Диффузионная аппроксимация многолинейной СМО неограниченной емкости 0/0/1. // Тез. докл. XI Всесоюзной Школы-семинара по вычислительным сетям, ч. 3. - М.: Научный совет по комплексной проблеме «Кибернетика» АН СССР, 1986. - С. 6873.

i Надоели баннеры? Вы всегда можете отключить рекламу.