Научная статья на тему 'Анализ метрик, используемых в процессе анализа поведения пользователей подсистемой сбора и первичной обработки данных системы защиты контента интернет-ресурсов от автоматизированного сбора данных'

Анализ метрик, используемых в процессе анализа поведения пользователей подсистемой сбора и первичной обработки данных системы защиты контента интернет-ресурсов от автоматизированного сбора данных Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
172
36
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
АНАЛИЗ / ЗАЩИТА КОНТЕНТА ИНТЕРНЕТ-РЕСУРСА / ПОЛЬЗОВАТЕЛЬ / МЕТРИКИ ПОЛЬЗОВАТЕЛЯ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Тупикин Андрей Викторович

В статье анализируются метрики пользователей интернет-ресурсов, используемые в подсистеме сбора и первичной обработки данных системы защиты контента интернет-ресурсов от автоматизированного сбора данных на основе анализа поведения пользователей защищаемого ресурса.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Тупикин Андрей Викторович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Анализ метрик, используемых в процессе анализа поведения пользователей подсистемой сбора и первичной обработки данных системы защиты контента интернет-ресурсов от автоматизированного сбора данных»

АНАЛИЗ МЕТРИК, ИСПОЛЬЗУЕМЫХ В ПРОЦЕССЕ АНАЛИЗА ПОВЕДЕНИЯ ПОЛЬЗОВАТЕЛЕЙ ПОДСИСТЕМОЙ СБОРА И ПЕРВИЧНОЙ ОБРАБОТКИ ДАННЫХ СИСТЕМЫ ЗАЩИТЫ КОНТЕНТА

ИНТЕРНЕТ-РЕСУРСОВ ОТ АВТОМАТИЗИРОВАННОГО СБОРА ДАННЫХ

Тупикин А.В.

Тупикин Андрей Викторович - магистрант, направление: программная инженерия, кафедра программной инженерии, Институт приборостроения, автоматизации, информационных технологий Орловский государственный университет им. И.С. Тургенева, г. Орёл

Аннотация: в статье анализируются метрики пользователей интернет-ресурсов, используемые в подсистеме сбора и первичной обработки данных системы защиты контента интернет-ресурсов от

автоматизированного сбора данных на основе анализа поведения пользователей защищаемого ресурса. Ключевые слова: анализ, защита контента интернет-ресурса, пользователь, метрики пользователя.

Метрики - это неформатированные данные об использовании ресурсов или поведении, которые можно отслеживать и собирать в системах. Это могут быть отчеты об использовании, предоставляемые операционной системой, или данные более высокого уровня, привязанные к конкретным функциям или компонентам (например, количество запросов в секунду, членство в пуле веб-серверов и тому подобное). Некоторые метрики представлены в отношении к общей мощности, а другие представлены рейтингами загруженности компонента.

Существует набор метрик, используемый для анализа поведения пользователей сайта. К таковым относятся: - идентификатор пользователя;

38

- источники посещаемости;

- поисковые запросы;

- целевые страницы;

- параметры устройств;

- показатель отказов;

- точки выхода;

- время на сайте;

- глубина просмотра;

- нажатия и клики;

- переходы;

- скроллирование;

- «возвращаемость»;

- переходы по «ловушкам».

Рассмотрим подробнее каждую из перечисленных метрик. Идентификатор пользователя является производной метрикой от нескольких других параметров, таких как IP-адрес, User-agent, cookies социальных сетей (при наличии), уникального идентификатора посетителя (при его наличии; выдается при первом посещении сайта). Идентификатор пользователя позволяет определить региональное расположение клиента (страна, область, город), используемое для входа устройство (мобильный браузер, стационарный браузер, их название и версия, используемых движок), также возможно получение информации об имени, возрасте, поле посетителя на основе данных из социальных сетей (в последнее время не является законным скрытый сбор подобной информации, необходимо получение согласия пользователя).

К источникам посещаемости относится информация о том, с какого ресурса был произведен переход (при его наличии). При отсутствии источника перехода можно сделать вывод о том, что переход на сайт был выполнен по прямой ссылке.

Поисковые запросы позволяют понять, является ли структура сайта понятной и логичной (вывод производится вкупе с анализом иных метрик, таких как карта переходов, карта кликов и другое), а также дает возможность отличить настоящего пользователя от бота по типу вводимых запросов.

39

Целевые страницы дают понятие о том, какими путями пользователи попадают на ту или иную интересующую страницу. Слишком странные пути могут подсказать, является ли пользователь ботом.

Параметры устройств предоставляют информацию об устройстве, с которого выполняется просмотр сайта. Собирается информация об операционной системе, процессоре, оперативной памяти, разрешении экрана, наличии сенсорного ввода.

Показатель отказов отражает статистику о том, как часто пользователи просматривают информацию в полном объеме.

Точки выхода указывают на то, с каких страниц чаще всего выполняется переход на сторонние ресурсы либо закрывается вкладка (браузер).

Метрика «время на сайте» показывает, как долго пользователь находился на каждой странице или сайте в целом. Слишком малое значение данного показателя в совокупности с большим количеством переходов и запросов может говорить о том, что пользователь является ботом.

Глубина просмотра отражает как много страниц просмотрел пользователь, начиная с точки входа.

Нажатия и клики имеют несколько критериев оценки, таких как количество кликов в единицу времени, элементы, по которым осуществляются нажатия, позиция клика на элементе (если клики всегда в одном месте элемента, то высока вероятность того, что их осуществляет бот), периодичность кликов (одинаковые интервалы между кликами говорят о том, что они осуществляются ботами).

Метрика «переходы» показывает, по каким ссылкам и адресам выполняются переходы. Если часто выполняются переходы по адресам, которые не доступны с текущей страницы, велика вероятность, что они осуществляются ботами. Отдельно стоит упомянуть переходы по ссылкам-ловушкам (англ. Honeypot - «горшочек с мёдом») - данные ссылки никаким образом не видны для обычных пользователей, но отлично отслеживаются парсерами и ботами. После попадания на страницу ловушки, можно со

100% вероятностью блокировать пользователя по подозрению в автоматическом парсинге данных сайта.

Скроллирование также включает в себя несколько параметров, таких как время прокрутки страницы, длинна прокрутки, частота прокрутки. Частые быстрые или хаотические прокручивания контента могут говорить об использовании автоматизированных систем сбора данных с сайта.

Возвращаемость показывает, какое количество посетителей возвращается на сайт в течение определенного промежутка времени.

Для выполнения поставленной задачи по защите контента интернет-ресурсов от автоматизированного сбора данных необходимо использовать набор из всех вышеперечисленных метрик по следующим причинам:

- метрики «идентификатор пользователя» и «параметры устройства» используются для идентификации пользователя защищаемого ресурса, поскольку идентификация пользователя только параметрам его устройства является недостаточно точной в силу того, что пользователь может просто сменить устройство и продолжить пользоваться ресурсом как новый посетитель;

- оставшиеся метрики используются в процессе анализа поведения пользователя ресурса. Они позволяют наиболее точно и полно определить поведенческий отпечаток посетителя, в результате изучения которого можно определить нехарактерные для человека паттерны.

Список литературы

1. Какие метрики использовать для анализа поведения пользователей на сайте - SeoNews. [Электронный ресурс]. Режим доступа: https://www.seonews.ru (дата обращения: 30.04.2019).

2. Яндекс Метрика. [Электронный ресурс]. Режим доступа: https://metrika.yandex.ru (дата обращения: 30.04.2019).

3. Управление доступом на основе поведенческих характеристик. [Электронный ресурс]. Режим доступа: https://habr.com/post/193640/ (дата обращения: 05.05.2019).

4. Google Analytics. [Электронный ресурс]. Режим доступа: https://www.google.ru/analytics/ (дата обращения: 22.04.2019).

i Надоели баннеры? Вы всегда можете отключить рекламу.