Анализ методов первичной обработки данных подсистемы сбора и первичной обработки данных системы защиты контента интернет-ресурсов от автоматизированного сбора данных на основе анализа поведения пользователей ресурса

Тупикин Андрей Викторович

АНАЛИЗ МЕТОДОВ ПЕРВИЧНОЙ ОБРАБОТКИ ДАННЫХ ПОДСИСТЕМЫ СБОРА И ПЕРВИЧНОЙ ОБРАБОТКИ ДАННЫХ СИСТЕМЫ ЗАЩИТЫ КОНТЕНТА ИНТЕРНЕТ-РЕСУРСОВ ОТ АВТОМАТИЗИРОВАННОГО СБОРА ДАННЫХ НА ОСНОВЕ АНАЛИЗА ПОВЕДЕНИЯ ПОЛЬЗОВАТЕЛЕЙ РЕСУРСА Тупикин А.В.

Тупикин Андрей Викторович - магистрант, направление: программная инженерия, кафедра программной инженерии, Институт приборостроения, автоматизации, информационных технологий Орловский государственный университет им. И.С. Тургенева, г. Орёл

Аннотация: в статье анализируются методы первичной обработки данных пользователей интернет-ресурсов, применяемые в подсистеме сбора и первичной обработки данных системы защиты контента интернет-ресурсов от автоматизированного сбора данных на основе анализа поведения пользователей защищаемого ресурса. Ключевые слова: анализ, защита контента интернет-ресурса, пользователь, методы первичной обработки данных.

Первичная обработка нацелена на упорядочивание информации об объекте и предмете изучения, полученной на эмпирическом этапе исследования. На этой стадии необработанные сведения группируются в соответствие с установленными критериями. Это необходимо для обнаружения и устранения ошибок, произошедших при фиксации данных, и выявления и изъятия из общего массива данных, не имеющих отношения к изучаемым параметрам.

В процессе выполнения первичной обработки данных в рамках функционирования системы защиты контента интернет-ресурсов существует два направления работы с

данными: оптимизация набора собранных метрик пользователя и анализ собранных метрик с целью выявления аномалий поведения.

Начнем с оптимизации. Хотя целью оптимизации является получение оптимальной системы, истинно оптимальная система в процессе оптимизации достигается довольно редко. Оптимизированная система обычно является оптимальной только для одной задачи или группы пользователей: где-то может быть важнее уменьшение времени, требуемого для выполнения работы, даже ценой потребления большего объёма памяти; иногда наоборот, где важнее память, могут выбираться более медленные алгоритмы с меньшими запросами к памяти.

Более того, зачастую не существует универсального решения (хорошо работающего во всех случаях), поэтому инженеры используют компромиссные решения для оптимизации только ключевых параметров. К тому же, усилия, требуемые для достижения полностью оптимальной программы, которую невозможно дальше улучшить, практически всегда превышают выгоду, которая может быть от этого получена, поэтому, как правило, процесс оптимизации завершается до того, как достигается полная оптимальность, но в большинстве случаев даже при этом достигаются заметные улучшения.

В случае с системой защиты контента применима оптимизация, направленная на уменьшение объема предаваемых данных. Для этого проводят исключение дублирования и производных данных, которые могут быть получены из других метрик. Данное направление является наименее интересным в рамках данной работы.

Второе направление первичной обработки данных требует более детального изучения. Пользователь в целом свободен в выборе последовательности посещения Web-страниц, а также в выборе пути между отдельными Web-страницами последовательности. Единственными ограничениями, наложенными при посещении страниц, являются следующие:

- для пользователей, зарегистрированных на ресурсе и желающих просматривать информацию в полном объеме (при наличии таковых ограничений), необходимо войти в систему,

- для посетителей, не вошедших в систему, необходима возможность использования внутреннего локального хранилища для сохранения идентификатора пользователя.

Наилучшей моделью поведения для пользователя является модель, которую мы назовем моделью поведения абсолютно рационального пользователя. Такой пользователь выбирает сессию минимального объема, тем самым сводя к минимуму свои затраты на ее осуществление. Фактически абсолютно рациональный пользователь решает несколько видоизмененную задачу коммивояжера. Очевидно, что модель поведения абсолютно рационального пользователя является абстракцией и на практике не применима. Пользователь просто не может изначально знать объемы всех коммуникаций сети ресурса, а знание их необходимо для решения задачи о пути минимального объема через пункты сети. В некоторых случаях данное поведение вообще не реализуемо, так как бывает сложно предсказать, какая информация заинтересует пользователя.

На практике пользователями применяются другие модели поведения, которые можно отнести к классу моделей поведения умеренно рациональных пользователей. Одной из таких моделей является следующая.

Пользователь всякий раз, находясь на какой-либо Wеb-странице сети, выбирает путь минимальной длины (кратчайший путь) до ближайшей из еще не посещенных Web-страниц последовательности, после чего перемещается на выбранную Web-страницу. Процесс повторяется, пока не будут посещены все Web-страницы, интересующие пользователя.

В зависимости от типа защищаемого ресурса, можно выделить особенности поведения пользователя:

- в случае информационного ресурса - пользователь посещает заинтересовавшую его страницу, а также,

возможно посещение связанных с ней страниц, при этом переходы на последующие страницы возможны в любом порядке, но только лишь по ссылкам, размещенным на текущей странице (непосредственно, поисковой выдаче, меню навигации);

- в случае интернет-каталога поведение несколько отличается от описанного выше - добавляется жесткая последовательность посещения определенных страниц (например, оформление заказа товара в интернет-магазине).

В связи с описанными выше особенностями можно сделать вывод о том, что в зависимости от типа защищаемого ресурса существует необходимость адаптации модели поведения пользователя под конкретный ресурс.

Поведение пользователя неотделимо от того, как он взаимодействует с каждой страницей. Сложно представить, что пользователь будет переходить между страницами напрямую, используя прямые ссылки. С целью сделать взаимодействия приятным, комфортным и удобным используются интерактивные элементы. Но использование таких элементов несет и дополнительную полезную нагрузку - возможно отслеживать то, как пользователь использует их, собирать данные об использовании. То, как можно использовать полученные данные существует множество вариантов, но в рамках решаемой задачи рассматривается их применение с целью защиты контента ресурса по средствам определения, является ли пользователь человеком.

В связи с тем, что в системе защиты контента основная нагрузка по принятию решения о том, является ли пользователь ресурса человеком или автоматическим парсером возлагается на подсистему принятия решения, а количество метрик, используемых в процессе принятия решения создает дополнительную нагрузку на каналы связи и вычислительные ресурсы подсистемы, то оптимальным решением является предобработка собранных на стороне клиента с целью поиска аномалий поведения.

Под аномальным поведением понимаются, например, такие характерные паттерны, как:

- отсутствие движений мыши при взаимодействии с элементами или отсутствие событий сенсорного управления при использовании сенсорных дисплеев;

- слишком частые переходы по ссылкам совместно с очень коротким временем нахождения на странице;

- взаимодействие с элементами, находящимися в областях, не отображаемых в текущий момент времени;

- переходы по скрытым элементам-ловушкам;

- переходы по ссылкам, отсутствующим на текущей странице;

- однотипные клики по элементам.

При обнаружении подобного поведения подсистема первичной обработки метрик выдает предупреждение о нелегитимном пользователе.

Каждому виду нарушения присвоен весовой коэффициент, влияющий на результат оценки степени нарушений пользователя. Вес нарушения позволяет отделить серьезные нарушения (попадание в ловушку) от несерьезных (пару раз провели на странице короткое время, например, случайно открыли ссылку). Нельзя считать, что пользователь является автоматическим парсером на основании единичного попадания критерия в зону аномальных значений. Для этого установлено устанавливают пороговое значение, являющееся отношением количества проверок, результат которых вызвал подозрение, к количеству всех проверок, при этом общее число проверок должно быть репрезентативным для вывода заключения. В случае накопления пользователем веса нарушений, более установленного критического порога, выдается заключение о том, что пользователь с большой вероятностью является парсером и следует принять меры по защите контента.

Использование весовых коэффициентов позволяет сгладить резкие всплески показателей, исключая случайные события со стороны пользователя.

Список литературы

1. Какие метрики использовать для анализа поведения пользователей на сайте. SeoNews. [Электронный ресурс]. Режим доступа: https://www.seonews.ru (дата обращения: 30.04.2019).

2. Менщиков А.А., Гатчин Ю.А. Построение системы обнаружения автоматизированного сбора информации с веб-ресурсов // Инженерные кадры - будущее инновационной экономики России: Материалы Всероссийской студенческой конференции: в 8 ч., 2015. Т. 4. С. 58-61.

3. Сбор и обработка информации. Технология обработки информации. Методы обработки информации. [Электронный ресурс]. Режим доступа: https://www.syl.ru/article/206661/new_sbor-i-obrabotka-mformatsii-tehmlogiya-obrabotki-mformatsn-metodyi-obrabotki-mformatsii/ (дата обращения: 10.05.2019).

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Тупикин Андрей Викторович

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Тупикин Андрей Викторович