Научная статья на тему 'ПРОБЛЕМЫ АВТОМАТИЗИРОВАННОГО СБОРА ИНФОРМАЦИИ'

ПРОБЛЕМЫ АВТОМАТИЗИРОВАННОГО СБОРА ИНФОРМАЦИИ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
251
51
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СБОР ИНФОРМАЦИИ / ВЕБ-РЕСУРС / КРАУЛИНГ / ПАРСИНГ / АВТОМАТИЗИРОВАННЫЙ СБОР ИНФОРМАЦИИ / СКРЕПИНГ / ВЕБ-МАЙНИНГ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Эшонкулов Хаким Илхомович

В этой статье изучены проблемы автоматизированного сбора информации, произведён анализ предметной области, в результате которого выявлена актуальность противодействия автоматизированным угрозам, в частности актуальность разработки и применения методов обнаружения и противодействия автоматизированному сбору информации с веб-ресурсов, основные категории сбора информации в Веб. Проанализированы признаки сбора информации с веб-ресурса и существующие проблемы обнаружения веб-роботов в зависимости от их типов.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Эшонкулов Хаким Илхомович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

PROBLEMS OF AUTOMATED DATA COLLECTION

This article examines the problems of automated information collection, analyzes the subject area, as a result of which the relevance of countering automated threats is revealed, in particular, the relevance of developing and applying methods for detecting and countering automated information collection from web resources, the main categories of information collection in the Web. The features of collecting information from a web resource and the existing problems of detecting web robots, depending on their types, are analyzed.

Текст научной работы на тему «ПРОБЛЕМЫ АВТОМАТИЗИРОВАННОГО СБОРА ИНФОРМАЦИИ»

формулирует ответ). Студент должен совмещать исполнительные и контрольные действия одновременно.

Таким образом, широкое использование методов самостоятельной работы, побуждающих к мыслительной и практической деятельности, развивает столь важные интеллектуальные качества человека, обеспечивающие в дальнейшем его стремление к постоянному овладению знаниями и применению их на практике.

Список литературы /References

1. Эшонкулов Х.И. Интеллектуальная система управления образовательных процессов на основе компьютерных сетей // Universum: технические науки: электрон. научн. журн., 2021. 5(86).

2. Эшонкулов Х.И. Технологический подход к созданию электронных образовательных ресурсов // Universum: технические науки: электрон. научн. журн., 2021. 5(86).

3. Исмоилова Махсума Нарзикуловна, Имомова Шафоат Махмудовна. Интерполяция функции// ВЕСТНИК НАУКИ И ОБРАЗОВАНИЯ, 2020. № 3-3 (81). С. 5-8.

ПРОБЛЕМЫ АВТОМАТИЗИРОВАННОГО СБОРА ИНФОРМАЦИИ Эшонкулов Х.И. Email: Eshonkulov6114@scientifictext.ru

Эшонкулов Хаким Илхомович - преподаватель, кафедра информационных технологий, Бухарский государственный университет, г. Бухара, Республика Узбекистан

Аннотация: в этой статье изучены проблемы автоматизированного сбора информации, произведён анализ предметной области, в результате которого выявлена актуальность противодействия автоматизированным угрозам, в частности актуальность разработки и применения методов обнаружения и противодействия автоматизированному сбору информации с веб-ресурсов, основные категории сбора информации в Веб. Проанализированы признаки сбора информации с веб-ресурса и существующие проблемы обнаружения веб-роботов в зависимости от их типов.

Ключевые слова: сбор информации, веб-ресурс, краулинг, парсинг, автоматизированный сбор информации, скрепинг, веб-майнинг.

PROBLEMS OF AUTOMATED DATA COLLECTION Eshonkulov H.I.

Eshonkulov Hakim Ilkhomovich - Lecturer, DEPARTMENT OF INFORMATION TECHNOLOGIES, BUKHARA STATE UNIVERSITY, BUKHARA, REPUBLIC OF UZBEKISTAN

Abstract: this article examines the problems of automated information collection, analyzes the subject area, as a result of which the relevance of countering automated threats is revealed, in particular, the relevance of developing and applying methods for detecting and countering automated information collection from web resources, the main categories of

information collection in the Web. The features of collecting information from a web resource and the existing problems of detecting web robots, depending on their types, are analyzed.

Keywords: information collection, web resource, crowling, parsing, automated information collection, scraping, web mining.

УДК 004.04

Сегодня существует широкое множество способов организации сбора информации с веб-ресурсов. Не существует единого термина для определения данного процесса. В научной литературе принято использовать следующие термины: краулинг, парсинг, автоматизированный сбор информации, скрепинг и веб-майнинг.

Краулинг (веб-майнинг) - это процесс извлечения доступной информации из веб-ресурсов. Данный процесс заключается в автоматическом обнаружении ресурсов, документов и информации, а также применении различных методов анализа данных для обработки такой информации. Многие системы сбора информации зачастую используют скомпрометированные или автоматически-регистрируемые аккаунты и учетные записи для доступа к информации, закрытой от неавторизованного доступа. Открытая информация собирается автоматическими веб-роботами. Такой веб-робот посещает веб-ресурс и извлекает из него всю имеющуюся информацию и метаинформацию, а также при необходимости загружает статические и динамические ресурсы. Сбор информации может выполняться как в реальном времени, так и иметь периодический характер. Сбор информации также может выполняться не только с целью сбора самого контента веб-ресурса, но и для получения иных сведений о структуре и принципах его функционирования. Поэтому данный процесс приводит и используется для реализации практически всех разновидностей автоматизированных угроз. Данная информация затем передается подсистемам распознавания, которые записываются на формальном языке, принятом в системе. Правила распознавания могут быть сформированы как вручную программистом, так и автоматизированным образом на основе специальной обучающей выборки. Система применяет данный набор правил к каждому набору данных, поступающему от подсистемы сбора информации.

Системы сбора информации решают огромное количество задач для оптимизации процесса парсинга страниц и снижения издержек, связанных с организацией массового и постоянного сбора информации. Сюда входят: сбор данных, классификация, использование сторонних ресурсов для поиска, мониторинг, получение репрезентативных выборок, обход графа связей веб-страниц, масштабирование, распределение нагрузки и т. д.

Выделяют три основные категории сбора информации в Веб, рассмотрим их в контексте автоматизированного извлечения информации веброботом:

- извлечение содержания - применение методов извлечения знаний из текстовых, графических и иных материалов, размещаемых на веб-ресурсе;

- извлечение структуры - изучение информации о взаимосвязях страниц и документов веб-ресурса;

- анализ использования веб-ресурса - изучение данных о взаимодействии пользователей веб-ресурса с ним.

Веб-роботы отличаются по целям сбора информации, однако, для выполнения своей задачи, они составляют максимальную картину о функционировании веб-ресурса. Особенно это проявляется для массовых веб-роботов, которые действуют нецелевым образом и вынуждены применять одинаковые методы извлечения и обработки информации для разных веб-ресурсов, отличающихся структурой подачи информации и даже языком.

Информация, извлекаемая веб-роботами, имеет различный вид для разных средств. Так, существуют веб-роботы, которые собирают простой текст, извлекая его

из HTML разметки, другие роботы собирают все изображения с веб-ресурса. Продвинутые веб-роботы умеют извлекать неструктурированные данные из таблиц и даже изображений с применением технологий распознавания.

Стоит также отметить, что существуют и другие уязвимости, напрямую или опосредованно связанные с автоматизированным сбором информации с веб-ресурсов. Признаками сбора информации с веб-ресурса являются:

- Необычная активность на веб-ресурсе;

- Увеличение трафика и посещаемости;

- Проблемы с нагрузками и производительностью;

- Появление контента с веб-ресурса на других сайтах;

- Появление новых конкурентов и агрегаторов информации;

- Понижение сайта в поисковой выдаче и снижение доходов от рекламы.

Задача автоматизации работы с веб-ресурсами включает в себя широкое множество дисциплин, начиная от машинного обучения и заканчивая обработкой естественного языка. При создании профессиональных веб-роботов приходится учитывать большое количество различных факторов, что ограничивает создание универсальных систем. Различные решения могут оказаться приемлемыми и неприемлемыми для разных веб-ресурсов. Основные проблемы, которые стоят перед разработчиками таких систем, можно сгруппировать следующим образом:

- Для настройки системы автоматизации взаимодействия с каждым конкретным веб-ресурсом требуется участие человека в процедуре настройки и отладки системы. Особенно это касается ресурсов со сложной структурой и версткой контента. Существуют технологии адаптивного анализа страниц и извлечение слабоструктурированной информации, но они работают с ограничениями и требуют более значительных финансовых вложений на этапе реализации и отладки алгоритмов.

- Сложные веб-роботы должны уметь обрабатывать большие объемы данных за относительно короткое время. Особенно это касается сбора информации, которая часто обновляется, например, связанной с бизнесом или аналитикой, либо выполнения большого число взаимосвязанных действий. Поэтому необходимо учитывать данные факторы при разработке системы. Если веб-роботы работают слишком медленно и не могут собрать информацию достаточной степени актуальности, приходится увеличивать интенсивность их работы и масштабировать архитектуру, что приводит к дополнительным издержкам и повышению нагрузки на анализируемый веб-ресурс.

- Веб-ресурсы часто подвергаются изменениям структуры и формы подачи контента, поэтому требуется постоянно обновлять систему, подстраивая ее под изменения. При одновременной работе с несколькими ресурсами задача становится трудоемкой. К тому-же, на данном этапе часто требуется участие человека.

При разработке системы противодействия автоматизированным угрозам очень важно понимать какие сложности стоят перед разработчиками веб-роботов и использовать их в процессе защиты веб-ресурса. Зачастую защититься от действий веб-робота не представляется возможным, но увеличение издержек, которые несут владельцы систем, может заставить их отказаться от осуществления атак.

Список литературы /References

4. Эшонкулов Х.И. Интеллектуальная система управления образовательных процессов на основе компьютерных сетей // Universum: технические науки: электрон. научн. журн., 2021. 5(86).

5. Эшонкулов Х.И. Технологический подход к созданию электронных образовательных ресурсов // Universum: технические науки: электрон. научн. журн., 2021. 5(86).

6. Исмоилова Махсума Нарзикуловна, Имомова Шафоат Махмудовна. Интерполяция функции // ВЕСТНИК НАУКИ И ОБРАЗОВАНИЯ, 2020. № 3-3 (81). С. 5-8.

ИССЛЕДОВАНИЕ ПРИМЕНЕНИЯ ШАБЛОНА ПРОЕКТИРОВАНИЯ ВНЕДРЕНИЯ ЗАВИСИМОСТЕЙ ДЛЯ РАЗРАБОТКИ ПРИЛОЖЕНИЙ КОМАНДНОЙ СТРОКИ НА ЯЗЫКЕ ПРОГРАММИРОВАНИЯ PYTHON Могилатов Р.К. Email: Mogilatov6114 @scientifictext. ru

Могилатов Роман Константинович - технический руководитель, Python SoftServe Inc., г. Роли, Соединенные Штаты Америки

Аннотация: данная научная работа исследует особенности и результаты применения шаблона проектирования внедрения зависимостей для разработки приложений командной строки на языке программирования Python. Ключевые слова: внедрение зависимостей, шаблоны проектирования, Python, программирование, разработка программного обеспечения, командная строка.

RESEARCH OF APPLYING OF THE DEPENDENCY INJECTION DESIGN PATTERN TO DEVELOPMENT OF COMMAND LINE APPLICATIONS IN THE PYTHON PROGRAMMING LANGUAGE

Mogilatov R.K.

Mogilatov Roman Konstantinovich - Technical Leader, PYTHON SOFTSERVE INC., RALEIGH, UNITED STATES OF AMERICA

Abstract: this scientific work explores the features and results of applying the dependency injection design pattern for developing command line applications in the Python programming language.

Ключевые слова: dependency injection, design patterns, Python, programming, software development, command line.

УДК 004.053

Цель исследования

Целью данной исследовательской работы является исследование особенностей и результаты применения шаблона проектирования внедрения зависимостей для разработки приложений командной строки. Техническое задание

Для проведения исследования применения шаблона проектирования внедрения зависимостей в приложениях командной строки необходимо использовать прикладную задачу: создать демонстрационное приложение командной строки для поиска видеофильмов.

Функциональные требования исследуемого приложения:

• Приложение командной строки должно использовать базу данных, содержащую следующие поля: название, год выпуска и имя режиссера

• Приложение командной строки должно использовать базу данных, поставляемую в двух форматах: csv и sqlite

i Надоели баннеры? Вы всегда можете отключить рекламу.