Научная статья на тему 'РАЗРАБОТКА СИСТЕМЫ МОНИТОРИНГА САЙТА ГОСУДАРСТВЕННЫХ ЗАКУПОК С ЦЕЛЬЮ НАХОЖДЕНИЯ ПОТЕНЦИАЛЬНЫХ ЗАКАЗОВ'

РАЗРАБОТКА СИСТЕМЫ МОНИТОРИНГА САЙТА ГОСУДАРСТВЕННЫХ ЗАКУПОК С ЦЕЛЬЮ НАХОЖДЕНИЯ ПОТЕНЦИАЛЬНЫХ ЗАКАЗОВ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
29
4
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
парсинг / парсер / система государственных закупок / parsing / parser / public procurement system

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Смирнов Н.С.

В данной работе рассмотрен автоматизированный метод поиска потенциальных клиентов на сайте государственных закупок Российской Федерации. Раскрыты особенности парсинга данных, которые позволяет автоматически собирать данные, в целях ускорения сбора информации и минимизации участия человека в этом процесса.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Смирнов Н.С.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

DEVELOPMENT OF MONITORING SYSTEM FOR PUBLIC PROCUREMENTWEBSITE IN ORDER TO FIND POTENTIAL ORDERS

In this paper, an automated method of searching for potential customers on the public procurement website of the Russian Federation is considered. The features of data parsing are disclosed, which allows you to automatically collect data in order to speed up information collection and minimize human participation in this process.

Текст научной работы на тему «РАЗРАБОТКА СИСТЕМЫ МОНИТОРИНГА САЙТА ГОСУДАРСТВЕННЫХ ЗАКУПОК С ЦЕЛЬЮ НАХОЖДЕНИЯ ПОТЕНЦИАЛЬНЫХ ЗАКАЗОВ»

УДК 004

Смирнов Н.С.

студент кафедры №316 «Системное моделирование и автоматизированное проектирование» Московский авиационный институт (национальный исследовательский институт) (г. Москва, Россия)

РАЗРАБОТКА СИСТЕМЫ МОНИТОРИНГА САЙТА ГОСУДАРСТВЕННЫХ ЗАКУПОК С ЦЕЛЬЮ НАХОЖДЕНИЯ ПОТЕНЦИАЛЬНЫХ ЗАКАЗОВ

Аннотация: в данной работе рассмотрен автоматизированный метод поиска потенциальных клиентов на сайте государственных закупок Российской Федерации. Раскрыты особенности парсинга данных, которые позволяет автоматически собирать данные, в целях ускорения сбора информации и минимизации участия человека в этом процесса.

Ключевые слова: парсинг, парсер, система государственных закупок.

В современном мире сбор данных о потенциальных клиентах является ключевой задачей для работы и развития любого бизнеса. Очевидно, что государство является самым крупным клиентом и ежегодно приобретает товары и услуги на десятки триллионов рублей. Преимущественно такие закупки проходят в форме аукциона на электронных торговых площадках, основная из которых - www.zakupki.gov.ru.

Данный сайт содержит в себе огромную базу контрактов, которые были или будут реализованы какими-либо сторонними компаниями. Там хранится информация о том, какая организация закупает какие товары и на каких условиях. Владея такими данными, компания может найти будущих покупателей, определить своих конкурентов, понять, по каким ценам продают

аналогичное оборудование, изучить характеристики оборудования, которое побеждает в конкурсах, чтобы в дальнейшем предлагать клиенту наиболее выгодные условия сделки. На данный момент существуют всего два варианта получения информации с данного ресурса: ручной сбор данных с сайта государственных закупок и использование сторонних веб-сервисов. Однако они имеют недостатки, такие как:

1. затраты огромного количества времени для выполнения этого процесса,

2. информация, получаемая такими способами, является недостаточной для дальнейшей работы.

Для устранения этих проблем в рамках данного исследования было решено разработать программное обеспечение, называемое парсер, который будет помогать собирать необходимые данные из системы государственных закупок, чтобы находить клиентов из огромного количества завершенных аукционов. При этом данные будут загружаться быстро, а участие человека в их поиске будет минимальным.

Глагол "to parse" имеет буквальное значение "разбирать". Парсинг (parsing) представляет собой метод, применяемый для анализа синтаксической структуры текста. Этот метод основан на анализе слов в соответствии с определенной базовой грамматикой, которая подчиняется выбранному языку. Понятие "парсить" подразумевает организацию и сбор информации, доступной на различных веб-ресурсах, с использованием специализированных программ, способных автоматизировать данный процесс.

Согласно закону "Об информации, информационных технологиях и о защите информации" и статье 29 Конституции Российской Федерации, парсинг информации является законным, при условии соблюдения требований законодательства. Это означает, что разрешено использовать информацию, находящуюся в открытом доступе и не защищенную авторскими правами, соблюдая законные методы сбора и без ущерба для функционирования сайтов в сети интернет и конкуренции.

Однако, запрещены определенные виды действий, включая взлом сайтов для доступа к личным кабинетам пользователей, использование OS-атак для создания излишней нагрузки на сайты в результате парсинга, а также копирование авторского контента, включая фотографии с авторскими правами или уникальные тексты с подлинностью, подтвержденной нотариусом.

На данный момент информацию сайта государственных закупок можно получить следующими способами.

Во-первых, Можно зайти на сайт в ручную, выставить необходимые фильтры и искать информацию самому, но данный способ является крайне не эффективный, так как человеку нужно просматривать каждую страниц на наличие необходимой информации из-за это возникает возможность возникновения ошибок, связанные с человеческим фактором, а также это занимает огромное количество времени

Во-вторых, существуют платные ресурсы, которые за определенную сумму предоставят эту информацию, но информация получаемая такими способами, может являться недостаточной для дальнейшей работы.

На основании этого было решено разработать алгоритм сбора информации с сайта государственных закупок.

Независимо от того на каком языке написан парсер, алгоритм остается примерно одним и тем же:

1. Выход в интернет, получение доступа к веб-ресурсу и его скачивание.

2. Чтение и обработка информации.

3. Представление извлеченных данных в удобном для пользователя виде.

В ходе анализа сайта было замечено, что на нем находится очень большое

количество информации. В связи с этим нужно было найти универсальное решение для всех страниц контрактов на этом сайте. Так как для получение необходимых данных нужно проходить по различным ссылкам, переключаясь между ними, было решено, что будет удобно считывать их с помощью CSS -селекторов. CSS-селекторы применяются для установки стилей HTML элементов на веб-странице. В данный момент существует огромный выбор CSS-

селекторов, которые позволяют точно использовать различные элементы для стилизации. При разработке алгоритма было выявлено, что все необходимые ссылки находятся на одних и тех же css селекторах, следовательно, нужно реализовать считывание с них ссылок, которые подходят под указанный формат и организовать переход на следующую. С помощью данного алгоритма можно написать парсер на любом языке программирования, который позволит собирать данные с сайта с минимальным участием человека, что в разы увеличит скорость сбора информации и уменьшит вероятность возникновения ошибок.

Исходя из этого можно сказать, что анализ данных, доступных на сайте государственных закупок, имеет большой потенциал для исследований в области экономики, бизнеса и государственного управления. Понимание динамики рынка через изучение контрактов и тендеров позволяет выявлять тенденции, прогнозировать развитие отраслей, а также определять стратегии конкурентов. Более тщательный анализ данных с этого ресурса может способствовать улучшению процессов государственных закупок, повышению прозрачности и эффективности деятельности организаций, участвующих в госзаказах. Несомненно, использование сайта государственных закупок как инструмента анализа предоставляет уникальные возможности для исследований и практического применения в различных сферах деятельности.

СПИСОК ЛИТЕРАТУРЫ:

1. Что такое парсинг? [Электронный ресурс]. - Режим доступа: https://blog.calltouch.ru/chto-takoe-parsing/ - (Дата обращения: 03.11.2023);

2. Dimitrios Kouzis-Loukas. Learning Scrapy. 2016 - 232 с;

3. Парсинг сайтов с точки зрения закона [Электронный ресурс]. - Режим доступа: https://habr.com/ru/post/340302/ - (Дата обращения: 21.11.2023)

Smirnov N.S.

Moscow Aviation Institute (Moscow, Russia)

DEVELOPMENT OF MONITORING SYSTEM FOR PUBLIC PROCUREMENT WEBSITE IN ORDER TO FIND POTENTIAL ORDERS

Abstract: in this paper, an automated method of searching for potential customers on the public procurement website of the Russian Federation is considered. The features of data parsing are disclosed, which allows you to automatically collect data in order to speed up information collection and minimize human participation in this process.

Keywords: parsing, parser, public procurement system.

i Надоели баннеры? Вы всегда можете отключить рекламу.