СБОР ДАННЫХ ДЛЯ РАЗРАБОТКИ НЕЙРОННОЙ СЕТИ
Халяфиев Р.А.
Халяфиев Равиль Айратович - студент, кафедра информационных систем, отделение информационных технологий и энергетических систем, Набережночелнинский филиал Казанский Федеральный Университет, г. Набережные Челны
Аннотация: в статье анализируется сбор данных для разработки нейронной сети. Рассматривается случай для получения данных в случае отсутствия прямого и доступного способа получения информации (API). Рассмотрено расширение Web Scraper, а также основные возможности этой программы. Рассмотрен пример сбора данных, а также интерфейс расширения. Рассмотрены преимущества и недостатки данного расширения. Сделан вывод о целесообразности использования Web Scraper при сборе данных для разработки нейронной сети. Ключевые слова: данные, сбор, разработка.
После анализа инвестирования в блокчейн проекты [1] основной проблемой является сбор (получение) и обработка исходных данных для разработки нейронной сети. Безусловно, в тех случаях, когда данные есть и их достаточно, то это экономит большое количество времени. Чаще всего это происходит за счет предоставление сайтом API для получения информации.
Рассмотрим случай, когда для получения данных нужно собрать нужную информацию с вебсайта. При этой задаче можно написать собственную программу, которая будет переходить по заданным страницам, получать нужные данные, сохранять их в базу данных. Задача получения данных из веб страниц конечно же широко встречается и успешно решается с помощью различных готовых программ, для которых достаточно указать данные, которые нужно собрать и по каким страницам нужно переходить. Одним из таких решений является расширение для браузера Chrome - Web Scraper [2]. Оно позволяет получать данные с вебсайтов. Используя это расширение, можно создать план сайта в виде графа (sitemap), как следует проходить веб-сайт и что нужно извлечь. Используя эти файлы sitemap, Web Scraper будет перемещаться по сайту соответствующим образом и извлекать все данные. Данные позже могут быть экспортированы как CSV файл для импорта в базу данных. Доступ к возможностям расширения осуществляется через открытие контекстного меню разработчика с помощью сочетания клавиш Ctrl+Shift+I. Далее нужно перейти в раздел Scraper, который является последним в этом меню. Создается sitemap с помощью кнопки Create new sitemap, где задается имя sitemap и начальный(шot) адрес сайта. Далее производится выбор нужных параметров для сбора данных и возможность просмотреть их. Есть возможность выбрать множество данных различных параметров. Далее проводится получение данные с помощью команды Scrape из меню Sitemap. При успешном сборе данным есть возможность просмотреть результаты. В итоге можно экспортировать данные в виде CSV файла или экспортировать/импортировать sitemap в виде json. План сайта в виде (sitemap) показан на рисунке 1.
Возможности Web Scraper:
1. Сбор данных с различных веб страниц
2. Собранных данных могут храниться в локальном хранилище или базе данных Couchdb
3. Сбор данных различных типов
4. Получение данных из динамических страниц (JavaScript+AJAX)
5. Просмотр собранных данных
6. Экспорт собранных данных в CSV файл
7. Импорт, экспорт sitemap
8. Поддерживается в браузере Chrome
Рис. 1. План сайта в виде графа (sitemap)
Таким образом, с помощью данного расширения можно получить нужный набор данных для использования в разработке нейронной сети. Основным преимуществом является легкость выбора данных и просмотр их, но недостатками являются получения сложных данных и сложность сбора большого объема данных. В итоге это расширение очень хорошо решает вопрос получения данных без вникания в сложные процессы получения информации.
2.
Список литературы
Халяфиев Р.А. Анализ инвестирования в блокчейн проекты // Наука, техника и образование, 2018. № 10 (51). С. 53-56.
Интернет-ресурс: Web Scraper. [Электронный ресурс]. Режим доступа: https://www.webscraper.io/ (дата обращения: 20.11.2018).