Научная статья на тему 'Сбор данных для разработки нейронной сети'

Сбор данных для разработки нейронной сети Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
187
25
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ДАННЫЕ / СБОР / РАЗРАБОТКА

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Халяфиев Равиль Айратович

В статье анализируется сбор данных для разработки нейронной сети. Рассматривается случай для получения данных в случае отсутствия прямого и доступного способа получения информации (API). Рассмотрено расширение Web Scraper, а также основные возможности этой программы. Рассмотрен пример сбора данных, а также интерфейс расширения. Рассмотрены преимущества и недостатки данного расширения. Сделан вывод о целесообразности использования Web Scraper при сборе данных для разработки нейронной сети.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Сбор данных для разработки нейронной сети»

СБОР ДАННЫХ ДЛЯ РАЗРАБОТКИ НЕЙРОННОЙ СЕТИ

Халяфиев Р.А.

Халяфиев Равиль Айратович - студент, кафедра информационных систем, отделение информационных технологий и энергетических систем, Набережночелнинский филиал Казанский Федеральный Университет, г. Набережные Челны

Аннотация: в статье анализируется сбор данных для разработки нейронной сети. Рассматривается случай для получения данных в случае отсутствия прямого и доступного способа получения информации (API). Рассмотрено расширение Web Scraper, а также основные возможности этой программы. Рассмотрен пример сбора данных, а также интерфейс расширения. Рассмотрены преимущества и недостатки данного расширения. Сделан вывод о целесообразности использования Web Scraper при сборе данных для разработки нейронной сети. Ключевые слова: данные, сбор, разработка.

После анализа инвестирования в блокчейн проекты [1] основной проблемой является сбор (получение) и обработка исходных данных для разработки нейронной сети. Безусловно, в тех случаях, когда данные есть и их достаточно, то это экономит большое количество времени. Чаще всего это происходит за счет предоставление сайтом API для получения информации.

Рассмотрим случай, когда для получения данных нужно собрать нужную информацию с вебсайта. При этой задаче можно написать собственную программу, которая будет переходить по заданным страницам, получать нужные данные, сохранять их в базу данных. Задача получения данных из веб страниц конечно же широко встречается и успешно решается с помощью различных готовых программ, для которых достаточно указать данные, которые нужно собрать и по каким страницам нужно переходить. Одним из таких решений является расширение для браузера Chrome - Web Scraper [2]. Оно позволяет получать данные с вебсайтов. Используя это расширение, можно создать план сайта в виде графа (sitemap), как следует проходить веб-сайт и что нужно извлечь. Используя эти файлы sitemap, Web Scraper будет перемещаться по сайту соответствующим образом и извлекать все данные. Данные позже могут быть экспортированы как CSV файл для импорта в базу данных. Доступ к возможностям расширения осуществляется через открытие контекстного меню разработчика с помощью сочетания клавиш Ctrl+Shift+I. Далее нужно перейти в раздел Scraper, который является последним в этом меню. Создается sitemap с помощью кнопки Create new sitemap, где задается имя sitemap и начальный(шot) адрес сайта. Далее производится выбор нужных параметров для сбора данных и возможность просмотреть их. Есть возможность выбрать множество данных различных параметров. Далее проводится получение данные с помощью команды Scrape из меню Sitemap. При успешном сборе данным есть возможность просмотреть результаты. В итоге можно экспортировать данные в виде CSV файла или экспортировать/импортировать sitemap в виде json. План сайта в виде (sitemap) показан на рисунке 1.

Возможности Web Scraper:

1. Сбор данных с различных веб страниц

2. Собранных данных могут храниться в локальном хранилище или базе данных Couchdb

3. Сбор данных различных типов

4. Получение данных из динамических страниц (JavaScript+AJAX)

5. Просмотр собранных данных

6. Экспорт собранных данных в CSV файл

7. Импорт, экспорт sitemap

8. Поддерживается в браузере Chrome

Рис. 1. План сайта в виде графа (sitemap)

Таким образом, с помощью данного расширения можно получить нужный набор данных для использования в разработке нейронной сети. Основным преимуществом является легкость выбора данных и просмотр их, но недостатками являются получения сложных данных и сложность сбора большого объема данных. В итоге это расширение очень хорошо решает вопрос получения данных без вникания в сложные процессы получения информации.

2.

Список литературы

Халяфиев Р.А. Анализ инвестирования в блокчейн проекты // Наука, техника и образование, 2018. № 10 (51). С. 53-56.

Интернет-ресурс: Web Scraper. [Электронный ресурс]. Режим доступа: https://www.webscraper.io/ (дата обращения: 20.11.2018).

i Надоели баннеры? Вы всегда можете отключить рекламу.