3. Вайншток С.М., Молчанов А.Г., Некрасов В.И., Чернобровкин В.И. Подземный ремонт и бурение с применением гибких труб. М: Издательство Академии горных наук, 1999. 224 с.
4. Грахам Р.А., Горизонтальное бурение с применением непрерывных труб при отрицательном перепаде давления в системе скважина-пласт. Canadian Francmaster Ltd., 1995.
© Рахматуллин Д.В., Шарипов Ф.М., 2020
УДК 004.8; 004.62
Сикулер Д.В.
к.т.н., доцент РГПУ им. А.И. Герцена г. Санкт-Петербург, РФ E-mail: [email protected]
ПОИСК ДАННЫХ ДЛЯ АПРОБАЦИИ ИНТЕЛЛЕКТУАЛЬНЫХ АЛГОРИТМОВ И ТЕХНОЛОГИЙ
Аннотация
Приведен краткий обзор нескольких ресурсов сети Интернет, на которых можно найти наборы данных с целью использования их для проверки и настройки разрабатываемых интеллектуальных алгоритмов и методов машинного обучения. Рассмотрены особенности ресурсов в аспекте количественной и качественной характеристики доступных наборов данных.
Ключевые слова:
Поиск данных, набор данных, репозиторий данных, искусственный интеллект, машинное обучение.
С каждым днем всё большее распространение и развитие получают различные системы и приложения, в той или иной степени использующие достижения и средства искусственного интеллекта и машинного обучения. Разработка и апробация моделей, методов, технологий и инструментов, связанных с соответствующими областями науки, требует оперирования разнообразными, подчас большими наборами данных, представляющих реальные объекты, ситуации и результаты наблюдений, и относящихся к целевым проблемным областям и задачам. Далеко не всегда нужные данные доступны и готовы для использования или могут быть легко получены в процессе работы. В связи с этим особую актуальность приобретает задача поиска подходящих наборов данных в открытых источниках. В данной статье кратко рассмотрены несколько ресурсов сети Интернет, предоставляющих доступ к различным данным, которые могут применяться для настройки и тестирования тех или иных методов и средств искусственного интеллекта и машинного обучения.
Open Machine Learning
https: //www.openml .org/search?type=data
Сайт проекта OpenML (рис. 1) содержит несколько тысяч наборов данных из различных областей, включая медицину, биологию, экономику, транспорт, информационные технологии и др.
Преимущественно наборы данных предназначены для построения и тестирования моделей и алгоритмов для задач классификации, кластеризации и регрессии. Данные доступны для скачивания и использования в форматах ARFF, CSV и JSON. Для каждого набора приведено описание и статистическая информация (количество строк, атрибутов/столбцов, классов и т.п.). На сайте также доступен программный инструментарий (API) для различных языков (Python, R, Java и др.), позволяющий взаимодействовать с ресурсом OpenML.org, в том числе для скачивания и обработки данных. Кроме того, имеются интеграции с популярными инструментами анализа данных, такими как scikit-learn, mlr и Weka.
htfps://www.openml,org/search?type=data&q= |
Рисунок 1 - Раздел со списком наборов данных на ресурсе OpenML.org
UCI Machine Learning Repository
https: //archive.ics.uci.edu/ml/
Один из наиболее известных репозиториев, содержащий несколько сотен наборов данных предназначенных для настройки, «тренировки» и анализа моделей и алгоритмов машинного обучения.
Рисунок 2 - Таблица наборов данных, доступных на ресурсе UCI
50
Сайт (рис. 2) периодически пополняется, на нем содержатся данные, полученные и/или подготовленные в разные периоды времени, начиная с середины 20 века и до последних лет.
Представлены наборы, относящиеся к различным областям деятельности (медицина, социология, экономика и финансы, естественные и технические науки и др.), с разным количеством атрибутов (от нескольких штук до нескольких сотен) и строк (от нескольких десятков до десятков тысяч объектов), а также отличающиеся по типам целевых задач (классификация, кластеризация, регрессия и др.). Данные доступны в формате CSV. Для каждого набора приведено описание (разной степени детализации), указаны предметная область и целевая задача, количество строк/объектов, сведения об атрибутах (количество, типы, описание, наличие пропущенных значений), дата добавления в репозиторий, вспомогательные ссылки на источники и дополнительная информация.
DATAHUB
https://datahub.io/collections
Ресурс содержит коллекции данных, сгруппированные по различным тематическим категориям, например климат, демография, экономика и др. (рис. 3). По большей части представлены справочно-статистические данные (коды стран и аэропортов, справочники городов и распределения IP-адресов по странам, статистика о выбросах углекислого газа за прошедшие годы и т.п.) и различные социальные и экономические показатели в свете их изменения во времени (инфляция в регионах мира, затраты на потребление лекарств в странах в разные годы, индекс восприятия коррупции и т.п.). Данные доступны в форматах CSV и JSON и снабжены вспомогательной информацией, включающей: описание и замечания по применению, сведения о полях (наименование, тип, описание), источник, лицензия, примеры использования с различными инструментами и др. Помимо непосредственно наборов данных на сайте доступна специальная утилита командой строки для работы с ними, которая позволяет, в частности, скачивать доступные данные или публиковать новые коллекции данных.
Рисунок 3 - Страница с категориями наборов данных ресурса DataHub
-( > )-
Stanford Network Analysis Project (SNAP)
http: //snap. stanford.edu/data/
http: //snap.stanford.edu/biodata/index.html
На сайте проекта анализа сетевых моделей Стэнфордского университета доступно много графовых/сетевых структур данных различной тематики (рис. 4), например данные из социальных сетей, коммуникационных сервисов и web-ресурсов, а также данные, связанные с биомедициной (взаимосвязи болезней с генами и лекарствами, побочные эффекты, вызываемые лекарствами и т.п.). Имеются наборы данных, представляющие разные типы графов: ориентированные, неориентированные и с различными отметками и атрибутами. В большинстве случаев доступные графовые структуры содержат несколько десятков тысяч вершин и ребер, но встречается немало и таких, которые включают данные о миллионах вершин и/или ребер. Помимо этого на сайте представлены инструменты для языков программирования C++ и Python для обработки и анализа больших графовых структур данных.
? Не защищено snap stanford.edu/data/
а в с?
By Jure Leskovec
• •
SNAP. •
SNAP lor C++ SNAP for Python SNAP Datasets BIOSNAP Datasets What's new People Papers Projects Citing SNAP Links About Contact us
Open positions
Open research positions in SNAP group are available at undergraduate, graduate and postdoctoral levels.
STANFORD
UNIVERSITY
Stanford Large Network Dataset Collection
Social networks ; online social networks, edges represent interactions between people Networks with ground-truth communities : ground-truth network communities in social and information networks Communication networks : email communication networks with edges representing communication Citation networks : nodes represent papers, edges represent citations
Collaboration networks ; nodes represent scientists, edges represent collaborations (co-authoring a paper) Web graphs : nodes represent webpages and edges are hyperlinks
Amazon networks : nodes represent products and edges link commonly co-purchased products Internet networks : nodes represent computers and edges communication Road networks : nodes represent intersections and edges roads connecting the Intersections Autonomous systems : graphs of the Internet
Signed networks : networks with positive and negative edges (friend/foe. trust'distrust) Location-based online social networks : Social networks with geographic check-Ins Wikipedia networks, articles, and metadata : Talk, editing voting, and article data from Wiklpedia Temporal networks : networks where edges have timestamps Twitter and Memetracker: Memetracker phrases, links and 467 million Tweets Online communities: Data from online communities such as Reddit and Flickr Online reviews : Data from online review systems such as BeeiAdvocate and Amazon Face-to-face communication networks : nodes are people and edges are face-to-face (non-online) interactions SNAP networks are also available from SuiteSparse Matrix Collection by Tim Davis.
„* Social networks
Name Type Nodes Edges Description
ego-Facebook Undirected 4,039 88,234 Social circles from Facebook (anonymized)
ego-Gplus Directed 107.614 15,673.453 Social circles from Google+
ego-Twitter soc-Epinions1 Directed Directed 81,306 75,879 1,768,149 508,837 Social circles from Twitter Who-trusts-whom network of Epinions.com
soc-LiveJournal1 Directed 4.347,571 68,993,773 LiveJournal online social network
soc-Pokec Directed 1,632,803 30,622,564 Pokec online social network
soc- Slashdot0811 Directed 77.360 905,468 Slashdot social network from November 2008
soc- Slashdot0922 Directed 82.168 948,464 Slashdot social network from February 2009
wiki-Vote Directed 7,115 103,689 Wikipedia who-votes-on-whom network
WiL-inaHia Dsnnulc far AHminchin
Рисунок 4 - Страница коллекции данных ресурса SNAP
GroupLens
https://grouplens.org/datasets/
На сайте исследовательской лаборатории GroupLens из университета Миннесоты доступно несколько наборов данных. Наибольший интерес, вероятно, представляет набор MovieLens (рис. 5), содержащий миллионы пользовательских рейтингов и меток для тысяч фильмов, собранных с одноименного сайта (https://movielens.org). Данные организованы в несколько файлов формата CSV. На момент обращения (февраль 2020 года) на ресурсе были доступны данные по состоянию на декабрь 2019 года. Кроме основного набора с миллионными выборками на странице представлены наборы с меньшим количеством данных, полученные в более ранние моменты времени.
-
Рисунок 5 - Страница набора данных MovieLens
Полигон
http: //poligon.machinelearning .ru/DataSet/List.aspx
Рисунок 6 - Раздел «Задачи» системы «Полигон»
№ 4 /2020 -1
На сайте системы «Полигон алгоритмов классификации» в разделе «Задачи» (рис. 6) представлено несколько десятков наборов данных по нескольким тематикам (медицина, экономика, технологии и др.). В основном данные взяты из репозитория UCI, который был рассмотрен ранее. Для каждого набора приведено краткое описание на русском языке, количество объектов в выборке, число признаков и классов. Данные доступны в формате CSV и в формате программы Weka. Недостатком ресурса является то, что он давно не обновляется. Тем не менее, благодаря наличию информации на русском языке, он может представлять интерес в качестве источника для поиска наборов данных для тестирования алгоритмов и программ. Penn Machine Learning Benchmarks (PMLB) https://github.com/EpistasisLab/penn-ml-benchmarks
На данном ресурсе доступно более 200 наборов данных из различных предметных областей, предназначенных, в первую очередь, для оценки и сравнения алгоритмов машинного обучения. Наборы разделены на две категории: для задач классификации (рис. 7) и задач регрессии. Имеются наборы как с небольшим количеством классов, признаков и объектов, так и со значительным числом классов (более 20), атрибутов (более 100) и строк (более миллиона). Данные представлены в формате TSV. Помимо них на сайте доступен специализированный инструментарий для языка программирования Python, упрощающий загрузку опубликованных наборов и создание программ для обработки данных и сравнения алгоритмов.
ÉÉ Gr:Hub Inc. [Uj] github.com/EpistasisLab/penn-ml-benchmarks/tree/masTer/daTasets/classificatîon
© о с?
Branch: master ▼ репп-ml-benchmarks / datasets / classification /
^ ramhiser fixed ordering of class counts in classification metadata
I GAMETES_Epistasis_2-Way_10Q0atts_Q,4H... I GAMETES Jpistasis_2-Way_20atts_0.1H_E... I GAMETES Epistasis 2-Way 20atts 0.4H E... I G AM ETE S.Epista sis_3 - Way_20a tts_0.2 H_E,.. I GAMETES_Heterogeneity_20atts_160G_He... I GAMETES_Heterogeneity_20atts_1600_he... I Hill_Valley_uiith_noise I Hill_Valley_vvithout_reise I adult
I agaricus-lepiota I all bp I all hyper I allhypo I allrep
I analcatdata_aids I analcatdata_asbestos I analcatdata_authorship I analcatdata_bankruptcy I arialcatdata_boxingl I analcatdata_boxing2 I analcatdata_creditscore
change csv to tsv and replace c change csv to tsv and replace change csv to tsv and replace change csv to tsv and replace c change csv to tsv and replace c change csv to tsv and replace c change csv to tsv and replace c change csv to tsv and replace c change csv to tsv and replace change csv to tsv and replace change csv to tsv and replace c change csv to tsv and replace c change csv to tsv and replace change csv to tsv and replace change csv to tsv and replace c change csv to tsv and replace c change csv to tsv and replace change csv to tsv and replace c change csv to tsv and replace c change csv to tsv and replace change csv to tsv and replace
ass by target by target by target ass by target ass by target by target ass by target ass by target by target by target ass by target ass by target by target by target ass by target ass by target by target ass by target ass by target by target by target
Latest commit ff66d4i on 5 Jan 2018
2 years ago 2 years ago 2 years ago 2 years ago 2 years ago 2 years ago 2 years ago 2 years ago 2 years ago 2 years ago 2 years ago 2 years ago 2 years ago 2 years ago 2 years ago 2 years ago 2 years ago 2 years ago 2 years ago 2 years ago 2 years ago
Рисунок 7 - Страница ресурса PMLB со списком наборов данных для задач классификации
Все представленные в статье ресурсы предоставляют открытый доступ к опубликованным наборам данных, т.е. для их получения не требуется регистрация или ввод какой-либо персональной информации. На указанных сайтах можно найти наборы данных, относящиеся к совершенно разным предметным областям и прикладным задачам, имеющие разнообразную тематику, направленность и особенности, характеризующиеся всевозможным количеством объектов, атрибутов, классов и т.п. Тем не менее, в статье приведен далеко не исчерпывающий список ресурсов для поиска, а лишь очень малая их часть. Достаточно обширный набор сайтов с открытыми наборами данных можно найти, например, на регулярно обновляемой странице «Awesome Public Datasets» (https://github.com/awesomedata/awesome-public-datasets), где наборы сгруппированы по областям науки и деятельности.
© Сикулер Д.В., 2020
-1 54 )-