Научная статья на тему 'Эпистемологические вызовы эпохи Больших данных'

Эпистемологические вызовы эпохи Больших данных Текст научной статьи по специальности «СМИ (медиа) и массовые коммуникации»

CC BY
208
75
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
БОЛЬШИЕ ДАННЫЕ / BIG DATA / ЭПИСТЕМОЛОГИЯ / EPISTEMOLOGY / НОВЫЙ ЭМПИРИЗМ / NEW EMPIRICISM / НАУКА ДАННЫХ / НАУКА ЗНАНИЯ / КОНЕЦ ТЕОРИИ / END OF THEORY / DATA-DRIVEN SCIENCE / KNOWLEDGE-DRIVEN SCIENCE

Аннотация научной статьи по СМИ (медиа) и массовым коммуникациям, автор научной работы — Сивцов Святослав Эдуардович

В статье исследуются понятие Больших данных, его ключевые характеристики (концепция «трех V»), а также значимость для современного научного метода познания. Критически анализированы существующие на данный момент в литературе представления об адаптации научного метода к эпохе Больших данных, а именно «новый эмпиризм» и «наука данных». Кроме того, рассматриваются высказываемые в научном сообществе надежды и опасения относительно подобной адаптации: тесное взаимодействие социальных и физико-математических дисциплин, рост количества эмпирических исследований, исчезновение ряда методологических разногласий и др.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Epistemologic challenges of the era of big data

In this paper we provide an analysis of the Big Data concept, its key characteristics («three Vs») and its significance for the modern scientific method. We critically examine existing theories of the adaptation of the scientific method to the era of Big Data, such as «new empiricism» and «data-driven science». We also review known hopes and fears associated with such adaptation: close interaction of social, physical and mathematical sciences, increasing number of empirical research studies, disappearance of some of methodological differences etc.

Текст научной работы на тему «Эпистемологические вызовы эпохи Больших данных»

С.А. Сивцов

ЭПИСТЕМОЛОГИЧЕСКИЕ ВЫЗОВЫ ЭПОХИ БОЛЬШИХ ДАННЫХ

Нет ничего плохого в желании таргетировать рекламу или рекомендовать продукты, однако это нельзя назвать познанием [цит. по: Lohr, 2014].

Орен Этциони

Институт искусственного интеллекта им. Аллена

Что такое Большие данные?

Прогресс в технологиях, средствах сбора и анализа информации может приводить к пересмотру отдельных научных теорий и нашего понимания тех или иных процессов и явлений - это кажется вполне очевидным и не требует строгого доказательства. Гораздо важнее принимать во внимание то, что тот же технологический прогресс порой ставит перед нами вопросы эпистемологического характера и заставляет переосмысливать не частные вопросы, а сам научный метод познания. И хотя дискуссия о том, как мы должны подходить к пониманию мира, ведется в научном мире постоянно, причины для действительно критического сдвига в существующей парадигме появляются не каждый день. Однако один из таких сдвигов, возможно, происходит прямо у нас на глазах, и его виновником является технологический феномен, который называют Большими данными.

По сложившейся в литературе традиции авторство термина Большие данные зачастую приписывают редактору журнала «Nature» Клиффорду Линчу, поскольку именно в «Nature» в 2008 г. был опубликован выпуск с упомянутым термином в заголовке [Big data, 2008]. Есть, однако, немало других версий и претендентов [Lohr, 2014], поэтому указать точного автора, к сожалению, не представляется возможным. Так или иначе, именно в 2008 г. термин Большие данные начинает входить в повседневный обиход как в академической, так и в бизнес-среде.

461

Первоначально этот термин использовался фактически в буквальном смысле - для обозначения таких объемов данных, с которыми раннее не приходилось сталкиваться ученым и которые, в силу этого, бросают вызов как существующим аналитическим техникам, так и технологическому обеспечению. В частности, одно из наиболее простых (и наиболее распространенных за пределами академической среды) определений Больших данных гласит, что это такие массивы данных, которые невозможно хранить на одном персональном компьютере или анализировать с помощью традиционных техник [Strom, 2013]. Поэтому неудивительно, что впервые Большие данные (как явление и как термин) появляются в тех областях знания, где к началу XXI в. уже был достигнут огромный объем оцифрованных данных, полученных по результатам наблюдений и / или экспериментов: астрономия, метеорология, медицина etc.

Современную коннотацию в научной литературе Большие данные получают уже к концу 2000-х годов, когда под этим термином начинают понимать не просто необычно большие объемы информации, а разные типы данных, которые получены разным путем, имеют разную структуру и используются в многочисленных целях. Из такого понимания явления рождается концепция «трех V»: объем (volume), скорость (velocity) и многообразие (variety) [Gartner Says... 2011]. Эти три характеристики являются наиболее распространенными и общепринятыми в академической литературе, посвященной строгому определению Больших данных [Майер-Шенбергер, Кукьер, 2014, с. 14], поэтому остановимся на них немного подробнее.

Как уже было сказано, Большие данные действительно «большие» по своей природе, однако проблема здесь заключается в том, что когда мы говорим об объемах информации, понятие «большой» становится как никогда относительным в силу постоянного и довольно быстрого роста как суммарного объема накопленных и обрабатываемых данных в мире, так и мощностей вычислительной техники. Одним из подходов, как уже было замечено, может быть утверждение, что подобный объем данных не может быть сохранен на одном устройстве. На данный момент можно сказать, что, говоря о Больших данных, мы подразумеваем терабайты и петабайты информации.

Под скоростью в действительности подразумеваются сразу два аспекта Больших данных: скорость генерации и скорость обработки. Одно из ключевых отличий Больших данных от традиционной информации заключается в том, что первые зачастую генерируются в режиме реального времени и так же должны обрабатываться. Это важно как для коммерческого использования (например, для мгновенной обработки информации по сделкам на биржевых торгах), так и в научном контексте, поскольку нахождение компромисса между скоростью генерации данных и скоростью их обработки может превратиться в нетривиальную инженерную задачу.

Наконец, многообразие означает, что Большие данные могут быть как структурированными, так и не структурированными по своей природе

462

и включать в себя совершенно разные типы информации: от традиционных табличных и текстовых данных до электронных писем, видео, изображений etc.

В действительности строгое определение термина Большие данные является на данный момент предметом оживленной дискуссии в научной литературе, поэтому обсуждение данного вопроса требует отдельной работы. Здесь мы приведем лишь одно из последних определений, предложенное Робом Китчиным на основе существующих в академической среде мнений по этому вопросу [Kitchin, 2013, p. 262]: помимо обычных объема, скорости и многообразия это определение включает в себя еще ряд характеристик. Большие данные являются исчерпывающими (т.е. стремятся охватить всю популяцию), детализированными (т.е. позволяют рассмотреть явление или процесс в мелком масштабе), реляционными (разные массивы данных могут пересекаться и содержать общую информацию) и гибкими (как в смысле добавления информации нового типа, так и увеличения объема).

Почему Большие данные важны?

В эпоху «традиционных» данных основной задачей, которую ставили исследователи при разработке новых аналитических техник, было выявление сигналов в условиях недостатка информации [Miller, 2010, p. 182]. В силу того что генерация и сбор данных были сложны как с финансовой, так и с технологической точек зрения, практически вся имеющаяся информация была статической, тщательно структурированной и ограниченной в объеме (пространственном и временном) и масштабе. Принимая во внимание эти ограничения, исследователям приходилось собирать данные для ответа на конкретный вопрос и опираясь на довольно сильные допущения (как при использовании метода случайной выборки).

К началу XXI в. стоимость обработки и анализа данных стала стремительно уменьшаться, прежде всего в силу развития вычислительной техники и аналитических методов. Что еще важнее, генерация данных стала гораздо быстрее. Один пример, который поможет понять масштаб происходящего: в 2012 г. ритейл-сеть Wal-Mart генерировала 2.5 петабайта информации по транзакциям каждый час [Kitchin, 2014 a, p. 3]. Согласно мнению научного сообщества, это означает, что уже в течение десятилетия мы движемся из состояния дефицита данных о мире к состоянию повсеместного наводнения этими данными. Разумеется, это бросает и целый ряд вызовов: мало генерировать, собирать и оперировать большими объемами информации. Для получения полезного (как с коммерческой, так и с научной точек зрения) знания необходимы и принципиально новые техники анализа, которые позволяют искать сигналы уже в невероятно слож-

463

ных и «зашумленных» массивах данных и строить на их основе предсказательные модели (или решать любую другую исследовательскую задачу).

Принято считать, что подобные техники развиваются на стыке математики, статистики и машинного обучения, однако для нас представляет интерес другое - метод их применения. Как уже было замечено, в традиционную эпоху массивы данных собирались под конкретную цель и конкретный исследовательский вопрос, а потому представляли собой некоторый «слепок» действительности, который использовался для проверки заранее выстроенной теории. Более того, методы, которые исследователь применял для анализа, жестко зависели от проверяемой гипотезы, имеющихся допущений, а также структуры данных. Принципиальное отличие Больших данных в этом контексте заключается в многообразии и динамичности, генерация зачастую происходит в реальном времени и требует немедленной обработки. Для такого анализа могут одновременно использоваться десятки разных методов и строиться десятки предсказательных моделей. Во-первых, потому что порой сложно сказать, какие именно методы будут наиболее эффективны, а во-вторых, потому что это позволяет получить комбинированное решение [Seni, Elder, 2010, p. 15].

На данный момент в научном сообществе высказывается следующая точка зрения: результатом описанного выше является сдвиг от сбора информации для проверки конкретных теорий к тому, что можно условно назвать «диалогом с данными»: поиску сигналов и идей о возможных взаимосвязях непосредственно внутри имеющихся данных, которые вполне могли быть сгенерированы с совершенно иной целью. Сложно недооценить последствия подобного шага в контексте рефлексии научного метода. «Революция данных» - практически всеобъемлющий феномен в том смысле, что ни одна область человеческого знания не остается «за бортом»; данных о самых разных аспектах мира и общества с каждым днем становится все больше, и пренебрегать возможностями, которые нам это дает, было бы глупо. Однако это бросает нам и ряд вызовов, связанных с переосмыслением того, как мы подходим к научному познанию мира. Особенно это актуально для социальных наук, которые в меньшей степени отличаются эпистемологическим единством. В дискуссии о том, как Большие данные изменят наш подход к познанию, на данный момент выделяют два основных направления [Kitchin, 2014 a, p. 4]: эмпиризм и наука данных (data-driven science)1. Несмотря на кажущееся терминологическое сходство, в действительности это два принципиально разных подхода к проблеме Больших данных, каждый из которых мы рассмотрим ниже.

1 Термин data-driven science переводится здесь как наука данных по аналогии с устоявшимся переводом термина экономика знаний.

464

Новый эмпиризм и мифологизация Больших данных

Вслед за термином Большие данные в 2008 г. появляется и выражение конец теории. Оно как нельзя лучше описывает позицию тех, кто разделяет, пожалуй, самые радикальные представления о том, какие последствия для процесса познания будет иметь практика использования Больших данных.

Высказывается следующая точка зрения: если в эпоху традиционного анализа данных разного рода технологические и финансовые ограничения приводили к необходимости развивать такие аналитические техники, которые позволят выжать максимум информации из минимума хорошо собранных данных, то теперь ситуация в некотором роде противоположная. Поскольку мы утверждаем, что массивы данных теперь стремятся к тому, чтобы быть исчерпывающими, то появляется вполне объяснимый соблазн заявить, что мы больше не нуждаемся в аналитическом аппарате, который применяли во времена технологической ограниченности. Это имеет некоторый смысл, поскольку сложно спорить с тем, что уровень технологического развития оказывает влияние на эпистемологический контекст и наши возможности и методы научного познания. Однако сторонники нового эмпиризма идут дальше и заявляют, что раньше весь научный метод был выстроен вокруг формулирования теоретических моделей и проверки гипотез в основном из-за невозможности напрямую «наблюдать» исследуемые процессы с помощью сбора и анализа необходимых данных. Теперь же в нашем распоряжении огромное количество таких данных, которые описывают сложнейшие системы и взаимодействия внутри них, а значит, мы можем исследовать любые процессы и явления, просто исследуя эти данные на предмет сигналов и потенциальных взаимосвязей.

Последователи нового эмпиризма считают, что в силу постоянной генерации данных в режиме реального времени отпадает необходимость (а порой и возможность) заранее формулировать гипотезы, которые позднее можно протестировать для проверки теории. Более того, отпадает необходимость в самой теории, главным вопросом становится «что?», а не «почему?». Не нужно предварительное объяснение почему каузальная связь между величинами может существовать именно в таком виде; это своеобразный отказ от контекста в пользу идеи о том, что весь необходимый контекст уже заложен в данные. Крис Андерсон, который, по-видимому, является автором выражения конец теории, предлагает следующий пример для иллюстрации такого подхода: Google создает таргетированную рекламу, применяя исключительно прикладную математику, без какого-либо семантического или культурного анализа потребления [Anderson, 2008]. На самом деле, большинство интернет-сервисов используют эту стратегию, формируя предложения пользователям: их не интересует ответ на вопрос «почему этот человек, купивший товар А, скорее всего, купит и товар Б?», просто на основе имеющихся данных можно построить убеди-

465

тельную предсказательную модель, которая покажет, что такое поведение покупателя наиболее вероятно.

Математический поиск корреляций вытесняет, таким образом, изыскания внутренних механизмов взаимосвязи и каузальности. С точки зрения эмпиризма для науки это оборачивается двумя важными последствиями: во-первых, если отпадает необходимость в предварительном формулировании теории и гипотез, значит, пропадает и риск предвзятости живого исследователя, поскольку математический алгоритм не имеет идеологических предубеждений и склонностей; во-вторых, пропадает необходимость обладать глубоким пониманием контекста и профессиональной экспертизой в исследуемой области - достаточно уметь интерпретировать сигналы, полученные с помощью анализа данных.

Такой подход на первый взгляд действительно во многом привлекателен, однако при более близком рассмотрении он видится, мягко говоря, несвободным от критики. Прежде всего, стоит заметить, что стратегия отказа от предварительной формулировки теории ради поиска сигналов внутри данных действительно может быть полезна в некоторых целях, как мы увидим ниже. Однако в целом отказ от поиска каузальных взаимосвязей выглядит несколько сомнительно с точки зрения научной значимости. Примеры, приводимые сторонниками «конца теории», зачастую взяты из бизнес-сферы, в контексте которой они действительно выглядят положительно, поскольку достигается главная цель: увеличение продуктивности и прибылей. Это делает анализ Больших данных привлекательным в глазах капитала и СМИ, однако оттеняет тот факт, что поиск корреляций и описание данных не перестают быть дескриптивным анализом и не дают нам понимания того, как в действительности устроен мир и протекающие в нем процессы.

«Новая эпистемология» сторонников эмпиризма основана, таким образом, на ряде заблуждений в понимании феномена Больших данных. Заблуждения эти с завидным упорством воспроизводятся СМИ, а также рекламой технологических решений и услуг, связанных с коммерческим применением анализа данных.

Прежде всего, утверждение о том, что Большие данные можно считать исчерпывающими, поскольку они охватывают всю популяцию (а значит, мы не нуждаемся в дополнительном этапе генерализации наших выводов), является откровенно слабо обоснованным. Большие данные скорее тоже стоит понимать как своего рода выборку, нежели как абсолютно достоверный и целиком объективный «слепок» реальности, потому как любые данные генерируются в условиях относительной технологической ограниченности. То, какие методы и технологии применяются при сборе данных, во многом обусловливает содержание последних [Crawford, 2013]. Это означает, что мы не можем полностью отказываться от контекста и от идеи ограниченной информации.

466

Это заставляет нас также усомниться и в привлекательности утверждений о «конце теории». Данные не возникают сами собой в теоретическом вакууме, а являются в некоторой степени следствием решений, принимаемых исследователями и инженерами, причастными к генерации того или иного массива данных. Решения эти принимаются, исходя, в том числе, из профессиональной экспертизы, понимания контекста и теоретической проработанности вопроса, - даже в том случае, если нет эксплицитного исследовательского вопроса.

Похожим недостатком страдают и рассуждения о «диалоге с данными», который представляется как способ напрямую обратиться к объективной действительности с помощью математического аппарата и избежать, таким образом, исследовательской предвзятости. Эта точка зрения основана на иллюзорном представлении об автоматической обработке данных как о непременно более объективной. При этом почему-то упускается из виду, что любая техника анализа, начиная от теоретического фундамента и заканчивая программным обеспечением и конкретными инженерными решениями, разрабатывается исследователями и возникает из контекста определенного научного подхода, который не может не влиять на конечный результат анализа.

Кроме того, существует точка зрения, согласно которой интерпретация результатов анализа тоже представляет собой проблему. Было бы наивно утверждать, что любая найденная в массиве данных корреляция действительно означает существование каузальной связи и вообще несет хоть какую-то осмысленную информацию. Многие из подобных математически найденных «взаимосвязей» могут быть легко отвергнуты экспертом в исследуемой области как абсурдные или не представляющие какого-либо интереса [Ротау, 2013]. Это ставит под сомнение утверждения сторонников эмпиризма о возможности познания, оторванного от контекста и основанного только на анализе данных.

Интуитивно понятно, откуда берется представление о генерации и анализе Больших данных как о «черном ящике», автоматизация которого становится панацеей от ограниченности аналитических ресурсов и человеческой необъективности. На волне популярности термина Большие данные провокационные заявления часто можно увидеть в медиа, кроме того, подобный эмпиризм позволяет представить анализ Больших данных в более выгодном свете в бизнес-сфере. Это имеет немаловажную роль, если вспомнить, что большаПя часть подобных массивов данных создается частными компаниями. Однако на наш взгляд, это смысловая ловушка - упрощенное понимание феномена Больших данных не позволяет оценить все вызовы, которые он нам бросает, и его важность для происходящего эпистемологического сдвига.

467

Наука данных

Некоторые исследователи считают, что ответом на перечисленные слабости нового эмпиризма может стать концепция науки данных [Kitchin, 2014 a, p. 6]. В рамках этой концепции может быть найден компромисс между традиционным исследовательским дизайном и новыми аналитическими техниками.

Как уже было сказано, считается, что традиционный научный метод был сформирован в условиях технологической ограниченности и недостатка информации. Однако теперь многие исследователи считают, что продолжать идти по тому же пути и пользоваться теми же аналитическими техниками в эпоху избытка данных по меньшей мере неразумно: во-первых, это не позволит нам использовать все имеющиеся аналитические ресурсы на полную мощность, во-вторых, мы упустим возможность искать ответы на вопросы, которые раньше были не в состоянии даже задавать [Dyche, 2013].

Чтобы адаптировать научный метод к Большим данным и новой аналитике, сторонники науки данных предлагают тестировать гипотезы, сформулированные исходя не из теоретического фундамента, а из анализа данных. Другими словами, тот самый поиск корреляций и потенциальных взаимосвязей, вокруг которого построена концепция нового эмпиризма, становится не конечной точкой исследования, а лишь промежуточным этапом, который к тому же ограничен теоретическими предпосылками. Под таким ограничением подразумевается теоретическая проработка технологий как сбора, так и анализа данных: данные больше не генерируются всеми доступными нам средствами, теперь этот процесс предварительно осмысляется, чтобы понять, какого рода данные и для каких целей нам необходимо получить. То же касается анализа и интерпретации: вместо применения неограниченного числа техник и построения большого количества моделей в попытке найти как можно больше потенциальных взаимосвязей необходимо продуманное применение только того аналитического аппарата, который поможет нам получить осмысленный и информативный результат.

Полученное в итоге представление об искомых взаимосвязях в данных должно помочь в построении гипотез, которые затем будут проверены с помощью других аналитических техник, в том числе и с помощью традиционного анализа «малых» данных. Подобный подход может помочь реализовать те огромные возможности, которые предоставляет нам эпоха «революции данных», и в то же время избежать эпистемологических пробелов, которыми характеризуется концепция нового эмпиризма. В особенности это касается социальных наук: в контексте позитивистской парадигмы анализ Больших данных может помочь создавать гораздо более точные, масштабируемые модели, которые будут описывать сложные динамические системы [Kitchin, 2014 b, p. 4; Rogers, 2013].

468

Более того, уже сейчас некоторые исследователи считают, что в ближайшее время будут происходить глобальные изменения в структуре научного знания и нашего подхода к его расширению, вызванные существующим контекстом эпохи Больших данных. Прежде всего, это относится к взаимоотношениям между социальными и физико-математическими дисциплинами, которые во многих областях начинают пересекаться друг с другом. Это выражается в применении в социальных науках все большего числа методов и инструментов, заимствованных из математики, физики и прочих точных наук. При этом речь идет не столько о статистике, которая и до этого широко применялась в социальных науках для анализа «малых» данных с помощью специализированного программного обеспечения, а скорее об инструментах из области информационных технологий и программной инженерии, которые предоставляют возможности для более эффективного сбора, обработки и последующего анализа данных.

Одним из исследователей, придерживающихся подобной позиции, является профессор Патрик Данливи (Лондонская школа экономики). По его мнению, в ближайшие десять лет социальные науки ждет ряд серьезных перемен [Эип1еауу, 2014]. Прежде всего, речь идет об уменьшении количества методологических разногласий среди ученых, занимающихся социальными науками. Вместо споров о фундаментальных проблемах подходов к анализу акцент сместится непосредственно на сам анализ, прикладные эмпирические исследования станут гораздо престижнее глобальных теоретических выкладок. Это приведет к тому, что социальные науки будут гораздо более унифицированными и преодолеют барьеры, которые на данный момент вызваны отсутствием налаженной взаимосвязи между узкоспециализированными дисциплинами. Таким образом, большая часть исследований будут представлять собой эмпирические и кросс- или муль-тидисциплинарные работы.

С 2008 г. количество исследований, где используются или упоминаются Большие данные, стремительно возросло [Ыа1еу1, Мое^ 2012]. Технологический прогресс дал нам возможность по-новому подойти к познанию мира, и эта возможность сопряжена с рядом вызовов и непростых вопросов, на которые нам необходимо ответить, - в том числе и эпистемологического характера.

После того как многовековые технологические ограничения оказываются позади и мы оказываемся лицом к лицу с избытком информации о мире, желание свести процесс познания к эмпиризму и позволить данным «говорить» самостоятельно становится вполне объяснимым. Несмотря на понятную привлекательность такого подхода, исследование существующей литературы показывает, что в нем немало теоретических брешей, которые требуют критического подхода. Альтернативным вариантом может стать «наука данных» - подход, который адаптирует традиционный научный метод к наступающей эпохе Больших данных, комбинируя новые аналитические техники с привычным тестированием гипотез.

469

В любом случае, мы определенно находимся на пороге серьезного эпистемологического сдвига, который, возможно, определит развитие научного метода на ближайшие десятилетия. Поэтому недооценивать необходимость активной дискуссии, посвященной этому вопросу, - значит не понимать всех возможностей и вызовов, которые бросает нам эпоха «революции данных».

Список литературы

Майер-Шенбергер В., Кукьер К Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим. - М.: Манн, Иванов и Фербер, 2014. - 240 с.

Anderson C. The end of theory: The data deluge makes the scientific method obsolete // Wired magazine. - 2008. - june 23. - Mode of access: http://archive.wired.com/science/discoveries/ magazine/16-07/pb_theory (Дата обращения: 27.08.2014.)

Big data. Science in the petabyte era // Nature. - L., 2008. - Vol. 455, № 7209. - Mode of access: http://www.nature.com/nature/journal/v455/n7209/edsumm/e080904-01 .html (Дата обраще-ния:27.08.2014.)

CrawfordK. The hidden biases of big data // Harvard business review blog network. - 2013. -April 1. - Mode of access: http://blogs.hbr.org/2013/04/the-hidden-biases-in-big-data/ (Дата обращения: 27.08.2014.)

Dunleavy P. The social science of human-dominated and human-influenced systems: Annual lecture to the Academy of social sciences. [Video]. - L., 2014. - 3 July. - Mode of access: http://blogs.lse.ac.uk/impactofsocialsciences/2014/08/06/audible-impact-episode-3-big-data/ (Дата обращения: 18.10.2014.)

Dyche J. Big data «Eurekas!» don't just happen // Harvard business review blog network. -2012. - November 20. - Mode of access: http://blogs.hbr.org/cs/2012/11/eureka_doesnt_ just_happen.html (Дата обращения: 27.08.2014.)

Gartner says solving «Big Data» challenge involves more than just managing volumes of data: Press release. - 2011. - June 27. - Mode of access: http://www.gartner.com/newsroom/ id/1731916 (Дата обращения: 27.08.2014.)

Halevi G., Moed H. The evolution of Big Data as a research and scientific topic // Research trends. - Amsterdam, 2012. - Vol. 30. - P. 3-7.

KitchinR. Big data and human geography: Opportunities, challenges and risks // Dialogues in human geography. - L., 2013. - Vol. 3, N 3. - P. 262-267.

KitchinR. Big Data, new epistemologies and paradigm shifts // Big data & society. - L., 2014 a. -Vol. 1, N 2. - P. 1-12.

KitchinR. The real-time city? Big data and smart urbanism // GeoJournal. - Dordrecht, 2014 b. -Vol. 79. - P. 1-14.

LohrS. Looking to the future of data science // Bits: New York Times blogs. - Mode of access: http://bits.blogs.nytimes.com/2014/08/27/looking-to-the-future-of-data-science/?_php= true&_ type =blogs&_r=0 (Дата обращения: 27.08.2014.)

LohrS. The origins of 'big data': An etymological detective story // Bits: New York Times blogs. -Mode of access: http://bits.blogs.nytimes.com/2013/02/01/the-origins-of-big-data-an-etymological-detective-story/ (Дата обращения: 27.08.2014.)

Miller H.J. The data avalanche is here. Shouldn't we be digging? // Journal of regional science. -Malden, MA, 2010. - Vol. 50, N 1. - P. 181-201.

470

Porway J. You can't just hack your way to social change // Harvard business review blog network. - 2013. - March 7. - Mode of access: http://blogs.hbr.org/2013/03/you-cant-just-hack-your-way-to (Дата обращения: 27.08.2014.)

Rogers S. Twitter's languages of New York mapped // The Guardian. Data store. - 2013. -21 February. - Mode of access: http://www.guardian.co.uk/news/datablog/interactive/2013/feb/ 21/twitter-languages-new-york-mapped (Дата обращения: 27.08.2014.)

Seni G., Elder J. Ensemble methods in data mining: Improving accuracy through combining predictions // Synthesis lectures on data mining and knowledge discovery. - San Rafael, CA, 2010. - Vol. 2, N 1. - P. 1-126.

Strom D. Big data makes things better. - 2013. - August 3. - Mode of access: http://news. dice.com/2012/08/03/big-data-makes-things-better/ (Дата обращения: 27.08.2014.)

471

i Надоели баннеры? Вы всегда можете отключить рекламу.