Научная статья на тему '"большие данные" - практические аспекты и особенности'

"большие данные" - практические аспекты и особенности Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
1375
214
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
БОЛЬШИЕ ДАННЫЕ / СОВРЕМЕННЫЕ ТЕХНОЛОГИИ / РИСКИ БОЛЬШИХ ДАННЫХ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Кравченко Влада Олеговна, Крюкова Анастасия Александровна

Данная статья посвящена осмыслению понятия «Big Data» или по-другому «Большие данные». Рассматривая различные аспекты и особенности больших данных, лучше происходит осознание их важности в современном мире. Актуальность статьи заключается в том, что в 21 веке современных технологий объемы данных незамедлительно увеличиваются и нужно уметь ими пользоваться. Уже в мае 2015 года массовая численность данных превысила 6,5 зеттабайта. К 2020 году, по прогнозам, человечество сформирует 40 44 зеттабайтов информации. Это означает, что технологии «Big Data» ни в коем случае не будут стоять на месте, а вместе с тем растут и риски, связанные с их развитием.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «"большие данные" - практические аспекты и особенности»

«Большие данные» - практические аспекты и особенности Кравченко В. О.1, Крюкова А. А.2

'Кравченко Влада Олеговна /Kravchenko Vlada Olegovna — студент, факультет информационных систем и технологий;

2Крюкова Анастасия Александровна /Kryukova Ana.sta.siya Aleksandrovna - кандидат экономических наук, доцент,

кафедра электронной коммерции, Федеральное государственное бюджетное образовательное учреждение высшего образования Поволжский государственный университет телекоммуникаций и информатики, г. Самара

Аннотация: данная статья посвящена осмыслению понятия «Big Data» или по-другому «Большие данные». Рассматривая различные аспекты и особенности больших данных, лучше происходит осознание их важности в современном мире. Актуальность статьи заключается в том, что в 21 веке современных технологий объемы данных незамедлительно увеличиваются и нужно уметь ими пользоваться. Уже в мае 2015 года массовая численность данных превысила 6,5 зеттабайта. К 2020 году, по прогнозам, человечество сформирует 40 - 44 зеттабайтов информации. Это означает, что технологии «Big Data» ни в коем случае не будут стоять на месте, а вместе с тем растут и риски, связанные с их развитием.

Ключевые слова: большие данные, современные технологии, риски больших данных.

Перейдем к понятию самих больших данных. «Big Data» или «большие данные» - термин, который появился не так уж давно - всего восемь лет назад. Но это не означает, что само понятие появилось в то же время. Впервые об этом термине упоминается в 2008 году Клиффордом Линчем, редактором журнала «Nature», в котором он говорил о феномене бурного роста объема данных и их разнообразия. Большими данными обычно называют громадные массивы информации со сложной неоднородной или неопределенной структурой. Иногда «Big Data» сравнивают с неструктурированной и неорганизованной информацией, но это мнение ошибочно - большие данные всегда имеют структуру, она может быть сложной потому, что данные поступают из разнообразных источников и содержат совершенно различные сведения или вовсе не известные. Иными словами, в большинстве случаев, приведение этого нагромождения в единое целое не реализуемо.

Известно, что в наше время во всех областях жизни человека присутствуют цифровые технологии [1, с. 3]. И так как объем тех данных, которые записываются в мировые хранилища, непрерывно растет, то не трудно догадаться, что такими же высокими темпами должны меняться условия хранения информации и появляться новые возможности для увеличения её объема. На данный момент термин «Big Data», по большей части, используется для обозначения не только самих массивов данных, но и инструментов для их обработки и потенциальной пользы, которая может быть получена в результате трудоемкого анализа. Ни для кого не секрет, что основной поток информации генерируется не людьми. Источником являются роботизированные машины, которые находятся в постоянном взаимодействии друг с другом [4]. Это, например, сенсоры, приборы для мониторинга, операционные системы персональных устройств, системы наблюдения, смартфоны, интеллектуальные системы, датчики и прочее. Все они задают невероятный темп роста объема данных, что в результате приводит к появлению потребности увеличивать количество рабочих серверов (и реальных, и виртуальных) - как следствие, расширять и внедрять новые data-центры.

Стоит отметить, что главными характеристиками, отличающими «Big Data» от другого рода данных - три V: volume, velocity, variety. Первая - большие объемы, вторая - необходимость в быстрой обработке и высокая скорость накопления данных, третье - разнообразие.

Типичный пример больших данных - это информация, которая поступает с различных физических экспериментальных установок - например, с Большого адронного коллайдера, который производит огромное количество данных и, при том, делает это постоянно. Установка непрерывно выдает огромное количество данных, а ученые с их помощью решают параллельно множество задач.

Далее рассмотрим практические аспекты больших данных. Исследователи больших данных уверяют, что в ближайшем будущем людей ждет мир, который будет подстраиваться под каждого человека. Специалисты уже превратили в массивы цифр все людские привычки и интересы - теперь осталось лишь понять, как воспользоваться этими данными.

Большие данные безусловно, применяются в розничной торговле (ритейле) [3, с. 15]. К примеру, это разнообразные сведения о потребителях, хроника того, какие они совершали покупки, детальная информация с каждого чека, сведения о привлекших внимание скидках, данные посещения различных торговых центров и тому подобное. Банки и страховые компании опять же обладают возможностью собирать информацию о своей клиентуре, их действиях, финансовых транзакциях и даже о

путешествиях по миру. Банк имеет перспективу установить даты важных мероприятий в жизни своих клиентов - смена работы, бракосочетание, рождение ребенка, переезд и т.д. И потом эти сведения можно применять для наращивания продаж и работы над лояльностью клиентов.

Большие данные также определяют развитие и коммунальной отрасли. Возможность собирать и подвергать анализу информацию, которая поступает со счетчиков учёта водоснабжения, газа и электричества - это 1-й и ключевой шаг на пути к разумному потреблению ресурсов как на уровне домохозяйств, так и в масштабе ЖКХ-компаний. Так, к примеру, внедрение больших данных позволило эстонской распределительной фирме «Elektrilevi», совместно с «Ericsson», осуществляющей запуск интеллектуальной системы учета электроэнергии, всего лишь за первые два года проекта повысить эффективность на 20%, уменьшить OPEX и CAPEX, и избежать дорогостоящих ошибок за счет своевременного обнаружения неисправностей.

В телекоммуникациях большие данные - это вся служебная информация с подключенных девайсов, хроника применения различных сервисов, сведения о местонахождении и, к тому же, полностью трафик, который может быть подвержен анализу, вплоть до текстов SMS. У операторов есть доступ к такому типу информации, однако, по закону «О персональных данных», они не обладают полномочиями применять её без согласия обладателя устройства. Но они имеют все шансы проделывать, к примеру, всеобъемлющий анализ трафика, освобожденного от индивидуальных сведений. Такового вида инструменты пока же не применяются операторами (разве лишь только при участии Роскомнадзора, который пользуется системой, позволяющей обнаруживать отдельные основополагающие слова и фразы). Основное, для чего большие данные применяются в телекоме - более четкая сегментация клиентов по типам, в согласовании с их потребительским поведением и предпочтениями.

Собственно, помимо того, что «Big Data» используется в маркетинговых целях, телеком-операторы (однако, как и банки) имеют все шансы использовать всевозможные технологии больших данных для обнаружения и предотвращения случаев мошенничества (действия кибер-преступников, нацеленные на воровство финансовых средств).

Также, операторы мобильной связи осваивают технологии больших данных. По некоторым сведениям CNews, «ВымпелКом» пользуется «Big Data» для повышения качества работы сервиса, аналитики и отчетности, персонализации предложений, оптимизирует с их помощью каналы коммуникации с клиентами, подвергает анализу данные для развития сетей, анализирует М2М-данные, борется с мошенничеством и спамом. Мегафон использует технологии больших данных для геоаналитики, в маркетинге и продажах. МТС - в маркетинговых целях и для наращивания объема продаж, для сегментации абонентской базы, персонализации услуг.

Далее рассмотрим риски, связанные с «Big Data». По сути, компании обращаются к большим данным для увеличения эффективности принимаемых решений и снижения рисков неправильных решений. Но не стоит забывать, что и самим большим данным присущи риски:

• Риск конфиденциальности

Если потерять контроль над данными и допустить их передачу в руки конкурентов, то это может повлечь за собой серьезные экономические ошибки и нанести ущерб репутации [2, с. 35].

• Риск потери данных

В данном случае подразумевается утрата данных вообще, например, в результате проделок мошенников или чрезвычайных ситуаций. Чтобы не возникало таких проблем, данные необходимо резервировать.

• Риск переполнения хранилища

Происходит такой конфуз, обычно, в результате неправильного хранения данных. Необходимо правильное формирование хранилищ и тщательный отбор данных.

• Риск снижения эффективности больших данных

Как говорилось выше, отбирать данные, которые действительно важны нужно очень внимательно. Из-за нагромождения маловажной информацией снижается полезность содержания данных.

• Риск ошибок больших данных

Даже малейшие ошибки могут повлечь за собой неприятности. А в случае с громадными размерами Big Data ошибки тем более не исключены. Поэтому нужно периодически производить ревизию данных и анализировать результативность инструментов.

• Риск экономической нецелесообразности

Понятное дело, что не всегда в доступном объеме данных аналитики находят нужную им информацию и исключить данный риск полностью невозможно. Но эффективно управляя проектом, обеспечивая его нужными ресурсами, вполне реально его минимизировать.

Литература

1. Майер-Шенбергер В., Кукьер К. Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим. М.: Манн, Иванов и Фербер, 2013. 310 с.

2. ФренксБ. Укрощение больших данных. М.: Манн, Иванов и Фербер, 2014. 340 с.

3. Крылов В. Большие данные и их приложения в электроэнергетике. М.: Нобель Пресс, 2014. 168 с.

4. Черногоров А. Большие данные в масштабах государства. [Электронный ресурс]: Rusbase. URL: http://rusbase.com/opinion/bolshye-dannye/ (дата обращения: 19.04.2016).

Учет компетентности экспертов при оценке вероятности принятия ими верного управленческого решения в случае двух альтернатив Бокова О. В.1, Слива Д. Е.2

'Бокова Ольга Владимировна /Bokova Olga Vladimirovna — магистрант;

2Слива Дарья Евгеньевна / Sliva Daria Evgenievna - магистрант, кафедра экономики и менеджмента в промышленности, факультет управления и экономики высоких технологий, Национальный исследовательский ядерный университет, Московский инженерно-физический институт, г. Москва

Аннотация: в статье предлагается способ учета информации об уровне компетентности сотрудников предприятия в вероятностных производственных моделях. Использование концепции информационной энтропии позволяет перейти от уровня компетентности сотрудника, выраженного численно, к вероятности принятия им верного либо неверного управленческого решения. В статье приведены значения вероятностей принятия верных либо неверных управленческих решений, соответствующих различным уровням компетентности сотрудников.

Ключевые слова: информационная энтропия, управленческие решения, компетентность сотрудников, эксперты, вероятностные модели.

В ситуации, когда управленческие решения принимаются экспертами различных уровней компетентности, возникает проблема оценивания вероятности принятия ими верного решения. Оценка компетентности экспертов может проводиться методом тестирования, при котором вопросы тестирования направлены на выявление знаний и навыков в необходимой предметной области. Информация о компетентности эксперта в данной предметной области, то есть процент правильных ответов по данному разделу, может использоваться как оценка компетентности эксперта. На ее основе может быть рассчитана вероятность вынесения экспертом верного суждения. Очевидно, что абсолютно некомпетентный эксперт при выборе из двух альтернатив будет принимать верное решение с вероятностью, равной 0,5. Мы предполагаем, что совершенно, компетентный эксперт всегда принимает верное решение. Рассчитать вероятности ошибки и принятия верного решения для промежуточных значений компетентности позволяет понятие информационной энтропии, впервые определенное Шенноном [1].

По Шеннону информация есть снятая неопределенность: чем меньше вероятность какого-либо события, тем большую неопределенность снимает сообщение о его появлении и, следовательно, тем большую вероятность оно несет. Информационная энтропия - мера хаотичности информации, увеличивающаяся при хаотическом распределении информационных ресурсов и уменьшающаяся при их упорядочении. Взаимосвязь энтропии и информации нашла отражение в формуле:

H+I=1 (1)

Ситуация максимальной неопределенности предполагает наличие нескольких равновероятных альтернатив, ни одна из которых не является более предпочтительной. В случае 2 альтернатив дискретное распределение, соответствующее максимальной неопределенности, выглядит следующим образом: {1/2, 1/2}. Минимальная неопределенность равна 0 и означает, что мы обладаем всей необходимой информацией о системе. Соответствующее распределение вероятностей выглядит так: {1, 0}. Согласно определению информационной энтропии, если дискретная случайная величина принимает значения X1, X2, ..., Xn с соответствующими вероятностями p1, p2, ..., pn [2-3], информационной энтропией является функционал

Н(А) = Я(Р1,Р2.....р„) = -£LiPk logpk, (2)

где pk - вероятность k-го состояния, n - число состояний. Для случая двух равновероятных исходов, в нашем случае принятия верного либо принятия неверного решения зависимость вероятности одного из исходов от значения информационной энтропии представлена на рисунке 1.

i Надоели баннеры? Вы всегда можете отключить рекламу.