Научная статья на тему 'Data Mining и big datа в бизнес-аналитике цифровой трансформации государственного и корпоративного управления'

Data Mining и big datа в бизнес-аналитике цифровой трансформации государственного и корпоративного управления Текст научной статьи по специальности «Экономика и бизнес»

CC BY
2246
429
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
БИЗНЕС-АНАЛИТИКА / ЦИФРОВАЯ ЭКОНОМИКА / РЫНОК БИЗНЕС-АНАЛИТИКИ / МОДЕЛИРОВАНИЕ УПРАВЛЕНИЯ БИЗНЕСОМ / ИННОВАЦИОННОЕ РАЗВИТИЕ

Аннотация научной статьи по экономике и бизнесу, автор научной работы — Тимофеев Александр Гурьевич, Лебединская Ольга Гурьевна

Исследование базируется на системе показателей, характеризующих социально-экономические условия инновационной деятельности, научно-технический потенциал, уровень инновационной активности, качество региональной инновационной политики. Говоря о «цифровой» или «умной» экономике выделяют четыре категории (уровня) ее развития: аналитика контента, бизнес-аналитика, большие данные, хранилища данных. Результаты исследования и методологический подход интересен для моделирования государственного и корпоративного управления в условиях цифровой трансформации.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Data Mining и big datа в бизнес-аналитике цифровой трансформации государственного и корпоративного управления»

Data mining и big datа в бизнес-аналитике цифровой трансформации государственного и корпоративного управления

Business analysis under the conditions of digital transformation of state and

corporate governance

Тимофеев Александр Гурьевич Alexandr Gurjevich Timofeev

кандидат экономических наук,

доцент кафедры информатики Российский экономический университет

им. Г.В. Плеханова

e-mail: [email protected] 8-985-147-76-41 Лебединская Ольга Гурьевна Olga Gurjevna Lebedinskaya

кандидат экономических наук,

доцент кафедры статистики Российский экономический университет

им. Г.В. Плеханова

e-mail: [email protected], 8-917-584-77-33

Аннотация

Исследование базируется на системе показателей, характеризующих социально-экономические условия инновационной деятельности, научно-технический потенциал, уровень инновационной активности, качество региональной инновационной политики. Говоря о «цифровой» или «умной» экономике выделяют четыре категории (уровня) ее развития: аналитика контента, бизнес-аналитика, большие данные, хранилища данных. Результаты исследования и методологический подход интересен для моделирования государственного и корпоративного управления в условиях

цифровой трансформации. Статья подготовлена при финансовой поддержке Российского экономического университета имени Г.В. Плеханова

Annotation

The research is based on a system of indicators characterizing the socioeconomic conditions of innovation activity, scientific and technical potential, the level of innovative activity, and the quality of regional innovation policy. One of the perspective directions of IT development of corporate planning is design of systems of support of decision-making on the platform of business analytics. The results of the research and the methodological approach are interesting for modeling state and corporate management in conditions of digital transformation. Article is prepared with financial support of G.V. Plekhanov Russian University of Economics

Ключевые слова

Бизнес-аналитика, цифровая экономика, рынок бизнес-аналитики, моделирование управления бизнесом, инновационное развитие

Keywords

Business intelligence, digital economy, business intelligence market, business management modeling, innovative development

Цифровые методы анализа данных в государственном и корпоративном управлении

Наука о данных относится к области вычислений следующего поколения, где некоторые инструменты и алгоритмы применяются к большим данным для глубокого анализа. Информационная платформа данных - это интеграция математического программирования, статистики, различных методов решения проблем, методов фильтрации данных и других алгоритмов. Различные организации внедряют платформу для научных исследований данных, чтобы извлечь ценную информацию из огромных структурированных и неструктурированных необработанных данных.

Говоря о «цифровой» или «умной» экономике выделяют четыре категории (уровня) ее развития: аналитика контента, бизнес-аналитика, большие данные, хранилища данных. Бизнес-аналитику можно разделить на крупные разделы: системная динамика и моделирование; экспертные системы и базы знаний; когнитивные технологии; геоинформационная аналитика и и системы визуализации. [3]

Набор методов и подходов для создания информационных (статистических) моделей, выявляющих нетривиальные закономерности и предлагающих варианты решений, на сегодняшний день принято связывать с понятием Data Mining.

Под Data Mining сегодня понимается извлечение знаний из данных в процессе Knowledge Discovery in Data (Database) (KDD). Согласно экспертной оценке, Data Mining является элементом, этапом KDD-процесса, который, кроме этого, предполагает наличие этапов извлечения, очистки и трансформации данных.

Целью анализа больших данных является извлечение закономерностей из ограниченного объема данных с возможностью их распространения на весь массив информации. Полученная закономерность может служить моделью предсказания наступления какого-либо события и существенно повысить эффективность бизнес-процессов организаций.

К примеру, модели прогнозирования внимания клиентов на предложения, прогноз реакции на обращение через определенный канал коммуникации делают взаимодействие с потенциальным клиентом более персонифицированным, учитывающим контекст ситуации, и тем самым добиться повышения коммерческих показателей организации, максимально заботясь о лояльности ее клиентов.

Предиктивные математические модели улучшают проведение маркетинговых исследований, в том числе в области развития инфраструктуры и методологии работы с большими данными.

На анализе big data строят и развивают проекты, которые направлены на серьезное повышение эффективности процессов маркетинга и продаж, оптимизации производства, логистики, управления рисками, планирования, управления персоналом и другие рабочие процессы различных бизнесов.

В реализации используются как собственные технологии (например, NoSQL базы данных Tarantool), так и другие open source-решения (Apache Hadoop, Apache Spark). Для построения предиктивных математических моделей используются методы машинного обучения (Machine Learning), в том числе собственные разработки компании, например, алгоритм построения моделей Multiclass Look-alike, являющийся развитием метода PU Learning.

Многие компаний все больше стремятся к работе в режиме реального времени. Для достижения высоких темпов движения данных на всех уровнях работы компании данные необходимо собрать и разработать специальные предикторы (системы анализа, позволяющие проецировать данные на возможное поведение пользователя в будущем) и анализировать дальнейшее поведение пользователя. Источниками Big Data в этом случае будут данные, которые передаются от компьютера к компьютеру, социальные медиа, данные о пользователях, транзакционные данные, прочие неструктурированные данные.

Если со сбором и анализом больших объемов данных более-менее все понятно, то совершенно непонятно, как это может в перспективе храниться, защищаться и проверяться на актуальность. В этом случае появление технологии SMART Data (связка с искуственным интелектом) будет еще более востребованы. [1]

Компания SAP предлагает к использованию SAP S/4 HANA — платформу нового поколения, позволяющую упростить и ускорить управление бизнесом. Революционная технология позволяет контролировать бизнес-процессы предприятия в режиме реального времени и упростить процессы принятия решений по ключевым бизнес-задачам.

Составление элементарных предикторов - алгоритмов, описывающих нестандартное поведение сотрудников или партнеров с использованием методов Data Mining строится модель бизнес-правил.

При построении прогнозных моделей широко применяются нетривиальные математические алгоритмы и методы углубленного анализа данных: деревья решений, регрессионный анализ, нейронные сети и др. В компании Яндекс Data mining и Big Data используют для защиты домашнего интернета, появился инструмент для борьбы с программами-ботами. Такие программы заражают компьютер и заставляют его втайне от владельца выполнять действия, выгодные злоумышленникам. Боты не действуют самостоятельно: все команды они получают из центров управления, для установки соединения с которыми используют систему DNS. При использовании в Яндекс DNS все запросы от ботов к центрам управления блокируются. В результате боты не получают инструкций, и заражённый компьютер перестаёт участвовать во вредоносной деятельности. Ежедневно Яндекс^№ обрабатывает около семи миллиардов запросов, из которых боты отправляют примерно 1,9 миллиона.

Успешная предпринимательская деятельность в настоящее время предполагает применение современных высокоэффективных способов и методов управления потоковыми процессами предприятия. [2]

Развитие информационных технологий, внедрение на предприятиях учетных информационных систем привело к бурному росту собираемой и анализируемой информации о различных процессах, характеризующих деятельность компаний. [4]

Проблема анализа огромных объемов данных, накопленных в компаниях за годы их деятельности, оказалась настолько серьезной, что появилось отдельное направление или вид информационных систем -информационно-аналитические системы (ИАС)

Информационно-аналитические системы объединяют, анализируют и хранят как единое целое информацию, извлекаемую как из учетных баз

данных организации, так и из внешних источников. Входящие в состав информационно-аналитических систем хранилища данных обеспечивают преобразование больших объемов сильно детализированных данных в обобщенную выверенную информацию, которая пригодна для принятия обоснованных решений. Для того, чтобы находить в накопленных данных скрытые закономерности и преобразовывать их в знания, пригодные для принятия решений, используются методы и алгоритмы, объединенные общим названием Data Mining или интеллектуальный анализ данных.

Распространенный термин «бизнес-аналитика» подразумевает использование информации для принятия решений в организациях [Davenport et al., 2010]. Эта деятельность тесно связана с глубинной обработкой (mining) сверхбольших массивов данных (Big Data) и при качественном выполнении способна обеспечить весьма полезные результаты.

Аналитические методы можно разделить на три категории — описательные, предписательные и предиктивные. Многие организации, как в частном, так и в государственном секторе, виртуозно оперируют инфографикой — схемами и диаграммами, иллюстрирующими различные показатели: число компаний, принявших участие в государственной программе кредитования научных исследований, их местонахождение, объем выделенных средств и др. Значительно слабее их компетенции в использовании предписательной аналитики, которая позволяет в том числе определить оптимальный порядок распределения средств для достижения тех или иных целей. Предиктивные методы наиболее развиты в использовании, их применяют во многих областях. Предиктивная аналитика основана на прогнозировании вероятного эффекта. Хотя прогнозы носят скорее субъективный характер, однако, эффективности использования данных в разработке стратегий улучшается.

Во многих странах государственные органы активно пользуются аналитикой в большей степени за счет ведения статистики и ее мониторинга.

Сравнительно новым подходом к сбору информации является «анализ настроений» (sentiment analysis), основанный на изучении качественной информации из Интернета (сайтов и блогов) с целью выявления отношения целевой аудитории к результатам, на которые ориентирована та или иная государственная программа. В дополнение к методам прогнозирования (сценарии, дорожные карты и т. п.) анализ настроений дает возможность идентифицировать доминирующие мнения различных анализируемых групп.

Инструменты Data Mining в бизнес-аналитике

Существуют существует целая линейка профессиональных программ, реализующие системный подход к анализу данных и включающие методы Data Mining и Business Intelligence (BI).

Наиболее известные программные продукты: Business Objects, SAS, SPSS, STATISTICA, PolyAnalyst, Prognoz Platform, Deductor и другие. Практически во всех системах доступны методы визуализации и разведочного анализа в базах и хранилищах данных, методы построения конкретных моделей для оптимизации логистических процессов предприятий с целью достижения оптимального уровня затрат при желаемом уровне сервиса для клиентов.

Несмотря на разнообразие задач бизнес-аналитики, почти все они могут решаться по единой схеме. Эта схема, зародившаяся в 1989 г., получила название Knowledge Discovery in Databases - обнаружение знаний в базах данных. Она описывает не конкретный алгоритм или математический аппарат, а последовательность действий, которую необходимо выполнить для обнаружения знания в данных. Последовательность действий не зависит от предметной области; это набор атомарных операций, комбинируя которые, можно получить нужный результат. Knowledge Discovery включает в себя этапы подготовки данных, выбора информативных признаков, очистки данных, построения моделей, постобработки и интерпретации полученных результатов. «Ядром» этого процесса являются методы Data Mining -обнаружение в «сырых» данных ранее неизвестных, нетривиальных,

практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.

Big Data в бизнес-аналитике

Современные подходы обработки объемов структурированных и неструктурированных данных качественно изменились. Стоимость хранения информации настолько снизилась, что появилась возможность собирать всё больше данных и анализировать их. Итак, возникла проблема построения новой вычислительной инфраструктуры, которая была бы эффективной и не очень дорогой. Ключом к построению такой инфраструктуры и стал комплекс технологий, известный в настоящее время как «большие данные» -Big Data.

Big Data можно определить как технологию в области аппаратного и программного обеспечения, которая интегрирует, организует, управляет и анализирует данные, характеризующиеся четырьмя характеристиками: объемом, разнообразием, изменчивостью и скоростью.

Существует несколько проблем, которые мешают активному внедрению технологий анализа данных в российских финансовых и других организациях. Во-первых, часто отсутствуют готовые программные решения, что делает внедрение инноваций более дорогим. Другой фактор - отсутствие опытных специалистов. Крупные организации разрешают эту проблему путем создания специальных баз обучения и учебных программ для специалистов по анализу данных, что требует дополнительных инвестиций, которые невозможны для небольших предприятий. Следующая проблема -отсутствие опыта использования таких инструментов у организаций, в результате чего не каждая внедренная технология приносит компании ожидаемый эффект.

В табл. 1 представлены наиболее распространенные аналитические методы, большинство из которых относятся к категориям стратегического анализа и изучения внешней среды. Они востребованы, так как предоставляют ключевые сведения, оценивающие прибыльность рынка и

инструменты извлечения прибыли. Исходя из этого, можно подготовить профиль рынка. В таблице указаны эволюционные инструменты для выявления тенденций технологического развития отрасли.

Таблица 1 - Аналитические методы конкурентной разведки

Методы анализа

Методы Data Mining (классификации множество)_

Методы стратегического анализа

Классификация без отклика

Матрица Boston Consulting Group (BCG)

Классификация с откликом

Отраслевой анализ («5 сил»)

Ассоциации

Стратегические группы

Анализ последовательностей событий

SWOT-анализ

Прогнозирование времени до события

Цепочка создания стоимости

Анализ внешней среды

искусственные нейронные сети

Анализ проблем (issue analysis)

деревья решений, символьные правила

Сценарии Стейкхолдеры

методы ближайшего соседа и к-ближайшего соседа

STEEP-анализ

метод опорных векторов

Финансовый анализ

байесовские сети

Финансовая эффективность

линейная регрессия

Темпы устойчивого роста

корреляционно-регрессионный анализ

Конкуренты и клиенты

иерархические методы кластерного анализа

«Мертвая зона»

неиерархические методы кластерного анализа, в том числе алгоритмы к-средних и к-медианы

Конкуренты

методы поиска ассоциативных правил, в том числе алгоритм Арпог!_

Потребительская ценность

метод ограниченного перебора

Сегментация потребителей

эволюционное программирование и генетические алгоритмы_

Профилирование менеджмента

разнообразные методы визуализации данных и множество других методов._

Эволюционный анализ

«Кривая опыта»

«Вектор роста»

Жизненный цикл продукта

Жизненный цикл технологии

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

KPI

Одной из самых распространенных методик является формирование временной шкалы. Замечено, что любые масштабные сдвиги на рынке происходят в четкой логической последовательности. Задолго до появления на нем новой технологии наблюдается производственная активность,

которой предшествуют тестирование и научные исследования.

В таблице 2 представлена классификация основных методов Data Mining используемых в бизнес-аналитике.

Таблица 2 - Классификация основных методов Data Mining

используемых в бизнес-аналитике

Работа с данными

Выявление и использование формализованных закономерностей, или дистилляция шаблонов

Непосредственное использование данных сохранение данных При технологии дистилляции шаблонов один образец (шаблон) информации извлекается из исходных данных и преобразуется в некие формальные конструкции

Кластерный анализ Логические методы или методы логической индукции нечеткие запросы и анализы;

Метод ближайшего соседа символьные правила; деревья решений;

Метод к-ближайшего соседа генетические алгоритмы.

Методы кросс-табуляции агенты, байесовские (доверительные) сети

Рассуждение по аналогии кросс-табличная визуализация

Методы на основе уравнений

Подход к обучению математических моделей

Статистические методы Data Mining Кибернетические методы Data Mining

предварительный анализ природы статистических данных (проверка гипотез стационарности, нормальности, независимости, однородности, оценка вида функции распределения, ее параметров и т.п.); Искусственные нейронные сети (распозование, кластеризация, прогноз)

Эволюционное программирование (в т.ч. алгоритмы методом группового учета аргументов)

выявление связей и закономерностей (линейный и нелинейный регрессионный анализ, корреляционный анализ и др.); Генетические алгоритмы (оптимизация)

Ассоциативная память (поиск аналогов, прототипов)

многомерный статистический анализ (линейный и нелинейный дискриминантный анализ, кластерный анализ, компонентный анализ, факторный анализ и др.); Нечеткая логика

Деревья решений

динамические модели и прогноз на основе временных рядов. Системы обработки экспертных знаний

Классификация по задачам

Описательные методы Прогнозирующие методы

служат для нахождения шаблонов или образцов, описывающих данные, которые спользуют значения одних переменных для предсказания/прогнозирования неизвестных

поддаются интерпретации (пропущенных) или будущих значений других (целевых) переменных

Алгориитм К-средних Нейронные сети

К-медианы Деревья решений

Иерархические методы кластерного анализа Линейная регрессия

Самоорганизующиеся карты Кохагена Метод ближайшего соседа

Методы кросс-табличной визуализации Метод опорных векторов

Деревья решений и правила фактически являются разными способами решения одной задачи и отличаются лишь по своим возможностям. Кроме того, реализация правил осуществляется более медленными алгоритмами, чем индукция деревьев решений.

Как видно из рассмотренной таблицы, каждый из методов имеет свои сильные и слабые стороны. Понятно, что ни один метод не может обеспечить решение всех видов задач Data Mining.

Сочетание в бизнес-аналитике взаимодополняющих аналитических методов, позволяет составить более полное представление об анализируемых данных и повысить качество принимаемых решений. [4]

Несовпадение реальной ситуации с плановыми показателями по любому из перечисленных пунктов означает, что в текущей версии программа не позволит получить желаемый результат. При раннем обнаружении несоответствия программу можно скорректировать либо полностью от нее отказаться в случае явного расхождения с поставленными задачами.

Библиографический список

1. Брускин С.Н. Методы и инструменты продвинутой бизнес-аналитики для корпоративных информационно-аналитических систем в эпоху цифровой трансформации // Современные информационные технологии и ИТ-образование. 2016. Т. 12. № 3-1. С. 234-239.

2. Тимофеев А.Г., Лебединская О.Г. Трансформация роли системообразующих предприятий в экономике России / Приоритетные направления развития науки и образования. - 2016. № 1 (8). С. 396-398.

3. Тимофеев А.Г., Лебединская О.Г. Актуализация перехода от цифрового труда к цифровой фабрике // Управление экономическими системами. 2016. № 3.

4. Тимофеев А.Г., Лебединская О.Г. Торговые системы и динамические программы-роботы на биржевом рынке // Инициативы XXI века. 2012. № 4. С. 65-68.

5. Информационные системы рынка ценных бумаг / А.Г. тимофеев,

B.П. Романов. М., 2010. 151 с. Тимофеев А.Г. Влияние рейтинговых и прогнозных оценок на изменение геополитического положения государства // Научные труды Вольного экономического общества России. 2010. Т. 143.

C. 145-150.

i Надоели баннеры? Вы всегда можете отключить рекламу.