DOI 10.5281/zenodo.13268355 УДК-004.8
Арсентьева Н.В. студент магистратуры кафедра прикладной информатики и информационных технологий
Скрипин А.А. аспирант
кафедра прикладной информатики и информационных технологий Скрипина И.И. старший преподаватель кафедра прикладной информатики и информационных технологий
Белгородский государственный национальный исследовательский университет Россия, г.Белгород
DATA MINING: МЕТОДЫ, ЭТАПЫ, ПРИМЕНЕНИЕ И ЗНАЧЕНИЕ В
СОВРЕМЕННОМ МИРЕ
Аннотация. Данная статья посвящена интеллектуальному анализу данных (Data Mining) и его роли в современном мире. В работе рассматриваются основные концепции Data Mining, его значение в эпоху цифровой трансформации и экспоненциального роста объемов данных. Описываются ключевые этапы процесса интеллектуального анализа данных, включая постановку задачи, подготовку и изучение данных, построение и проверку моделей, а также их развертывание и обновление. Особое внимание уделяется применению технологий Data Mining в различных сферах, таких как бизнес и экономика, наука и исследования, здравоохранение, финансовый сектор, государственное управление и образование. Статья демонстрирует, как использование методов интеллектуального анализа данных позволяет организациям оптимизировать процессы, улучшать принятие решений и повышать конкурентоспособность.
Ключевые слова: Data Mining, интеллектуальный анализ данных, большие данные, машинное обучение, прогнозирование, оптимизация бизнес -процессов, принятие решений, цифровая трансформация, аналитика, искусственный интеллект.
Arsentieva N. V. undergraduate student Department of Applied Informatics and Information Technology
Skripin A.A. post-graduate student Department of Applied Informatics and Information Technologies Skripina I.I. senior lecturer
Department of Applied Informatics and Information Technology
Belgorod State National Research
University Russia, Belgorod
DATA MINING: METHODS, STAGES, APPLICATION AND SIGNIFICANCE IN THE MODERN WORLD
Abstract. This article is devoted to data mining and its role in the modern world. The paper examines the main concepts of data mining, its importance in the era of digital transformation and exponential growth of data volumes. The key stages of the data mining process are described, including problem statement, data preparation and study, model building and validation, as well as their deployment and updating. Particular attention is paid to the application of data mining technologies in various fields, such as business and economics, science and research, healthcare, financial sector, public administration and education. The article demonstrates how the use of data mining methods allows organizations to optimize processes, improve decision making and increase competitiveness.
Keywords: Data Mining, data mining, big data, machine learning, forecasting, business process optimization, decision making, digital transformation, analytics, artificial intelligence.
В эпоху цифровой трансформации и экспоненциального роста объемов данных, технологии интеллектуального анализа данных, известные как Data Mining, приобретают все большее значение. Data Mining представляет собой междисциплинарную область, объединяющую методы статистики, машинного обучения и баз данных для извлечения ценной информации из больших массивов данных.
Data Mining (добыча данных, интеллектуальный анализ данных, глубинный анализ данных) можно определить, как процесс обнаружения в «сырых» данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Также для этой технологии используется менее популярный термин «обнаружение знаний в данных» или KDD (knowledge discovery in databases). Этот процесс включает в себя не только
сбор и анализ данных, но и выявление скрытых закономерностей, построение моделей и формирование гипотез, которые могут быть использованы для прогнозирования и принятия стратегических решений.
В современном мире на момент написания данной статьи Data Mining уже играет ключевую роль в различных аспектах жизни общества и функционирования бизнеса. Данная технология применяется в самых разнообразных сценариях в различных отраслях. Цикл использования технологий представлен на рисунке 1.
Этап 5:
интерпретация результатов
Полный цикл использования технологии Data Mining
Этап 2:
первичное
исследование данных
*
Этап 4:
анализ данных
Этап 3:
подготовка
данных для анализа
Рис. 1. Этапы интеллектуального анализа данных [7]
Процесс Data Mining представляет собой комплексный набор этапов, направленных на систематическое извлечение и анализ данных с целью выявления скрытых закономерностей и получения ценной информации. Этапы интеллектуального анализа данных представлены на рисунке 2.
■ Этап начинается с внимательного анализа бизнес-требований, определения пблагти проблемы и ^гтрик . пс котоэыго будет проводиться зиечка ^сдгли. Также на этом этапе
Постановка определяются которые б\Д'гт решена! в рагиках проекта ачагиза данчтк. 5та фага является
- - ^- -:лкч-=Еой для опредвления н = правл 51- ид ¿.ал ьней иик р-г бет.
' ^ ;
■ ооъеди-ение и очистка. Этот этап тредусматривве- не _о/ь^с удале-ие избьгочной информации, но и выявление скрьпых зависимостей з данный. Проводится о бъеди нен и е да н - ых, определен и е и (г оч н и ко з -а ибол ее точ ной
_ информации, и созда - и е структур и рова н - ых табл и 4 дл я последу ю ше го а нал и за.
Подготовка Важ н ы м аспентом является выделение к лючев ык пер ем ен н ык, с п с соб н ык в н ести I наибольший вклад в реше-ие псс-авленных задач.
• На данном этапе происходит де-альный анализ данны* для выявления особенностей, закономерностей и трендов. Использукгся методы статис_и|-еского анализа, визуализадии данных и корреляцион-ых исследований. Цель —лу-ше понять с~руктуру данных перед построением моделей._
■ На основе предыдущего этапа строя-ся математические модели, способные выязить снрытые закономерности в данных. Применяются ал_оритмы машинного обуче-ия, статистические методы и техники оптимизации для создания моделей, способных зффек~изно реиать пс<гавлен-ые задачи._
^ * Точность моделей оценивается при п с мод и специальных средств и методов а ал и да ци и. Этот этап зклго'-аетв себя проверку моделей на тестовых данных и ■ ; а нал из их п ре дека зате л ьн о й сп осо бности. Бслу-ае необходимости производя_ся про ^р кг корректирозки для улучшения реэульта~св._
чоделей
После успешной пэовеэки модели разворачиваются в рабочую сэеду. Од-а-5с, поскол и-?у да-ные постоянно обновляются, зажным этапом является систематическое обновление моделей с учетом новых данных. Это обеспечивает актуальность и эффективность моделей в долгоеро1--ой перспективе_
Рис. 2. Этапы интеллектуального анализа данных
Каждый из этих этапов играет важную роль в процессе Data Mining, обеспечивая систематический подход к извлечению знаний из данных и их применению для решения практических задач. Важно отметить, что процесс Data Mining часто является итеративным, где результаты одного этапа могут привести к пересмотру предыдущих этапов для достижения оптимальных результатов. Рассмотрим аналитические методы, которые могут использоваться на каждом из этих этапов (таблица 1).
Таб.1. Аналитические методы
Ve Метод Суть метода
1. ПЬсгаНОЕЕа згдачн: — М^тодьс анализа отнЕй-требованни. та] ли кал SWOT-анализ или аиалнг целен и задан бизнеса. — Техники определения клгсчееъм. метрик п лсказагелей лроЕкта. напрнмЕр. кспользовение epi (еяеншых показателей эффективности).
2. ПоДГОТОЕЕа ji-ii-i !■]]■[ — I'. 1-етоде[ очистки данных, такие как удаление дубликатов, заполнение пропущЕнньк. кначЕнин п уСТраКЕНП? ЕЫОрОСОЕ. - Алгоритмы ООЪЕДИНЕНИЯ данных нз розлнннык источников^ например. метода ;:НГЕГ'1'^ТПТТТ таки^тг
3. Изучение ji-ii-i !■]]■[ — Аналитические ыегода. такие как анализ гр1ЛШГТ '.ГР-ПТЛТП,Г УП-ГТ,- ггиг-прргтпт и тггтрррпдл™ - Rw.tl-дгппэттит -гзтттгт Г ИГТТПТТ^ЛП^-НМРЧГ ГПТЛГ[ТЛ\.1\.1 и тс.ттпг.т.к-п,- ъ^рт -пя thrtrtahttt особенностей н
4. Построение моделей — Применение алгоритмов машинного обучения, I алия: кас ликеиная регрессия. леревья решенки. метол спорные efietcpoe н неьфокргые сеш. - И^ПОЛЬЗСЕЗНПЕ СТаШСТИЧеСКИХ МеТОДОЕ, например, методов кластерного анализа или аналига факторов.
5. ИсследозанхЕ и проьерка моделей — Метода ьалидации моделей, включал крос-> залыдаиню, отложенную выборку и бутстрап. — Анализ показателей точности ьсопели. таких ::ак точность. полнота. Fl-мера п ROC-кривая.
б. Раззергьсзанхе п о с но б 71енп-з моделей — Метода мониторинга производительности молелЕП е реальном времени — Принятие решений оо обновлении моделей -_-- ОСНОВЕ регулярного дттлтн7д htit!^-t г^дгтттътт тт результате б .
Использование разнообразных аналитических методов на каждом из этих этапов позволяет создать надежные и эффективные модели Data Mining, способные предоставить ценную аналитическую информацию для принятия решений в бизнесе.
Методы анализа данных, направленные на применение искусственного интеллекта, используются в различных областях для разнообразных целей:
- Прогнозирование: оценка перспектив продаж, предсказание нагрузки на сервер или времени его простоя;
- Оценка рисков и вероятностей: выбор подходящих кандидатов для целевой рассылки, определение точек баланса для рискованных сценариев, присвоение вероятностей диагнозам или другим исходам;
- Предоставление рекомендаций: выявление продуктов, которые часто покупают вместе, формирование рекомендательных сообщений;
- Анализ последовательностей: изучение выбора клиентов в процессе покупок, прогноз их поведения;
- Группировка: классификация клиентов или событий в кластеры, анализ и прогнозирование общих характеристик этих кластеров.
Области применения технологий Data Mining для интеллектуального анализа данных:
— Бизнес и экономика. В мире бизнеса и экономики, технологии интеллектуального анализа данных широко используются для анализа рыночных тенденций, прогнозирования спроса, оптимизации производственных процессов и принятия стратегических решений. С помощью этих технологий компании могут классифицировать клиентов, проводить анализ рисков, оптимизировать маркетинговые кампании и повышать эффективность операций.
— Наука и исследования. В области науки и исследований интеллектуальный анализ данных играет ключевую роль в обработке и анализе больших массивов данных, выявлении паттернов и закономерностей, прогнозировании результатов экспериментов и создании новых научных моделей. Эти технологии помогают ученым и исследователям улучшать качество и точность их исследований, делая процесс открытия новых знаний более эффективным.
— Здравоохранение. В здравоохранении интеллектуальный анализ данных применяется для улучшения диагностики и лечения, оптимизации процессов управления медицинскими данными, прогнозирования распространения заболеваний, а также для разработки персонализированной медицины. Анализ данных пациентов и медицинских исследований помогает улучшить качество медицинского обслуживания и принимать обоснованные медицинские решения.
— Финансовый сектор. В финансовой отрасли интеллектуальный анализ данных используется для анализа рыночных трендов, прогнозирования финансовых показателей, выявления мошенничества, оптимизации портфеля инвестиций и управления рисками. Эти технологии помогают финансовым учреждениям принимать обоснованные решения, улучшать операционную эффективность и повышать конкурентоспособность на рынке.
— Государственное управление. В сфере государственного управления интеллектуальный анализ данных применяется для анализа социально -экономических показателей, мониторинга реализации государственных программ, принятия политических решений и улучшения качества
государственных услуг. Эти технологии позволяют государственным органам повысить эффективность своей деятельности, улучшить взаимодействие с гражданами и обеспечить прозрачность власти.
— Образование. В образовании интеллектуальный анализ данных используется для анализа успеваемости студентов, оценки эффективности образовательных программ, персонализации обучения и развития инновационных методик обучения. Эти технологии помогают учебным заведениям улучшить образовательный процесс, повысить качество обучения и подготовить студентов к вызовам современного мира.
— Технологии интеллектуального анализа данных эффективно интегрируются в различные отрасли, обеспечивая компаниям и организациям возможность оптимизировать операции, улучшать принятие решений и повышать конкурентоспособность.
Интеллектуальный анализ данных (Data Mining) представляет собой мощный инструмент для извлечения ценной информации из больших массивов данных. В современном мире, характеризующемся экспоненциальным ростом объемов информации, технологии Data Mining приобретают все большее значение во многих сферах человеческой деятельности.
Применение методов Data Mining позволяет организациям получать конкурентные преимущества, оптимизировать процессы и принимать более обоснованные решения. В бизнесе это выражается в улучшении понимания поведения потребителей, оптимизации маркетинговых стратегий и повышении операционной эффективности. В науке и исследованиях Data Mining способствует выявлению новых закономерностей и формулированию гипотез. В здравоохранении эти технологии применяются для улучшения диагностики и персонализации лечения.
Важно отметить, что процесс Data Mining требует систематического подхода, включающего несколько этапов от постановки задачи до развертывания и обновления моделей. Каждый этап предполагает использование специфических аналитических методов и инструментов.
По мере развития технологий и увеличения доступности данных, роль Data Mining в различных отраслях будет только возрастать. Это открывает новые возможности для инноваций, повышения эффективности и создания ценности в самых разных сферах деятельности.
В заключение можно сказать, что овладение методами и техниками Data Mining становится необходимым навыком для специалистов в различных областях, а организации, эффективно использующие эти технологии, получают значительные преимущества в современном конкурентном мире.
Использованные источники: 1. Барышков Кирилл Васильевич ИСПОЛЬЗОВАНИЕ БОЛЬШИХ ДАННЫХ ДЛЯ ПОВЫШЕНИЯ ЭФФЕКТИВНОСТИ GO-TO-MARKET СТРАТЕГИЙ // Практический маркетинг. 2024. №5. URL:
https://cyberleninka.ru/article/n/ispolzovanie-bolshih-dannyh-dlya-povysheniya-effektivnosti-go-to-market-strategiy-1 (дата обращения: 22.06.2024).
2. Абруков Виктор Сергеевич, Кочаков Валерий Данилович, Смирнов Александр Вячеславович, Абруков Сергей Викторович, Васильев Алексей Иванович Многофакторные вычислительные модели фотодатчиков на основе тонких пленок // Вестник ЧГУ. 2015. №1. URL: https://cyberleninka.ru/article/n/mnogofaktornye-vychislitelnye-modeli-fotodatchikov-na-osnove-tonkih-plenok (дата обращения: 24.06.2024).
3. Костюкова Н. И. Система принятия решений по технологии Data Mining // Перспективы систем информатики: материалы Седьмой международной конференции памяти академика А. Е. Ершова. Новосибирск, 2009. С. 72-76.
4. Голиков Виктор Андреевич Применение технологии Big Data в финансовом секторе // Известия ТулГУ. Экономические и юридические науки. 2018. №2-1. URL: https://cyberleninka.ru/article/n/primenenie-tehnologii-big-data-v-finansovom-sektore (дата обращения: 20.06.2024).
5. Косоруков А.А., Кшеменецкая М.Н. Большие данные в практике управления современным государством/ Год: 2019 Страницы: 74-81/ eLIBRARY ID: 37146245
6. Мокшанов, Михаил / Михаил Мокшанов. — Текст: электронный //: [сайт]. — URL: https://www.itweek.ru/bigdata/article/detail.php? ID=229390&ysclid=lxujisdis644865546 (дата обращения: 25.06.2024).