Научная статья на тему 'МЕТОДЫ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ В ЗАДАЧАХ ОЦЕНКИ КАЧЕСТВА ДЕЯТЕЛЬНОСТИ ОРГАНИЗАЦИЙ'

МЕТОДЫ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ В ЗАДАЧАХ ОЦЕНКИ КАЧЕСТВА ДЕЯТЕЛЬНОСТИ ОРГАНИЗАЦИЙ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
200
40
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
интеллектуальный анализ данных / оценка качества деятельности организации / статистический анализ / data mining / математические методы интеллектуального анализа данных / управление качеством / задачи анализа данных / intelligent data analysis / assessment of quality of organization's activities / statistical data analysis / data mining / mathematical data mining methods / quality management / data-analytics problems

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Смолина Елена Михайловна, Черненькая Людмила Васильевна

В статье рассмотрены варианты применения методов data mining в различных сферах организационной деятельности, в том числе показано, как данная технология может использоваться для решения задач повышения качества деятельности организации. Изучено, насколько важно в настоящее время анализировать данные, накапливаемые организациями и насколько широко в настоящее время применимы методы интеллектуального анализа данных.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

METHODS OF DATA MINING IN ANALYSIS TASKS OF QUALITY ASSESSMENT OF ORGANIZATION’S ACNIVITIES

The paper describes variants of applying data mining techniques in various spheres of organizational activity. It shows how this technology can be used for improvement of quality of organization’s activities. Today the important task is to analyze the many different data accumulated by organizations. Authors consider how widely the data mining methods are applied.

Текст научной работы на тему «МЕТОДЫ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ В ЗАДАЧАХ ОЦЕНКИ КАЧЕСТВА ДЕЯТЕЛЬНОСТИ ОРГАНИЗАЦИЙ»

2. Кукор Б.Л., Клименков Г.В. Адаптивное управление промышленным комплексом региона: теория, методология, практика./Под общ. Ред. Б. Л. Кукора. Екатеринбург - СПб.: Федеральное государственное бюджетное учреждение науки Институт экономики Уральского отделения Российской академии наук, 2017. 306 с.

3. Поспелов Д. А. Ситуационное управление: Теория и практика. М.: Наука. Гл. ред. физ.-мат. лит., 1986. 288 с.

4. Яковлева Е.А., Гаджиев М.М. Функциональная диагностика деятельности предприятий на основе теории адаптивного управления и анализа проблемных ситуаций в условиях информационно-сетевой экономики / Яковлева Е.А., Гаджиев М.М. // Управление экономическими системами: электронный научный журнал» 2018. № 3 (109). С. 26.

5. Fridman A. Cognitive Categorization in Hierarchical Systems under Situational Control // Proceedings of the 5th International workshop "Critical infrastructures: Contingency management, Intelligent, Agent-based, Cloud computing and Cyber security" (IWCI 2018). P.43-50. DOI: 10.2991/iwci-18.2018.8.

УДК 004.04

doi:10.18720/SPBPU/2/id20-139

Смолина Елена Михайловна1,

аспирант;

Черненькая Людмила Васильевна ,

доктор техн. наук, профессор

МЕТОДЫ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ В ЗАДАЧАХ ОЦЕНКИ КАЧЕСТВА ДЕЯТЕЛЬНОСТИ

ОРГАНИЗАЦИЙ

1 2

' Санкт-Петербургский политехнический университет Петра Великого,

Санкт-Петербург, Россия,

1smolensk9595@mail.ru

2

ludmila@qmd.spbstu.ru

Аннотация. В статье рассмотрены варианты применения методов data mining в различных сферах организационной деятельности, в том числе показано, как данная технология может использоваться для решения задач повышения качества деятельности организации. Изучено, насколько важно в настоящее время анализировать данные, накапливаемые организациями и насколько широко в настоящее время применимы методы интеллектуального анализа данных.

Ключевые слова: Интеллектуальный анализ данных, оценка качества деятельности организации, статистический анализ, data mining, математические методы интеллектуального анализа данных, управление качеством, задачи анализа данных.

Elena M. Smolina1,

Postgraduate student;

Liudmila V. Chernenkaya ,

Professor, Doctor of Technical Sciences

METHODS OF DATA MINING IN ANALYSIS TASKS OF QUALITY ASSESSMENT OF ORGANIZATION'S ACNIVITIES

1 2

Peter the Great St. Petersburg Polytechnic University, St. Petersburg, Russia,

1 smolensk9595@mail.ru, ludmila@qmd.spbstu.ru

Abstract. The paper describes variants of applying data mining techniques in various spheres of organizational activity. It shows how this technology can be used for improvement of quality of organization's activities. Today the important task is to analyze the many different data accumulated by organizations. Authors consider how widely the data mining methods are applied.

Keywords: intelligent data analysis, assessment of quality of organization's activities, statistical data analysis, data mining, mathematical data mining methods, quality management, data-analytics problems.

Введение

В настоящее время деятельность практически любой организации подразумевает использование автоматизированных средств и вычислительных машин. Некоторые из них могут целенаправленно использоваться для сбора данных определенного типа, другие подразумевают естественное приращение данных в процессе решения различных задач. По этой причине актуальным является решение проблем, связанных с накоплением, хранением и обработкой данных достаточно больших объемов, которые, более того, с каждым днем увеличиваются в размерах.

По прогнозам компании International Data Corporation (IDC) к 2025

году общий объем данных во всем мире вырастет до 175 зеттабайтов

21

(один зеттабайт - это 10 байтов). При этом 60% всей информации будут генерироваться коммерческими предприятиями путем сбора сведений о клиентах, банковских данных, бухгалтерских документов [1].

Обработка и хранение данных подразумевает не просто сохранение информации и ее преобразование, а также обеспечение безопасности хранения и передачи данных, передачу данных больших объемов по сети, извлечение новых знаний из имеющейся информации и др.

В связи с этим в сфере информационных технологий особую значимость приобретает интеллектуальный анализ данных (английский тер-

мин - data mining), который занимается исследованием всей области проблем, связанных с извлечением знаний из массивов данных разного типа. Однако интеллектуальный анализ данных может заниматься вопросами не только извлечения данных из различных источников, но также их консолидацией (обеспечением необходимого уровня информативности и качества, а также преобразованием к единому формату), профайлингом (проверкой качества данных и выявлением в них проблем), трансформацией (представлением в необходимом виде), предобработкой (подготовкой и приведением к требованиям, связанным со спецификой решаемой задачи), очисткой (исключением из данных различных факторов, снижающих их качество) и обогащением (насыщением новой информацией, которая делает данные ценными и значимыми для решения поставленной задачи).

Анализ данных в различных сферах деятельности

Сегодня организации различных сфер бизнеса нацелены на улучшение качества предлагаемых товаров и услуг, производственные предприятия нацелены на улучшение процессов изготовления и повышение качества продукции. Поэтому в задачах управления качеством во всех сферах человеческой деятельности все шире используются технологии интеллектуального анализа данных. Например, скоринговые системы в кредитных организациях; сегментация пользователей в ретейле, мобильной связи, системах массового онлайн обучения и др.; выявление ассоциативных правил для построения рекомендательных систем.

На производственных предприятиях необходимо также управлять качеством производимых изделий путем регулирования показателей качества. Это является важным аспектом, так как большинство процессов производства автоматизировано, вследствие чего повышается уровень качества производства и растет конкуренция среди производителей. Но в то же время всегда остается актуальной задача обеспечения, а также повышения качества продукции путем уменьшения брака, что в свою очередь повышает конкурентоспособность.

Правильно подобранные методы контроля и оценки уровня качества изготавливаемой продукции или оказанных услуг и проданных товаров позволят определить, как изменяются различные заданные показатели, когда выявляются дефекты в производстве или происходят отмены продаж в бизнес-сделках. Для подобных задач могут использоваться математические методы анализа данных, в том числе, основанные на анализе статистических показателей собранных данных. В таблице 1 приведены примеры решаемых задач в различных сферах деятельности.

Таблица 1

Примеры задач анализа данных по сферам деятельности

Сфера деятельности Примеры задач

Банковское дело анализ кредитоспособности клиента; сегментация клиентов; выявление мошенничества по банковским операциям; прогнозирование остатка на счете клиента;

Государственные направления поиск лиц, уклоняющихся от налогов; средства в борьбе с терроризмом;

Страхование сегментация клиентов для предложения услуг страхования;

Телекоммуникации определение лояльности клиентов и абонентов; выделение групп абонентов для предложения пакетов услуг; анализ миграции абонентов;

Call Mining распознавание речи и ее анализ;

Маркетинг поиск ответов на вопросы: «Что продается?», «Как продается?», «Кто потребитель?» ;

Промышленное производство контроль отклонений в работе технических процессов; анализ стабильности процесса производства;

Розничная торговля анализ потребительских корзин; секвенциальный анализ; анализ целевой аудитории; сегментация рынка;

CRM - Customer Relationship Management составление целостного представления о клиентах; анализ клиентской базы;

Фондовый рынок прогнозирование на рынке ценных бумаг;

Биоинформатика определения структур макромолекул;

Химия выявление специфических особенностей строения соединений;

Медицина построение диагностической системы; исследование эффективности хирургического вмешательства;

Фармацевтика анализ эффективности клинического применения препаратов; определение групп препаратов для групп пациентов

Молекулярная генетика или «Анализ данных в микромассивах» (Microarray Data Analysis, MDA). ранняя и более точная диагностика; подбор индивидуального вида лечения;

Web Mining определение интересов и предпочтений посетителей сайтов; анализ поведения;

Анализ данных образовательного процесса (Data mining in Education, EDM) анализ эффективности проведения дистанционного онлайн курса;

Web Content Mining поиск и извлечение необходимой информации из источников Интернет;

Text Mining семантический анализ текстов.

Математические задачи анализа данных

При решении задач с помощью интеллектуального анализа данных рассматривается некоторое множество объектов, обладающих определенными характеристиками [3]. Данное множество подлежит исследованию и анализу с целью обнаружения новых зависимостей между объектами и данными, которые их характеризуют. Формально каждая из задач конкретной сферы деятельности, приведенных в таблице 1, является решением математических задач классификации, кластеризации, поиска ассоциативных правил, анализа отклонений, а также применения статистический методов обработки данных, таких как: корреляционный анализ, методы вычисления средних значений, медианы, размаха вариаций и другие.

Среди всех задач наиболее популярной является задача классификации или нахождения правила, позволяющего определить объект к некоторому классу, который выбирается из множества заранее известных, на основе информации о том, к какому классу относятся другие объекты. Если при решении задач классификации устанавливается функциональная зависимость между входными и дискретными выходными переменными, то при решении задачи регрессии такую зависимость можно установить между входными и непрерывными выходным переменными [2]. То есть, в отличие от задачи классификации, при решении задачи регрессии определяется непрерывное числовое значение.

В отличие от задачи классификации в задаче кластеризации принадлежность объектов определяется к заранее неизвестным классам (кластерам), которые, в свою очередь, формируются на основе вычисления степени близости объединяемых объектов по совокупности заданных параметров [4]. Кластеризация является более точной, если объекты максимально схожи в пределах одного кластера и, в то же время, отличаются от объектов, входящих в другой кластер. Качество решения определяется количеством объектов, для которых кластер был верно определен. Задачу кластеризации иногда называют задачей сегментации.

Задача поиска ассоциаций заключается в выявлении между связанными событиями устойчивых закономерностей, указывающих, что из события X следует событие У («если X, то У»). Другими словами, можно сказать, что задача состоит в определении наиболее часто встречающихся наборов объектов в некотором большом множестве объектов.

Задача анализа последовательностей ассоциаций часто рассматривается авторами как вариант предыдущей задачи. В данном случае важно определить закономерность в последовательностях происходящих событий [4]. Подобные задачи называют секвенциальным анализом.

Кроме рассмотренных задач также решаются задачи поиска отклонений, которые заключаются в обнаружении и анализе данных, отличающихся от общего множества данных.

Оценка качества решений в анализе данных

Даже при наличии соответствующих программных средств и четко поставленной задачи, корректно выполненной предварительной обработки данных, получить обученную модель интеллектуального анализа данных может быть довольно сложной задачей. Важно получить качественную модель, которая достоверно и полно описывает особенности изучаемого процесса. Для задачи классификации используются различные меры для оценки качества: оценка точности классификации, оценка точности с учетом весов различных классов, использование площади под ROC-кривой и другие. Сложнее проанализировать качество полученной модели кластеризации, где заранее неизвестно, сколько и каких кластеров необходимо получить.

Из вышесказанного следует, что задача оценки качества решений, полученных путем применения при анализе данных методов как кластеризации, так и классификации часто является нетривиальной. При этом от выбора наилучшей модели из множества полученных зависит результат последующих исследований и результат решения поставленной задачи.

Заключение

По мере накопления данных, описывающих различные процессы в технических, экономических, социально-экономических системах, все шире используются технологии интеллектуального анализа данных. В рамках данного исследования была проанализирована и изучена возможность применения методов и технологий data mining для решения задач управления качеством в различных сферах организационной деятельности. Рассмотрены основные математические методы для решения описанных задач, а также необходимость оценки полученных моделей перед их дальнейшим использованием. В результате исследования сделаны выводы, что технологии интеллектуального анализа данных имеют широкое применение и могут использоваться для большого количества нерешенных задач в области управления качеством.

Список литературы

1. Reinsel D., Gantz J., Rydning J., The Digitization of the World: From Edge to Core // IDC White Paper, November 2018.

2. Волкова В.Н. Моделирование систем. Подходы и методы. Учебное пособие. / В.Н. Волкова и др., под ред. В.Н. Козлова. СПб.: СПбГПУ, 2013. 586 с.

3. Барсегян А.А. Методы и модели анализа данных: OLAP и Data Mining / А.А. Барсегян, М.С. Куприянов, В.В. Степаненко, И.И. Холод. СПб.: БХВ-Петербург, 2004. -336 с.

4. Нестеров С.А. Базы данных. Интеллектуальный анализ данных: учеб. пособие / С.А. Нестеров. СПб.: Изд-во Политехи. ун-та, 2011. 272 с.

i Надоели баннеры? Вы всегда можете отключить рекламу.