Научная статья на тему 'Data Mining и метод нейронных сетей'

Data Mining и метод нейронных сетей Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
2406
321
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ / DATA MINING / НЕЙРОННЫЕ СЕТИ / ОБНАРУЖЕНИЕ ЗНАНИЙ / INTELLECTUAL ANALYSIS / NEURAL NETWORKS / KNOWLEDGE DETECTION

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Тришечкин Сергей Николаевич

Рассматривается метод интеллектуального анализа данных для выполнения задачи аналитической обработки массивов данных и выявления нетривиальных, ранее неизвестных закономерностей, тенденций и свойств с целью обнаружения практически полезных знаний в базах данных. Одним из методов интеллектуального анализа данных является метод нейронных сетей, применяемый для обработки данных, прогнозирования и кластеризации. Нейронные сети позволяют решать различные неформализованные задачи обработки данных, прогнозирования и кластеризации неструктурированных данных без предварительного формулирования гипотез.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Тришечкин Сергей Николаевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

DATA MINING AND NEURAL NETWORK METHOD

The data mining method is considered to accomplish the task of analytic processing of data sets and identifying nontrivial, previously unknown patterns, trends and properties in order to detect practically useful knowledge in databases. One of the methods of data mining is the neural network method used for data processing, forecasting and clustering. Neural networks allow solving various non-formalized data processing, forecasting and clustering tasks for unstructured data without first formulating hypotheses.

Текст научной работы на тему «Data Mining и метод нейронных сетей»

посетить разные города. Соревнования по робототехнике проводят в разных категориях. Классические можно выделить следующие: «Городки» - необходимо сбить построенные конструкции, очень похоже на игру Angry Birds, только там птички пытаются разрушить; «Сумо» -одна из самых интересных, особенно малышам нравятся, здесь нужно вытолкнуть противоположного робота из ринга; «Лабиринт» - категория с практической значимостью, роботу за короткое время необходимо найти выход из лабиринта; «Шорт-трек» - не менее популярная категория чем «Сумо», в ней необходимо очень быстро пройти заданную траекторию. Конечно, категорий для участия много, и всех их не перечесть. Кроме этого на каждых соревнованиях есть творческое направление, где можно дать полет фантазии. Например, можно встретить от радующих глаз танцующих роботов или собирающих кубик Рубика, до совершенно не игрушечных, решающих бытовые проблемы и автоматизирующих работу по дому роботов. Сейчас это направление модно называть «умный дом».

В каждом регионе есть свои соревнования по робототехнике. Возможно, вам знакомы такие соревнования, как Робопром или Профест. Если нет, то о Всероссийской (Всемирной) робототехнической олимпиаде (ВРО) [4] уж точно знаете. Эта самая значимая и популярная олимпиада. Она проводится в несколько этапов: от регионального до международного, поэтому ее знают по всему миру.

Таким образом, робототехника популярна, как в России, так и по всему миру, благодаря своей значимости. Роботы используются в разных областях, особенно в тех, где человеку сложно, или даже невозможно что-либо сделать. Кроме этого она прививает любовь к технике, инженерному делу и развивает техническое мышление. Робототехникой занимаются как малыши, так и серьезные взрослые дяди, ведь это не только полезно, но и весело!

Список литературы / References

1. Википедия. [Электронный ресурс]. Режим доступа: https://ru.wikipedia.org/wiki/Робот/ (дата обращения: 01.04.2019)

2. Применение роботов в мире. [Электронный ресурс]. Режим доступа: https://robo-sapiens.ru/stati/primenenie-robotov-v-sovremennom-mire/ (дата обращения: 01.04.2019)

3. Японские роботы: достижения робототехники страны восходящего солнца. [Электронный ресурс]. Режим доступа: https://robo-sapiens.ru/stati/yaponskie-robotyi/ (дата обращения: 01.04.2019).

4. Всероссийская робототехническая олимпиада. [Электронный ресурс]. Режим доступа: http://robolymp.ru/ (дата обращения: 01.04.2019).

DATA MINING И МЕТОД НЕЙРОННЫХ СЕТЕЙ Тришечкин С.Н. Email: [email protected]

Тришечкин Сергей Николаевич — студент, кафедра информационных технологий, Донской государственный технический университет, г. Ростов-на-Дону

Аннотация: рассматривается метод интеллектуального анализа данных для выполнения задачи аналитической обработки массивов данных и выявления нетривиальных, ранее неизвестных закономерностей, тенденций и свойств с целью обнаружения практически полезных знаний в базах данных. Одним из методов интеллектуального анализа данных является метод нейронных сетей, применяемый для обработки данных, прогнозирования и кластеризации. Нейронные сети позволяют решать различные неформализованные задачи обработки данных, прогнозирования и кластеризации неструктурированных данных без предварительного формулирования гипотез.

Ключевые слова: интеллектуальный анализ, Data Mining, нейронные сети, обнаружение знаний.

DATA MINING AND NEURAL NETWORK METHOD Trishechkin S.N.

Trishechkin Sergey Nikolaevich — Student, DEPARTMENT INFORMATION TECHNOLOGY, DON STATE TECHNICAL UNIVERSITY, ROSTOV-ON-DON

Abstract: the data mining method is considered to accomplish the task of analytic processing of data sets and identifying nontrivial, previously unknown patterns, trends and properties in order to detect practically useful knowledge in databases. One of the methods of data mining is the neural network method used for data processing, forecasting and clustering. Neural networks allow solving various non-formalized data processing, forecasting and clustering tasks for unstructured data without first formulating hypotheses.

Keywords: intellectual analysis, Data Mining, neural networks, knowledge detection.

УДК 004.89

Введение

Развитие технологий баз данных и систем управления базами данных способствуют неуклонному увеличению объема накапливаемой и хранимой информации. Эти данные содержат много важной информации, которая имеет большой потенциал для использования. Многие компании используют технологию интеллектуального анализа данных для обработки массивов данных и извлечения из них полезной информации.

Интеллектуальный анализ данных выполняет задачу выявления скрытых правил и шаблонов в наборах данных. Первоначально использование нейронных сетей в интеллектуальном анализе данных вызывало скептическое отношение из-за недостатков, присущих нейронным сетям: сложной структуры, плохой интерпретируемости и долгого времени обучения. Однако их преимущества, такие как высокая устойчивость к шумным данным и низкий уровень ошибок, постоянное улучшение и оптимизация различных алгоритмов обучения сети, алгоритм извлечения правил, алгоритм упрощения сети, делают нейронные сети все более и более перспективным направлением.

Интеллектуальный анализ данных

В связи с бурным ростом информационного общества компании активно внедряют различные средства цифровой обработки баз данных, стремясь повысить уровень прибыльности и эффективности бизнеса. В результате работы подобных информационных систем на серверах организаций хранятся колоссальные объёмы потенциально полезных данных. Применяя технологии Data Mining можно выявить неочевидные, неожиданные тенденции и скрытые знания, о существовании которых даже не предполагалось.

Определение технологии Data Mining ввёл основатель интеллектуального анализа Григорий Пятецкий-Шапиро в 1992 году. Согласно его определению Data Mining - это процесс обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных, доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Дословный перевод - «раскопки (или добыча) данных» [1].

Интеллектуальный анализ данных является методом обнаружения ранее неизвестных закономерностей, тенденций и свойств в больших наборах данных. Методы Data Mining основаны на различных научных дисциплинах, таких, как статистика, искусственный интеллект, теории баз данных, алгоритмизация, визуализация и др. Модель технологии Data Mining должна иметь возможность самостоятельно обнаруживать в данных скрытые закономерности и приобретать необходимые свойства для их отражения. Подобные модели имеют название - обучаемые, а комплекс методов для создания таких моделей называется - машинным обучением [2].

Понятие интеллектуального анализа данных обозначает не конкретную технологию, а сам процесс поиска корреляций, тенденций, взаимосвязей и закономерностей с помощью применения математических и статистических алгоритмов, таких как: кластеризация, создание выборок, регрессионный и корреляционный анализ. Результатом данного поиска должны выступать данные, представленные в виде, чётко отражающем бизнес-процессы, а также модель данных, предназначенная для прогнозирования процессов, критичных для планирования бизнеса [3].

Data Mining является частью процесса Knowledge Discovery in Databases (KDD), данный термин обозначает выявление знаний в базах данных и описывает последовательность действий, необходимых для построения модели. Этими знаниями могут быть правила, описывающие связи между свойствами данных (деревья решений), часто встречающиеся шаблоны (ассоциативные правила), а также результаты классификации (нейронные сети) и кластеризации данных (карты Кохонена) и т.д.

Процесс Knowledge Discovery in Databases, состоит из следующих шагов:

1. Подготовка исходного набора данных. Создаётся набор данных из различных источников, формируется обучающая выборка.

2. Предобработка данных. Для эффективного применения методов Data Mining следует корректно подготовить данные. Необходимо проверить данные на наличие пропусков, шумов, аномальных значений. Кроме того, данные могут быть избыточны, недостаточны и т.д.

3. Трансформация, нормализация данных. Приведение данных к пригодному для последующего анализа виду.

4. Data Mining. Применение различных алгоритмов для нахождения связей и закономерностей. Могут применяться нейронные сети, деревья решений, алгоритмы кластеризации, установления ассоциаций и т.д.

5. Постобработка данных. Интерпретация результатов и практическое применение полученных знаний.

Выявленные закономерности и тренды можно собрать в единую модель интеллектуального анализа данных и применять для развития следующих сценариев:

• Классификация. Выявление признаков, позволяющих отнести объект к определённому классу.

• Кластеризация. Задача, позволяющая группировать объекты в заранее неизвестные классы.

• Ассоциация. Поиск закономерностей в событиях.

• Выявление последовательностей. Выявление закономерностей, связанных временным постоянством.

• Прогнозирование. Выявление зависимости выходных данных от входных переменных.

• Визуализация. Графическое представление анализируемой информации.

Выделяют 7 групп инструментов Data Mining [4]:

• Инструменты DM (DMFT — Data Mining Field Tools) — данные инструменты направлены на особую прикладную область.

• Инструменты для бизнес-аналитики (DMBT — Data Mining Business Tools) — не ориентированы на работу с задачами Data Mining, но поддерживают методы интеллектуальной обработки данных.

• Инструменты DM (RDMT — Research Data Mining Tools) — данные инструменты используются для разработки новых экспериментальных алгоритмов и методов интеллектуальной разработки данных.

• Математические пакеты (DMMP — Data Mining Mat Package) — данные пакеты не были ориентированы для Data Mining, но они содержат огромное количество алгоритмов и методов, которые позволяют осуществлять функции интеллектуального анализа данных.

• Инструменты DM (SDMT — Specialties Data Mining Tools) — данные инструменты используются для определенных видов или методов интеллектуальной обработки данных.

• Интеграционные пакеты (IDMT- Integration Data Mining Tool) — наборы алгоритмов, образующих либо отдельные программные средства, либо пакеты расширения.

• «Наборы» интеллектуальной обработки данных (DMST — Data Mining Suite Tools) — поддерживают целый спектр алгоритмов и методов интеллектуальной обработки данных. Ориентированы на работу с различными структурированными и неструктурированными данными.

Метод нейронных сетей в Data Mining

Искусственные нейронные сети - математические модели, а также их программные или аппаратные реализации, построенные по принципу организации и функционирования биологических нейронных сетей [5].

Нейронные сети, как инструмент анализа данных обрели свой первоначальный вид в 1943 году в работе Уоррена Мак-Каллока и Вальтера Питтса, содержащей модель искусственного нейрона. [6]. Авторы выдвинули гипотезу математического нейрона, способного моделировать нейрон мозга человека. Данный нейрон так же имеет несколько входов и один выход. Выходной сигнал нейрона может иметь два значения - нуль или один.

Искусственные нейронные сети заимствуют принципы работы головного мозга, это означает, что знания и процессор не разделены, а находятся в равномерно распределённом состоянии, неявно существуя в виде синаптических связей [7]. Подобные знания изначально отсутствуют и приобретаются в процессе обучения.

Нейронные сети представляют собой совокупность математических методов, применяемых для обработки данных, прогнозирования и кластеризации [8].

Модель нейронной сети можно разделить на три типа:

1) сети прямого распространения (обратное распространение): применяется в таких областях, как прогнозирование и распознавание образов;

2) сети с обратной связью: в основном используется для оптимизации вычислений и ассоциативной памяти;

3) самоорганизующиеся сети: включают модели теории адаптивного резонанса (АРТ) и модели Кохонена, в основном используемые для кластерного анализа.

В настоящее время для анализа данных используется нейронные сети прямого распространения. Искусственные нейронные сети являются активно развивающейся областью науки, но до сих пор некоторые теории не были полностью сформированы, такие как проблемы сходимости, устойчивости, локального минимума и корректировки параметров. Для сети прямого распределения общих проблем - обучение медленное, оно может попасть в локальный минимум и сложно определить параметры обучения. Ввиду этих проблем многие перешли на метод комбинирования искусственных нейронных сетей с генетическими алгоритмами и достигли лучших результатов.

Одним из основных преимуществ нейронных сетей является возможность аппроксимировать любую непрерывную функцию, что позволяет исследователю заранее не принимать никаких гипотез о модели. К существенным недостаткам нейронных сетей относится тот факт, что окончательное решение зависит от начальных настроек сети, и его практически невозможно интерпретировать в традиционных аналитических терминах. Заключение

Основным преимуществом использования нейронных сетей является возможность решения различных неформализованных задач. В то же время можно очень просто моделировать различные ситуации, подавая различные данные на вход сети и оценивая результаты, создаваемые сетью.

При использовании нейронных сетей был отмечен существенный недостаток: сложность понимания процесса получения результата сетью. Первым шагом к устранению этой проблемы является разработка новой технологии, которая позволяет генерировать описание процесса решения проблемы с помощью нейронной сети. Используя таблицу экспериментальных данных, описывающих предметную область, можно будет получить явный алгоритм решения задачи.

Из рассмотренных типов анализа данных на основе нейронных сетей можно сказать, что нейронные сети являются незаменимым инструментом для интеллектуального поиска и извлечения знаний, поскольку они способны обнаруживать существенные особенности и скрытые закономерности в анализируемых индикаторах.

Список литературы / References

1. Frawley W., Piatetsky-Shapiro G., Matheus C. Knowledge Discovery in Databases: An Overview. AI Magazine, 1992. Р. 213-228.

2. Паклин Н.Б., Орешков В.И. Бизнес-аналитика от данных к знаниям. СПб.: Питер ISBN, 2016. 706 с.

3. Макарычев П.П., Афонин А.Ю. Оперативный и интеллектуальный анализ данных: учеб. пособие. Пенз : Изд-во ПГУ, 2010. 156 с.

4. Мулюкова К.В. Сравнительный анализ современных инструментов Data Mining // Молодой ученый, 2019. №1. С. 19-21.

5. Романов В.П. Интеллектуальные информационные системы в экономике: Учебное пособие / Под ред. д. э. н., проф. Н.П. Тихомирова. М.: Издательство «Экзамен», 2003. 496 с.

6. McCulloch W.S. and Pitts W. A logical Calculus of Ideas Immanent in Nervous Activity // Bull. Mathematical Biophysics, 1943. Vol. 5. P. 115-133.

7. Ясницкий Л.Н. Введение в искусственный интеллект: Учеб. пособие для вузов. М.: Изд. центр «Академия», 2005. 176 с.

8. Дебок Г., Кохонен T. Анализ финансовых данных с помощью самоорганизующихся карт: Пер. с англ. М.: Альпина, 2001. 317 с.

9. Дюк В.А., Флегонтов А.В., Фомина И.К. Применение технологий интеллектуального анализа данных в естественнонаучных, технических и гуманитарных областях // Известия РГПУ им. А.И. Герцена, 2011. № 138.

i Надоели баннеры? Вы всегда можете отключить рекламу.