Научная статья на тему 'АНАЛИЗ СРЕДСТВ DATA MINING'

АНАЛИЗ СРЕДСТВ DATA MINING Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
132
31
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ / НЕЙРОННЫЕ СЕТИ / ДЕРЕВЬЯ РЕШЕНИЙ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Никулина Ю. В.

Технологии интеллектуального анализа данных представляют собой наиболее совершенный инструмент для решения сложных аналитических задач. Системы интеллектуального анализа данных имеют в основе мощный математический и статистический аппарат, грамотно используя который можно достигнуть значительных результатов в бизнесе. Выбор метода зависит главным образом от типа решаемой задачи, поставленной цели. Методы интеллектуального анализа данных значительно расширяют возможности специалистов различных областей, выявляют информативные показатели во время обработки больших объемов данных, позволяют тем самым решать конкретные задачи; дают возможность обнаруживать скрытые и неочевидные закономерности.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «АНАЛИЗ СРЕДСТВ DATA MINING»

Поддержка.

MySQL является зарегистрированным товарным знаком компании Oracle и официально поддерживается ей.

PostgreSQL поддерживается сообществом программистов по всему миру, насчитывающему в своих рядах сотни участников [2]. Вывод.

Проведя, краткий анализ основных характеристик СУБД MySQL и PostgreSQL, мы вправе сделать следующие выводы:

• Для мелкомасштабных решений - однозначным вариантом является MySQL по причине удобства и лёгкости администрирования.

• Для крупномасштабных решений - однозначный вариант - PostgreSQL, обеспечивающая мощную базу хранения больших объёмов данных, обширный функционал и простоту восстановления после сбоя, однако требующую хорошей подготовки администраторов.

• Для средних проектов однозначный ответ дать представляется возможным только при обладании сведениями об области применения, ключевых требованиях, а также располагаемых аппаратных ресурсах.

Использованные источники:

1. Postgre S QL vs My S QL, [Электронный ресурс], режим доступа -http://habrahabr.ru/company/mailru/blog/248845/, свободный, дата обращения 11.02.2015;

2. My S QL и Postgre S QL. Часть 1. Сравнительный анализ, [Электронный ресурс], режим доступа - http://www.ibm.com/developerworks/ru/Hbrary/os-mysql-postgresql/01/, свободный, дата обращения 11.02.2015;

3. DB-engines, [Электронный ресурс], режим доступа - http://db-engines.com/en/ranking, свободный, дата обращения 11.02.2015;

4. MySQL, [Электронный ресурс], режим доступа -https://ru.wikipedia.org/wiki/MySQL/, свободный, дата обращения 11.02.2015;

Никулина Ю. В. аспирант

Саратовский социально-экономический институт

РЭУ им. Г.В. Плеханова Россия, г. Саратов АНАЛИЗ СРЕДСТВ DATA MINING

Технологии интеллектуального анализа данных представляют собой наиболее совершенный инструмент для решения сложных аналитических задач. Системы интеллектуального анализа данных имеют в основе мощный математический и статистический аппарат, грамотно используя

который можно достигнуть значительных результатов в бизнесе.

Выбор метода зависит главным образом от типа решаемой задачи, поставленной цели. Методы интеллектуального анализа данных значительно расширяют возможности специалистов различных областей, выявляют информативные показатели во время обработки больших объемов данных, позволяют тем самым решать конкретные задачи; дают возможность обнаруживать скрытые и неочевидные закономерности.

Ключевые слова: интеллектуальный анализ данных, нейронные сети, деревья решений.

Разработка новых методов прогнозирования непосредственно связана с усовершенствованием информационных технологий, в первую очередь, с увеличением объемов хранимых данных и усложнением реализованных в инструментах Data Mining методов и алгоритмов прогнозирования.

Интеллектуальный анализ данных (англ. «Data Mining») - это совокупность математических моделей, численных методов, программных средств и информационных технологий, которые обеспечивают обнаружение в эмпирических данных доступной для интерпретации информации и синтез на основе этой информации ранее неизвестных, нетривиальных и практически полезных для достижения установленных целей знаний.

На сегодняшний день технологии интеллектуального анализа данных представляют собой наиболее совершенный инструмент для решения сложных аналитических задач. Важно уточнить, что технологии Data Mining не имеют в распоряжении собственный уникальный математический аппарат и программный инструментарий, лишь только объединяют разнообразные математические методы и системы искусственного интеллекта [4].

Системы интеллектуального анализа данных имеют в основе мощный математический и статистический аппарат, грамотно используя который можно достигнуть значительных результатов в бизнесе.

Необходимо отметить, что долгое время остававшаяся центральным инструментом анализа данных традиционная математическая статистика, так же как и средства оперативной аналитической обработки данных (online analytical processing, OLAP), часто в силу своей ограниченности не могут успешно использоваться для решения подобных задач. Как правило, статистические методы и OL P применяются установления достоверности имеющихся гипотез [1]. Но как показывает практика, наиболее трудной задачей при реализации бизнес-анализа для последующего принятия решений становится именно формулировка гипотезы, так как невозможно выявить с первого взгляда многие закономерности в данных.

Технология Data Mining основывается на концепции шаблонов, которые отражают закономерности, характерные подвыборкам данных. Поиск шаблонов совершается методами, которые не используют априорных предположений об исследуемых подвыборках.

Существенной особенностью интеллектуального анализа данных является неочевидность и нестандартность разыскиваемых шаблонов. Таким образом, главным отличием средств Data Mining от инструментов статистической обработки данных и средств OLAP является способность самостоятельно обнаруживать взаимозависимости и строить гипотезы об их характере на основании имеющихся данных вместо проверки заранее предполагаемых пользователями взаимозависимостей [2].

Выделяют четыре класса содержательных задач, решаемых методами Data Mining, т.е. построение правил, по которым каждому объекту (процессу или явлению) предметной области, описанному определенным набором фактов из хранилища данных, соответствует определенное значение (имя класса): классификация - значение дискретной переменной (классификатора); регрессия - значение непрерывной переменной (регрессора), в том числе прогнозирование - установление зависимости выходных от входных переменных; кластеризация (разбиение на группы) -объекты из одного кластера в определенном смысле более похожи друг на друга, чем объекты из разных кластеров; ассоциация - построение ассоциативного правила, позволяющего описать связь между двумя или более событиями, происшедшими одновременно или в течение определенного промежутка времени [6, с. 401].

Можно выделить следующие методы интеллектуального анализа данных: Text Mining, метод деревьев решений, метод статистики Байеса.

Технология Text Mining представляет собой одну из разновидностей методов Data Mining и подразумевает процессы извлечения знаний и высококачественной информации из текстовых массивов. Это обычно происходит посредством выявления шаблонов и тенденций с помощью средств статистического изучения шаблонов.

Для проведения семантического анализа текстов, информационного поиска и управления Text Mining включает в себя новые методы. Для обозначения понятия Text Mining используют также термин Knowledge Discovering in Text (KDT, с англ. поиск или выявление знаний в тексте) [5, с. 82]. Технология глубинного анализа текстов анализирует большие и сверхбольшие массивы неструктурированной информации. Технология Text Mining способна исследовать большие объемы неструктурированной информации и выявлять из них необходимые сведения.

Таким образом, Text Mining представляет собой набор лингвистических, статистических техник, а также техник машинного самообучения, которые способны моделировать и структурировать информационный контент и текстовые источники в целях бизнес-аналитики, анализа данных, исследований. Эти технологии, отдельно либо совместно с другими средствами, используются в корпоративной практике управления знаниями для решения тех или иных бизнес-проблем. Известно, что около восьмидесяти процентов важной для бизнеса информации существует в

неструктурированной текстовой форме. Вышеперечисленные технологии позволяют извлечь из этих данных ценные знания - факты, бизнес-правила, взаимосвязи - которые невозможно получить какими-либо иными автоматизированными средствами.

Метод деревьев решений (decision trees) представляет собой один из наиболее часто используемых методов для решения задач прогнозирования и классификации. Другое название этого метода интеллектуального анализа данных - деревья решающих правил, деревья классификации и регрессии [5, с. 97].

Впервые этот метод был предложен Ховилендом и Хантом (Hoveland, Hunt) в конце 50-х годов XX века.

Дерево решений - это классификатор, представляющий иерархическую структуру знаний о классах объектов предметной области. Дерево решений может быть построено в результате заполнения базы знаний экспертной системы путем извлечения знаний экспертов или статистической обработки обучающего материала, содержащего объекты, их характеристики, а также наименования классов, к которым они принадлежат [6, с. 400].

Основная идея использования метода деревьев решений представляет собой последовательное разделение обучающего множества на основе значений выбранного атрибута, вследствие чего создается дерево, которое содержит: определяющие имена классов терминальные узлы (узлы ответа); нетерминальные узлы (узлы решения), содержащие тест для установленного атрибута с ответвлением к поддереву решений для каждого значения этого атрибута [3].

Таким образом, дерево решений обуславливает классификационную процедуру естественным образом: каждый объект имеет связь с единственным терминальным узлом. Эта связь возникает с корня, проходит путь по дугам, имеющим в соответствии значения атрибутов, и достигает терминального узла с именем класса.

Поскольку исходные данные для индукции часто бывают зашумлены, наилучшим решением с точки зрения прогностической точности является не полное дерево решений, объясняющее все примеры обучающего множества, а упрощенное, в котором некоторые поддеревья свернуты в терминальные узлы. Процесс удаления лишних ветвей или подрезание (pruning) построенного полного дерева позволяет избежать переобученности (overfitting), то есть избыточного усложнения, которое может оказаться следствием излишне буквального следования зашумленным данным [3].

После подрезания дерева его различные терминальные узлы оказываются на разных уровнях, то есть путь к ним включает разное количество проверок значений атрибутов; другими словами, для прихода в терминальные узлы, лежащие на высоких уровнях дерева, значения многих атрибутов вообще не рассматриваются. Поэтому при построении деревьев

решений порядок тестирования атрибутов в узлах решения имеет решающее значение.

Поиск решения начинается с корня дерева. В каждом узле проверяется выполнение логического условия для рассматриваемого объекта. Затем осуществляется переход к следующему узлу, для которого логическое условие является истинным, до тех пор, пока не будет обнаружен класс, соответствующий объекту.

Главным преимуществом деревьев решений является их интуитивность. Полученная модель существенно упрощает понимание решаемой задачи благодаря тому, что легко трактуется пользователем. Эта особенность деревьев решений важна как при причислении к определенному классу нового объекта, так и в целом при толковании модели классификации. Дерево решений делает возможным интерпретировать основания отнесения конкретного объекта к тому или иному классу. Деревья решений позволяют извлекать правила из базы данных на естественном языке. Таким образом, в тех отраслях, где эксперту затруднительно формализовать знания, деревья решений дают возможность образовывать классификационные модели [5, с. 100].

Алгоритм конструирования дерева решений предъявляет пользователю требование выбора входных атрибутов (независимых переменных). Таким образом, пользователь имеет возможность подать все существующие атрибуты на вход алгоритма, а затем алгоритм самостоятельно определит наиболее значимые среди них, и только они будут применены для построения дерева.

Основная часть алгоритмов конструирования деревьев решений предлагают пользователю специально обработать входные данные при наличии в них пропущенных значений.

Большинство классических статистических методов, решающих задачи классификации, могут использоваться только с числовыми данными, тем временем, деревья решений работают и с количественными, и с категориальными типами данных. В отличие от многих других параметрических методов, применяя которые пользователю необходимо заранее обладать некоторой информацией, например, располагать гипотезой о виде зависимости между переменными, предполагать вид модели, учитывать, какой вид распределения имеют данные, деревья решений создают непараметрические модели.

Таким образом, деревья решений способны решать такие задачи интеллектуального анализа данных, с отсутствующей априорной информацией о виде зависимости между анализируемыми данными.

Используемая сейчас в качестве одного из методов Data Mining байесовская классификация, в первую очередь применялась в экспертных системах для формализации знаний экспертов.

Одна из основных теорем теории вероятностей, которая определяет вероятность наступления события в условиях, когда на основе наблюдений известна лишь некоторая частичная информация о событиях - формула Байеса. По формуле Байеса можно более точно пересчитывать вероятность, беря в учет как ранее известную информацию, так и данные новых наблюдений.

Предположим, что событие В может произойти с одним и только с одним из п попарно несовместных событий (гипотез) Н1,... ,Нп образующих полную группу. Будем эти события называть гипотезами. Справедлива формула полной вероятности

п

р( В ) = ^р( в / н 0р( н 0, ( 1 6)

1=1

где р( В / Н ¡) - вероятность появления события В при условии, что произошло событие Н , а р( Н ¡) - априорная вероятность И .

В тесной связи с формулой полной вероятности находится формула Байеса. Пусть произведен опыт, и в результате него поступило событие В Р(В)>0, при этом нам известны вероятности (априорные вероятности) гипотез Н ({Н1,... ,Нп} некоторое разбиение пространства О с р( Н ¡) > 0 ) [6, с. 69].

Тогда по формуле Байеса определяется апостериорная вероятность гипотезы И:

, ч р(в/н)р(но

р( н */ В) = р( р (в р( ( 1 7)

Используя формулу полной вероятности, записываем:

р(В/Н;)р(Н0

р( Н ^'вйбргя^- ( 1 8)

Таким образом, метод позволяет пересматривать мнение о распределении вероятностей на некотором пространстве в случае получения новой информации.

Формулу Байеса можно обобщить на вероятностные меры, привлекая понятие функции плотности распределения [6, с. 70]:

^х/е)

К е /х)=-^ь 0( е ), ( 1 9)

где 1(Х/ е ) - плотность условного распределения случайной величины X при данном значении е е 0 (в математической статистике функция правдоподобия), И 0( е ) - априорная плотность распределения случайной величины 0

§(Х) = | Г(х/е )Ь о( е )а е. ( 2 о )

Идеология именно байесовского способа операционализации априорной информации об изучаемом процессе основана на двух принципах: а) степень «разумной уверенности» исследователя в справедливости

некоторого утверждения (напр., утверждения относительно возможного значения оцениваемого параметра модели) численно выражается в виде вероятности; это означает, что вероятность в байесовском подходе интерпретируется в рамках субъективной школы теории вероятностей; б) априорная информация об оцениваемом параметре модели предоставлена исследователю в виде некоторого априорного распределения вероятностей этого параметра, которое отражает степень уверенности исследователя в том, что оцениваемый параметр примет то или иное значение еще до использования исходных статистических данных. По мере поступления этих данных исследователь уточняет (пересчитывает) с помощью формулы Байеса это распределение к апостериарному [6, с. 83].

Байесовская классификация заключается в отнесении объектов к определенным классам, при котором минимизируется байесовский риск

^Цк 5 й )р( 5 й ), ( 2 1 )

1 )

компонентами которого являются стоимость (риск) г( 5 1, ^ ) отнесения ^го объекта к ьму классу и вероятность такой ситуации. При простой функции стоимости

,- 1 П р И Sj=S i, is pSj) = { Л ( 2 2 )

v i jy '0 пр и Sj ф si, v j

минимизация байесовского риска эквивалентна максимизации вероятности правильной классификации объектов, равной сумме произведений вероятности появления объекта i-го класса (равной доле этих объектов в общей их совокупности) h и условной вероятности правильного его отнесения к i-му классу P(Sj |s i) [6, с. 82]. k

P(Sj|s i). ( 2 3 )

i = 1

Правила байесовской классификации с определенными ограничениями реализуются в виде параметрических процедур дискриминантного анализа и классификации на основе расщепления смесей унимодальных распределений. Они находят широкое применение и в непараметрических процедурах классификации, таких как метод парзеновского окна, метод ближайших соседей и других.

Использованные источники:

1. Барсегян А.А., Куприянов М.С., Степаненко В.В., Холод И.И. Технологии анализа данных. Data Mining, Visual Mining, Text Mining, OLAP - СПб.: Изд. БХВ-Петербург, 2008. - 384 с.

2. Дюк В., Самойленко А. Data Mining: учебный курс. - СПб.: «Питер», 2001.

3. Нейский И. М. Характеристика технологий и процессов интеллектуального анализа данных // Интеллектуальные технологии

и системы. Сб. учебно-методических работ и статей аспирантов и студентов. Вып. 7. М.: Изд-во ООО «Эликс+», 2006. - С. 111-122

4. Паклин Н. Б., Орешков В. И. Бизнес-аналитика: от данных к знаниям. Учебное пособие. - 2-е изд., испр. - СПб.: Питер, 2013. -704 с.

5. Чубукова И. А. Data Mining: учебное пособие. — М.: Интернет-университет информационных технологий: БИНОМ: Лаборатория знаний, 2006. — 382 с.

6. Энциклопедия статистических терминов. В 8 т. Т. 2. Инструментальные методы статистики [Электронный ресурс] / Федеральная служба государственной статистики. - М., 2013. URL: http://www.gks.ru/free_doc/new_site/rosstat/stbook11/tom2.pdf (Дата обращения: 08.05.2013).

Патрикеева Н.В. директор по консалтингу IBS Group Бабешко В.Н., к.тн.

доцент НИТУ «МИСиС» ведущий консультант IBS Group Логинов К.Е. руководитель проектов IBS Group Воякин Е.А. директор проектов IBS Group Россия, г. Москва

РАЗРАБОТКА И ПЕРСПЕКТИВЫ ИСПОЛЬЗОВАНИЯ КОНЦЕПТ-МОДЕЛи ЭЛЕКТРОННЫХ ЦЕНТРОВ ИНЖЕНЕРНО-ТЕХНИЧЕСКОГО ТВОРЧЕСТВА И ОБУЧЕНИЯ ДЕТЕЙ

Аннотация. В статье описана авторская концепт-модель электронных центров инженерно-технического творчества и обучения детей, включая эталонный набор информационных сервисов, виртуальных лабораторий и электронных образовательных ресурсов. Концепт-модель разработана на основе анализа отечественного и зарубежного опыта образования детей исследовательской, инженерной, технической, конструкторской направленности с акцентом на техническое творчество при помощи информационных технологий с учетом анализа современных подходов к привлечению пользователей, повышению их вовлеченности в решение прикладных задач и использование продуктов при помощи средств игрофикации, с акцентом на применимость данных средств к детям и молодежи. Работы выполнены в рамках проекта «Создание моделей центров

i Надоели баннеры? Вы всегда можете отключить рекламу.