Научная статья на тему 'СРЕДСТВА ИНТЕЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ В MICROSOFT SQL SERVER'

СРЕДСТВА ИНТЕЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ В MICROSOFT SQL SERVER Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
41
19
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
MICROSOFT SQL SERVER / ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ / OLAP / DATA MINING / TAGS: MICROSOFT SQL SERVER

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Аверьянова Е.В.

В статье написаны возможности SQL SERVER по проведению интеллектуального анализа данныхThe article describes the features of SQL SERVER to conduct data mining

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «СРЕДСТВА ИНТЕЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ В MICROSOFT SQL SERVER»

ИНФОРМАЦИОННЫЕ И КОММУНИКАТИВНЫЕ

ТЕХНОЛОГИИ

УДК 001.201

Аверьянова Е.В. магистрант

кафедра «Прикладная информатика в экономике» Поволжский государственный университет сервиса

Малышева Е.Ю. научный руководитель Россия, г. Тольятти СРЕДСТВА ИНТЕЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ В

MICROSOFT SQL SERVER Ключевые слова: Microsoft SQL Server, интеллектуальный анализ данных, OLAP, Data Mining, Data Mining

В статье написаны возможности SQL SERVER по проведению интеллектуального анализа данных

MEANS DATA MINING MICROSOFT SQL SERVER

Tags: Microsoft SQL Server, data mining, OLAP, Data Mining, Data Mining The article describes the features of SQL SERVER to conduct data mining

Microsoft SQL Server предоставляет интегрированную среду для создания моделей Data Mining и работы с ними. Средства анализа данных OLAP и Data Mining объединены в две среды разработки: Business Intelligence Development Studio и SQL Server Management Studio. В Business Intelligence Development Studio можно создавать отсоединенные от сервера проекты. В этом случае готовый проект можно загрузить на сервер, но ничто не мешает работать с проектом, работающим с сервером напрямую.

Все средства для управления моделями Data Mining доступны в редакторе моделей. С его помощью можно создавать, просматривать, сравнивать разные модели, а также создавать на их базе прогнозы.

После создания модели можно провести ее анализ на предмет выявления интересных для нас шаблонов (паттернов) и правил. В зависимости от применяемого алгоритма в среде разработки используется различные представления просматриваемой модели.

Поскольку зачастую проект содержит несколько моделей Data Mining, то возникает задача определения наиболее адекватной из них. Для решения этой задачи в редакторе присутствует средство сравнения моделей Mining Accuracy Chart. С использованием этого инструмента можно предсказать точность модели и выбрать лучшую их них.

Для создания прогнозов используется язык Data Mining Extensions (DMX), который является расширением SQL и содержит команды для создания,

изменения и осуществления предсказаний на основании различных моделей. Создание таких прогнозов может быть сложной задачей, поэтому в редакторе присутствует инструмент под названием Prediction Query Builder, которых представляет собой визуальное средство создания DMX-запросов. Кроме инструментария для работы с моделями, не менее значимыми являются и способы создания моделей. Ключевым моментом создания модели является выбор алгоритма обнаружения данных. SQL Server Analysis Services включает в себя следующие девять алгоритмов:

• Дерево решений (Microsoft Decision Trees)

• Кластеризация (Microsoft Clustering)

• "Наивный" Байес (Microsoft Na?ve Bayes)

• Кластеризация последовательностей (Microsoft Sequence Clustering)

• Временные ряды (Microsoft Time Series)

• Ассоциативные правила (Microsoft Association)

• Нейронная сеть (Microsoft Neural Network)

• Линейная регрессия (Microsoft Linear Regression)

• Логистическая регрессия (Microsoft Logistic Regression) Используя комбинацию этих алгоритмов можно создавать решения для большей части встречающихся задач по обнаружению скрытых закономерностей в больших объемах данных.

Наиболее важные шаги создания модели Data Mining состоят в получении, объединении, очистке и предобработке данных для дальнейшего использования алгоритмом. В состав SQL Server входят средства преобразования данных - SQL Server Integration Services (SSIS), которые позволяют объединять, очищать, проверять и проводить предварительную обработку данных.

Рынок систем Data Mining экспоненциально развивается. В этом развитии принимают участие практически все крупнейшие корпорации. В частности, Microsoft непосредственно руководит большим сектором данного рынка (издает специальный журнал, проводит конференции, разрабатывает собственные продукты).

Системы Data Mining применяются по двум основным направлениям:

1. как массовый продукт для бизнес-приложений;

2. как инструменты для проведения уникальных исследований (генетика, химия, медицина и пр.).

В настоящее время стоимость массового продукта от $1000 до $10000. Количество инсталляций массовых продуктов, судя по имеющимся сведениям, сегодня достигает десятков тысяч. Лидеры Data Mining связывают будущее этих систем с использованием их в качестве интеллектуальных приложений, встроенных в корпоративные хранилища данных.

Несмотря на обилие методов Data Mining, приоритет постепенно все более смещается в сторону логических алгоритмов поиска в данных if-then правил. С их помощью решаются задачи прогнозирования, классификации, распознавания образов, сегментации БД, извлечения из данных "скрытых" знаний, интерпретации данных, установления ассоциаций в БД и др. Результаты таких алгоритмов эффективны и легко интерпретируются. Вместе с тем, главной проблемой логических методов обнаружения закономерностей является проблема перебора вариантов за приемлемое время. Известные методы либо искусственно ограничивают такой перебор (алгоритмы КОРА, WizWhy), либо строят деревья решений (алгоритмы CART, CHAID, ID3, See5, Sipina и др.), имеющих принципиальные ограничения эффективности поиска if-then правил. Другие проблемы связаны с тем, что известные методы поиска логических правил не поддерживают функцию обобщения найденных правил и функцию поиска оптимальной композиции таких правил. Удачное решение указанных проблем может составить предмет новых конкурентоспособных разработок.

Использованные источники:

1. Библиотека MSDN (по-русски) [Электронный ресурс]. - Электрон. дан. -2010. - Режим доступа: http://msdn.microsoft.com/library/ms123401 (15.12.2010)

2. Интеллектуальный анализ данных (Data Mining) по версии Microsoft [Электронный ресурс]. - Электрон. дан. - 2009. - Режим доступа: http://microsoftbi.ru/2009/08/05/data-mining (15.12.2010)

3. Интеллектуальный анализ данных [Электронный ресурс]. - Электрон. дан. - 2009. - Режим доступа: http://v8.1c.ru/consolid/1018.htm (15.12.2010)

4. Интеллектуальный анализ данных в системах поддержки принятия решений [Электронный ресурс]. - Электрон. дан. - 2009. - Режим доступа: http://www.osp.ru/os/1998/01/179360 (15.12.2010)

УДК 332.025.28

Алешко В.О. магистрант 3 курса

факультет «Государственного и муниципального управления» Новокрещенов А.В., доктор социологических наук научный руководитель, профессор кафедра «Государственного и муниципального управления» Сибирский институт управления - филиал РАНХиГС

Россия, г. Новосибирск РОЛЬ И МЕСТО ЭЛЕКТРОННЫХ ПЛОЩАДОК В ПРОЦЕССЕ

ПРИВАТИЗАЦИИ Статья освещает необходимость внедрения информационные и коммуникационных технологий в процесс приватизации. Преимущества проведения электронных торгов в сфере управления государственного и муниципального имущества перед очными торгами. Роль и место

i Надоели баннеры? Вы всегда можете отключить рекламу.