Научная статья на тему 'Проблемы выбора системы анализа данных в вузе (на примере КГУ им. Н. А. Некрасова)'

Проблемы выбора системы анализа данных в вузе (на примере КГУ им. Н. А. Некрасова) Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
158
22
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Проблемы выбора системы анализа данных в вузе (на примере КГУ им. Н. А. Некрасова)»

ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ

Я.В. Новичихин

ПРОБЛЕМЫ ВЫБОРА СИСТЕМЫ АНАЛИЗА ДАННЫХ В ВУЗЕ (на примере КГУ им. Н.А. Некрасова)

В настоящее время практически каждый вуз в той или иной мере сталкивается с необходимостью всестороннего анализа данных, накопленных в процессе своей деятельности. Результаты этого анализа могут быть использованы как мощное средство поддержки принятия решений в различных областях деятельности университета: учебной, планово-финансовой, административно-хозяйственной и т.д.

Очевидно, что качественный анализ большого объема ежедневно накапливаемой подразделениями вуза информации невозможен без применения специализированных программных продуктов, ориентированных на решение такого рода задач. Действительно, если взять для анализа только учебную деятельность вуза (например, установить, есть ли связь между номером семестра и средней успеваемостью по университету, между количеством пар в день у студентов некоторой специальности и итогами аттестации, от чего в большей степени зависит количество пропусков занятий по определенной дисциплине и т.д.), специалистам учебного отдела придется выполнить огромную работу: отобрать из ведомостей итоги зачетов, экзаменов, аттестационных и контрольных работ, выписать из журналов посещаемости сведения о пропусках занятий, из карточек учебных поручений преподавателей выбрать данные об их посеместровой нагрузке, сгруппировать отобранные данные по факультетам, специальностям, группам и подгруппам и т.п. Кроме этого, для выявления наиболее значимых факторов придется выполнять группировку по другим признакам: номерам семестра, учебному расписанию, дисциплинам, а некоторые данные перед выполнением анализа могут потребовать предварительной статистической обработки (например, нахождения максимального, минимального и среднего значения, вычисления суммы и т.д.). Разумеется, что качественно и в короткие сроки без использования специальных программных средств выполнить такой объем работы не представляется возможным.

Как видно из приведенного примера, объем данных для анализа будет достаточно велик, поэтому современный аналитический пакет на наш взгляд, обязательно должен обладать функцией импорта данных из внешних источников, причем наиболее желательным является импорт из любых современных баз данных. Кроме того, пакет обязан реализовывать наиболее эффективные технологии анализа, каковыми на сегодняшний день являются оперативный анализ данных (OLAP) и интеллектуальный анализ данных (Data Mining). Рассмотрим эти технологии более подробно.

OLAP (On-Line Analytical Processing) - технология оперативной аналитической обработки данных, основанная на их многомерном представлении. Концепция OLAP была описана в 1993 году основоположником реляционной модели данных Э. Коддом.

Многомерное представление данных представляет собой множественную перспективу, состоящую из нескольких независимых измерений, вдоль которых могут быть проанализированы определенные совокупности данных. На пересечениях осей измерений располагаются данные, характеризующие анализируемые факты. Эти данные называются мерами. Одновременный анализ по нескольким измерениям и определяется как многомерный анализ [5]. Целью такого анализа является проверка возникающих гипотез.

Наиболее распространенной технологией многомерного представления является организация данных в виде упорядоченных многомерных массивов - гиперкубов. Ребрами такого гиперкуба являются измерения, а ячейками - меры.

Над гиперкубом определены ряд операции [1], которые позволяют формировать подмножества измерений, вращать их, осуществлять переходы к агрегированному и детальному представлению данных.

Технология OLAP-анализа может быть применена сотрудниками вуза для просмотра тенденции изменения успеваемости студентов оп-

© Я.В. Новичихин, 2006

Вестник КГУ им. Н.А. Некрасова ♦ № 12, 2006

187

ределенной специальности по определенному предмету (трехмерный куб), для просмотра зависимости между успеваемостью студентов определенной специальности по определенному предмету, преподаваемым конкретным преподавателем (четырехмерный куб) и т.д.

OLAP-функциональность может быть реализована различными способами, начиная с простейших средств анализа данных в офисных приложениях и заканчивая распределенными аналитическими системами, основанными на серверных продуктах.

Термин «Data Mining» дословно можно перевести как «Добыча данных». Иногда его также переводят как «Извлечение информации», Раскопка данных», «Извлечение данных» и т.д. Синонимом этого термина можно считать термин «Обнаружение знаний в базах данных»

Отметим, что на самом деле Data Mining -это широкая прикладная область, включающая в себя такие науки, как прикладная статистика, распознавание образов, искусственный интеллект, теория баз данных и т.д. Классическое определение этого термина дал в 1996 году один из основателей направления Data Mining - Григорий Пятецкий-Шапиро.

Вообще под интеллектуальным анализом данных (Data Mining) понимается процесс обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности [4].

К знаниям, полученным при помощи Data Mining, предъявляются следующие требования [1]:

1) знания должны быть новые, ранее неизвестные;

2) знания должны быть нетривиальны;

3 ) знания должны быть практически полезными;

4) знания должны быть доступными для понимания человеком.

Основное отличие технологии Data Mining от OLAP заключается в том, что она позволяет самостоятельно находить необъективные закономерности, а также самостоятельно строить гипотезы о взаимосвязях, в то время как OLAP служит для проверки заранее сформулированных гипотез.

Из многочисленных задач Data Mining [4] в университете, на наш взгляд, будут наиболее востребованы кластеризация, классификация, ассоциация, прогнозирование и последовательность.

Приведем примеры решения этих задач.

1. Кластеризация - нахождение кластеров (классов), определяющих размер внебюджетных надбавок сотрудникам ВУЗа, исходя из таких показателей, как стаж работы, число опубликованных статей, количество защищенных аспирантов и т.д.

2. Классификация - отнесение конкретного сотрудника университета к одному из найденных с помощью решения первой задачи классов.

3. Ассоциация - оптимизация тематики факультативных курсов. Например, если будет выведено правило «если студенты на втором курсе выбирают факультатив по структурам данных, то с вероятностью 80% на третьем курсе они выберут факультатив по базам данных» можно будет составить тематику факультативов с учетом предпочтений студентов и заранее разработать программу курсов.

4. Прогнозирование - предсказание текучести кадров вуза на N лет, предсказание количества защищенных аспирантов и докторантов.

5. Последовательность - определение временных зависимостей между защитой кандидатской диссертации и выходом монографии.

Для решения задач Data Mining существует достаточно большое количество групп методов к основным из которых относятся:

1. Базовые методы. Сюда входят методы, основанные на переборе, а также основные методы статического анализа (корреляция, регрессия, описательная статистика и т.д.).

2. Нечеткая логика.

3. Генетические алгоритмы.

4. Нейронные сети.

Каждая из перечисленных групп методов включает в себя множество алгоритмов. Например, для решения задачи классификации могут быть использованы метод опорных векторов, метод «ближайшего соседа», байесовская классификация, нейронные сети и т.д.

В настоящее время существует достаточно много программных продуктов, реализующих различные алгоритмы анализа данных. Как отмечается в [4], для выбора продукта следует тщательно изучить задачи, которые стоят перед аналитиком и обозначить результаты, которые необходимо получить.

Обычно инструментарий для анализа поставляется либо как самостоятельная программа, либо как дополнение к основному продукту. Кроме того, некоторые мощные СУБД также реали-

зуют некоторые алгоритмы анализа (например, СУБД MS SQL Server включает инструментарий Microsoft Analysis Services, достаточно мощный OLAP-сервер, а СУБД Oracle - инструментарий Oracle Data Mining).

Проблема выбора аналитического пакета особенно остро встает перед вузом. На наш взгляд это объясняется тем, что штатное расписание вуза не предусматривает должности системного аналитика, и использовать столь сложные программы придется сотрудникам подразделений университета, которые обычно мало знакомы с информационными технологиями. Кроме того, необходимо учитывать, что вышеописанные программные продукты оперируют множеством математических терминов, в которых человеку, мало знакомому с математикой, достаточно легко растеряться.

Имеющиеся на рынке программы можно оценивать по множеству различных критериев. Так, например, в [4] приводится 17 характеристик, по которым можно оценить аналитические пакеты. Мы же, применительно к вузу, считаем наиболее важными характеристиками следующие:

1. Интуитивно понятный интерфейс (сюда же входит наличие официальной русской локализации).

2. Удобство импорта данных для анализа (сюда же входит возможность прямого подключения к БД).

3. Возможность решения поставленных выше задач, а также количество методов для решения этих задач.

4. Цена продукта.

Исследуем возможности наиболее известных на сегодняшний день программ и инструментов анализа и попробуем установить, какой же продукт наиболее полно соответствует вышеуказанным характеристикам.

Самой распространенной программой, используемой большинством пользователей для анализа данных является MS Excel, входящая в состав пакета MS Office (http://www. microsoft. com, http://ofEice.microsoft.com). Как утверждается в [2], Excel - это прекрасное средство для анализа данных, включающее чрезвычайно мощные, но и простые в использовании методы. Среди методов статического анализа, имеющихся в MS Excel можно выделить корреляционный анализ, регрессионный анализ, трендовые модели. Кроме этого Excel включает в себя пакет анализа, содержащий инструменты для корелляционного, ковариационного и дисперсионного анализа, описатель-

ной статистики, регрессии, анализа Фурье и т.д. Эти инструменты могут пригодиться для установки взаимосвязи между факторами, нахождения степени влияния факторов друг на друга, а также для решения задачи прогнозирования.

Помимо вышеперечисленных средств MS Excel реализует другие методы анализа, например анализ по принципу «что-если», для осуществления которого широко используются таблицы подстановки с одним или несколькими входами.

Используя MS Excel, можно осуществлять прямое подключение к источникам данных. Для этого служит приложение MS Query. Оно позволяет импортировать данные из внешних источников (таких как базы данных MS Access, dBASE, Visual FoxPro, SQL Server). При отборе данные можно подвергнуть фильтрации по определенному критерию. На основе полученных данных затем можно строить сводные таблицы и OLAP-кубы. После построения куба можно просматривать его сечения и сохранить его на диске. Имеется также возможность получить данные из уже созданного куба или сохраненного куба.

Следует, однако, отметить, что процесс импорта данных из внешнего источника несколько запутан и включает в себя достаточно большое количество шагов (например, указание источника, выбор драйвера базы данных, выбор типа аутентификации). Это может служить препятствием для пользователей, не имеющих представления о терминологии баз данных и работе с ними.

Другим недостатком MS Excel является то, что с его помощью невозможно решать задачи кластеризации, классификации, ассоциации, поскольку соответствующие алгоритмы в нем не реализованы.

Из достоинств программы следует отметить интуитивно понятный стандартизированный пользовательский интерфейс (единый для всех приложений пакета MS Office) и сравнительно небольшую цену. Например, у официального партнера Microsoft, компании SoftLine (www.softline.ru) коробочная версия MS Office 2003 Professional Edition стоит 400$, версия же для академических организаций продается по цене 104$.

Одним из ведущих производителей программных продуктов, предназначенных для анализа данных, является компания StatSoft (http:// www.statsoft.ru). Основной разработкой этой компании является STATISTICA - универсальная интегрированная система, предназначенная для статистического анализа и визуализации данных, уп-

равления базами данных и разработки пользовательских приложений, содержащая широкий набор процедур анализа для применения в научных исследованиях, технике, бизнесе, а также специальные методы добычи данных. Пакет реализует самые современные компьютерные и математические методы анализа данных. Среди интересующих нас можно выделить следующие методы:

1. Описательные статистики.

2. Анализ многомерных таблиц.

3. Многомерная регрессия.

4. Нелинейная регрессия.

5. Логит и пробит регрессия.

6. Кластерный анализ.

7. Факторный анализ.

8. Деревья классификаций.

9. Прогнозирование временных рядов.

10. Дисперсионный анализ.

11. Ковариационный анализ.

С полным перечнем всех реализованных методов анализа и дополнительных возможностей можно ознакомиться на официальном сайте компании.

Пакет позволяет обмениваться данными с наиболее популярными СУБД, а также с удаленными базами данных. Кроме того, для обмена данными поддерживаются технологии OLE, DDE и ODBC.

Помимо пакета STATISTICA компанией StatSoft разработаны следующие продукты, использующие современные технологии Data Mining:

1. STATISTICA Data Miner - универсальное и всестороннее средство анализа данных. Основой этого продукта является браузер процедур Data Mining, содержащий более 300 основных процедур, специально оптимизированных под задачи Data Mining, и средств логической связи между ними и управления потоками данных, позволяющий конструировать собственные аналитические методы. Все встроенные методы пакета разделяются на пять классов:

а) разметка/разбиение и углубленный анализ -набор процедур позволяющий разбивать, группировать переменные, вычислять описательные статистики, строить исследовательские графики и т.д.;

б) классификация - полный пакет процедур классификации: обобщенные линейные модели, деревья классификации, регрессионные деревья, кластерный анализ и т.д.;

в) обобщенные линейные, нелинейные и регрессионные модели - данный элемент содержит линейные, нелинейные, обобщенные регрессионные модели и элементы анализа деревьев классификации;

г) прогнозирование - включает в себя модели АРПСС, сезонные модели АРПСС, экспоненциальное сглаживание, спектральный анализ Фурье, сезонная декомпозиция, прогнозирование при помощи нейронных сетей и т. д.;

д) нейросетевой анализ - в данной части содержится наиболее полный пакет процедур ней-росетевого анализа.

Из прочих преимуществ продукта следует отметить большой набор готовых решений, предназначенных для пользователей, слабо разбирающихся в анализе данных, удобный пользовательский интерфейс, полностью интегрированный с MS Office, гибкий механизм управления, многозадачность системы, открытая COM-архитекту-ра, поддержка пользовательских приложений (за счет использования Visual Basic, Java, C++).

2. STATISTICA Neural Networks - универсальный пакет нейросетевого анализа фирмы StatSoft. Он может работать и как самостоятельное приложение, и в рамках системы STATISTICA. Программа поддерживает мощные современные алгоритмы обучения сетей, а также имеет возможность создавать сложные, практически не ограниченные в размерах комбинации из сетей различных архитектур. Огромное преимущество данного пакета составляет то, что это единственный в мире программный продукт для нейросетевых исследований, полностью переведенный на русский язык.

3. Прочие средства анализа, например, STATISTICA Power Analysis.

Цены на продукты компании StatSoft довольно умеренные для программ такого класса. В частности, русскоязычная однопользовательская версия программы STATISTICA 6.0 стоит около 2600$. Для академических учреждений ее можно приобрести за 900$. Neural Networks можно приобрести за 3495$ и 995$ соответственно.

Несмотря на большое количество реализованных методов анализа и удобный интерфейс, программы пакета STATISTICA довольно сложны в использовании, поскольку требуют от пользователя как определенных математических знаний, так и знаний в области анализа данных, что может затруднить их использование сотрудниками вуза.

Пакеты SPSS и SPSS Clementine компании SPSS (http://www.spss.ru) - это средство для анализа данных при помощи статистического программного обеспечения, обладающего всеми необходимыми возможностями. Пакеты реализуют множество инструментов Data Mining

и в отличие от других программ, поддерживают весь процесс добычи знаний, что позволяет сократить время получения оптимального решения.

Применительно к вузу можно воспользоваться следующими инструментами пакета:

1. Описательная статистика.

2. Корреляционный анализ.

3. Регрессионный анализ.

4. Классификация.

5. Кластеризация

Помимо этого указанные продукты наделены OLAP-функциональностью, что позволяет создавать различные отчеты.

Среди преимуществ рассматриваемых приложений можно отметить удобный интерфейс (близкий к MS Excel), подключение к различным источникам данных, наглядную визуализацию как самого процесса Data Mining, так и полученных результатов.

Цена на продукты компании SPSS складывается из цены базового пакета и дополнительно приобретаемых программных модулей. Так, например, цена SPSS Base - ключевого элемента пакета SPSS, обеспечивающего доступ к данным, управление ими, подготовку данных к анализу, анализ данных и создание отчетов, составляет 1390$. Цены на дополнительные модули колеблются в пределах от 600$ до 750$. Таким образом, полный пакет аналитики будет стоить достаточно дорого.

Компания SPSS также предлагает свои продукты по академической лицензии. В ее рамках учебное заведение получает сроком на полгода право на пользование практически всеми продуктами SPSS. Количество пользователей академической лицензии не ограничено, однако пользователями могут быть только студенты и преподаватели учебных заведений. Во время действия лицензии все новые русские и английские версии программного обеспечения поставляются бесплатно по мере их выхода. Цена Академической лицензии составляет 1900$. Учебные заведения, обладатели Академической лицензии, получают право продавать ПО своим сотрудникам и студентам для установки на домашних компьютерах (по любой цене).

При всех своих преимуществах продукты SPSS обладают тем же самым недостатком, что и продукты компании StatSoft, а именно требуют от аналитика специальных знаний. Хотя компания SPSS и проводит достаточно дешевые курсы по обучению анализу при помощи своих продук-

тов, они ставят своей целью только начальное ознакомление с основами анализа данных. Поэтому использование сотрудниками вуза продуктов SPS будет затруднено.

Существуют прочие крупные зарубежные разработки, реализующие широкий спектр алгоритмов Data Mining (например, продукт SAS Enterprise Miner компании SAS Intelligent Inc.), однако на наш взгляд, использовать эти пакеты в вузе нецелесообразно, поскольку они, в первую очередь, ориентированы на крупные бизнес-решения и достаточно сложны в освоении.

Кроме зарубежных разработок на рынке имеются и программные продукты российских компаний. Одна из таких систем - PolyAnalyst, разработанная компанией Мегакомпьютер Интел-лидженс (http://www.megaputer.ru), предназначена для анализа числовых и текстовых данных. Ее основное назначение - обнаружение полезных знаний, необходимых для принятия решений в бизнесе и других отраслях человеческой деятельности. Программа является клиент-серверным приложением, где модули анализа выделены в серверную часть PolyAnalyst Knowledge Server, а инструментарий пользователя - в клиентскую программу PolyAnalyst Workspace.

Продукт включает в себя следующие классы алгоритмов анализа:

1) моделирование;

2) прогнозирование;

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

3) кластеризация;

4) классификация;

5) текстовый анализ.

В каждом классе реализован большой набор инструментов Data Mining. Кроме этого, программа поддерживает связь с базами данных через интерфейсы ADO и OLE DB, имеет богатый набор инструментов для графического представления результатов исследований.

Цена на полный пакет программ, входящих в PolyAnalist, составляет около 6200$. Цена на минимальный набор модулей анализа вместе клиентской частью составит около 1000$. На наш взгляд, закупка этого программного обеспечения даже по такой низкой цене для вуза неоправданна, поскольку, во-первых, далеко не все методы анализа, реализованные даже в минимальном наборе модулей, будут востребованы, а во-вторых, потребуется выделять отдельный сервер для установки PolyAnalyst Knowledge Server. Кроме того, сотрудникам вуза, мало знакомым

с терминологией, буде достаточно сложно освоить программу.

Как нами было уже упомянуто в начале статьи, многие разработчики серверных СУБД включают инструменты для анализа данных в свои продукты. Наиболее яркими примерами здесь могут служить Microsoft Analysis Services и Oracle Data Mining.

Microsoft Analysis Services - это аналитические службы Microsoft, представляющие собой серверное OLAP-средство. Оно предназначено для создания OLAP-кубов на основе реляционных хранилищ данных, а также для предоставления доступа к ним из клиентских приложений. Такой подход позволяет избежать недостатков клиентских OLAP-средств, связанных с ограничениями, налагаемыми на число измерений и количество членов в них. Цель серверного OLAP-средства - представлять данные из реляционного хранилища в удобной форме - в виде OLAP-куба.

Приведем краткую характеристику аналитических служб Microsoft, описанную в [3].

Основным компонентом аналитических служб является Analysis Server - сервис операционной системы Windows NT/2000. Этот сервер предназначен для создания OLAP-кубов на основе реляционных хранилищ данных, а также для предоставления доступа к ним из клиентских приложений.

OLAP-куб, созданный с помощью аналитических служб Microsoft, может содержать все данные из таблицы фактов плюс агрегатные значения для тех групп записей из этой таблицы, которые соответствуют верхним уровням иерархии измерений. При необходимости можно производить динамическое обновление куба, если в таблицу фактов были добавлены новые записи, а также выбрать, будут ли данные с нижних уровней иерархии храниться в самом кубе.

Большим достоинством аналитических служб Microsoft Analysis Services является то, что они позволяют создавать так называемые виртуальные кубы, которые в определенной степени являются аналогами представлений реляционных СУБД. Виртуальные кубы не содержат данных, но позволяют представить в виде единого куба данные из нескольких кубов, имеющих хотя бы одно общее коллективное измерение.

В качестве клиентов аналитических служб Microsoft может выступать утилита Analysis Manager, предназначенная главным образом для

администраторов баз данных, а также приложения MS Office, в частности, уже рассмотренный нами MS Excel.

Основным затруднением при использовании аналитических служб Microsoft является сложность проектирования многомерных баз данных и создания серверных кубов, что требует наличия в вузе квалифицированного системного администратора, владеющего, к тому же, принципами проектирования БД (как реляционных, так и многомерных). Кроме того, каждый раз при создании нового куба необходимо будет консультироваться с сотрудниками подразделений вуза, чтобы узнать, какие именно измерения нужно включить в него, что, разумеется, потребует намного больше времени для подготовки данных.

Еще одним недостатком описанного инструмента является то, что Microsoft Analysis Services по сути, является OLAP-средством и реализует сравнительно немного инструментов Data Mining, что снижает универсальность этой системы (хотя стоит отметить, что в SQL Server 2005 число инструментов Data Mining существенно возросло).

Другим представителем рынка инструментов анализа, поставляемых с серверной СУБД, является Oracle Data Mining, поставляемый вместе с СУБД Oracle Enterprise Edition (http:// www. oracle .com). Этот инструмент представляет собой отдельный модуль. Он поддерживает все этапы технологии извлечения знаний, включая постановку задачи, подготовку данных, построение модели, анализ и тестирование результатов.

Среди нужных нам методов Data Mining, реализованных в данном продукте, можно выделить следующие:

1) классификационные модели;

2) регрессионные модели;

3) поиск существенных атрибутов;

4) кластеризация;

5) поиск ассоциаций;

6) выделение признаков.

Преимущество перечисленных алгоритмов

состоит в том, что они работают непосредственно с реляционными базами данных и не требуют выгрузки данных в файлы специальных форматов.

Помимо модуля Data Mining компанией Oracle реализована также и OLAP-функциональ-ность.

Стоимость компонентов OLAP и Data Mining составляет по 360$. Указанная цена приведена для одной лицензии (т.е. одновременно может под-

держиваться только одно подключение). Сама же СУБД Oracle стоит порядка 5000-6000$.

Существенным препятствием использования указанных инструментов является то, что корпоративная база данных вуза управляется СУБД MS SQL Server, и покупать еще одну серверную СУБД только из-за одних аналитических инструментов на наш взгляд, нецелесообразно.

Помимо рассмотренных нами программных продуктов на рынке существует еще множество пакетов, разработанных как всемирно известными лидерами, так и новыми развивающимися компаниями.

Итак, несмотря на наличие описанных нами мощных аналитических средств, мы можем сделать вывод, что ни одно из них не может быть выбрано в качестве предпочтительного для нашего вуза. Хотя все рассмотренные программы реализуют достаточное для решения приведенных в начале статьи задач количество алгоритмов анализа, по другим показателям они подходят не совсем. Некоторые имеют достаточно высокую цену, другие сложны в освоении и требуют специальных знаний. Хорошим выбором мог бы быть MS Excel, тем более что большинство сотрудников подразделений в той или иной мере сталкивались с этим программным средством и умеют в нем работать. Еще одним плюсом его использования является то, что он может быть использован в качестве клиента аналитических служб SQL Server и умеет импортировать данные непосредственно из него. Однако рассмотренные нами выше недостатки этого приложения ставят под сомнение такую возможность.

На наш взгляд, самым предпочтительным вариантом является наличие в вузе собственной системы анализа данных. Преимущества такого подхода нам видятся в следующем:

1) отсутствие необходимости периодического дорогостоящего обучения сотрудников вуза

работе с коммерческим ПО;

2) оперативность обновления системы. Если потребуется реализовать новую функциональность, не нужно будет подавать заявку в адрес фирмы-разработчика и ждать выхода дополнений (к тому же за дополнительную плату). Все необходимые модули могут быть реализованы силами программистов вуза;

3) можно реализовать только те методы анализа, которые требуются. Это избавит пользователей от необходимости выбирать нужный метод из большого числа имеющихся, что упростит работу с системой;

4) повысится безопасность доступа к данным и результатам их анализа, поскольку изначально можно определить пользователей, которые будут иметь права работать с системой, а также их роли.

Наиболее рациональным средством реализации указанной системы, на наш взгляд, являются веб-технологии, а именно ASP.NET в сочетании с ADO.NET. Они позволят спроектировать веб-приложение с доступом как через Интернет, так и через Интранет. Таким образом, начальники подразделений вуза и ректорат смогут иметь оперативный доступ к результатам обработки данных в любое время и в любом месте.

Библиографический список

1. БарсегянА., КуприяновМ., Степаненко В., Холод И. Методы и модели анализа данных: OLAP и Data МЫ^.Учебное пособие - СПб. : БХВ-Пе-тербург, 2004.

2. Уокенбах Дж. Microsoft Office Excel 2003. Библия пользователя. - М.; СПб.; Киев: Диалектика.

3. Федоров А., Елманова Н. Введение в OLAP-технологии Microsoft. - М. : Диалог-МИФИ, 2002.

4. Чубукова И. Data Mining: учебное пособие. -М.: Интернет-Университет Информационных Технологий; БИНОМ. Лаборатория знаний, 2006.

5. http: //www. olap. ru/best/alter. asp.

i Надоели баннеры? Вы всегда можете отключить рекламу.