Научная статья на тему 'Характеристика возможностей современных вычислительных систем для статистического анализа'

Характеристика возможностей современных вычислительных систем для статистического анализа Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
311
354
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Характеристика возможностей современных вычислительных систем для статистического анализа»

УДК 519.2:528.1 С.А. Егорова СГГ А, Новосибирск

ХАРАКТЕРИСТИКА ВОЗМОЖНОСТЕЙ СОВРЕМЕННЫХ ВЫЧИСЛИТЕЛЬНЫХ СИСТЕМ ДЛЯ СТАТИСТИЧЕСКОГО АНАЛИЗА

Статистические методы исследований были и остаются важной составной частью процедуры обработки результатов измерений во многих естественнонаучных областях деятельности [1]. Об актуальности таких методов исследований свидетельствует и то обстоятельство, что в современных пакетах программ и вычислительных средах имеются программные средства, позволяющие максимально упростить процесс подготовки и решения задач статистического анализа. Методы математической статистики входят в программу большинства высших учебных заведений, а неотъемлемой его частью становится освоение соответствующего программного обеспечения. Появление развитого программного обеспечения по математической статистике в геодезических исследованиях позволяет внедрять новые методы исследований, существенно сократить время принятия решений.

В практике исследований с элементами всестороннего статистического анализа могут быть использованы главным образом следующие программные средства: Statistica, MathCad, MatLab, Maple V, приложение MS Office - Excel. Эти пакеты, вычислительные среды и приложения содержат библиотеки функций для обработки массивов данных, сравнения выборок, выполнения дисперсионного, регрессионного и корреляционного анализа. Функции математической статистики достаточно полно описаны в справочных системах сопровождения программ и вполне однозначно соответствуют сведениям, представленным в специальной литературе, например [2, 3].

Перечень, приведенный выше, может быть дополнен менее мощными программными средствами: S-Plus, Microcal Origin 6.10.52 Retail,

ReliaSofts Alta 1.0х, Statit Professional QC v.5x, MatheMax, MathConnex, SmartSketch, Axum. В них наряду с удобным интерфейсом, богатым инструментарием для интерактивного общения с пользователем в той или иной мере присутствуют методы статистики, позволяющие решать задачи статистического анализа по заданной выборке, но лишь для ограниченного количества теоретических распределений, в большинстве случаев не присущих геодезическим данным. Эти программные средства, по-видимому, можно использовать как обучающие системы, а так же для инженерных и исследовательских работ в области экономики и финансов.

На основании вышеизложенного представляет практический интерес анализ возможностей программных средств Statistica, MathCad, MatLab, Maple V, приложение MS Office - Excel с позиции их наиболее эффективного применения при обработке геодезических исследований и ориентации на «непрограммирующего пользователя». Это обусловлено целесообразностью его ориентации на сущности самой задачи, а не на способах ее программной реализации.

Весьма удобной средой для обучения методам статистического анализа и научных исследований является пакет Statistica (продукт фирмы StatSoft). Это специализированный пакет для статистического анализа данных, использующий общеизвестные методы статистики. Для геодезических исследований пакет малопригоден по причинам, указанным выше.

Таким же образом может быть охарактеризовано и приложение MS Office - Excel. Основное его достоинство - простота работы. С помощью различных инструментов, входящих в «Пакет анализа», можно построить гистограмму частот, вычислить различные статистические показатели для набора данных, выполнить проверку по критерию Стьюдента или определить константы в уравнении регрессии. При этом достаточно иметь начальное представление о статистическом анализе и показателях, вычисляемых Excel. В категории «Статистические функции» имеются достаточно много функций, предназначенных для вычисления статистических величин и проведения статистического анализа (например, ГАММАРАСП, КВПИРСОН, ХИ2РАСП, ФТЕСТ и другие), а также функций, используемые в регрессионном анализе (НАКЛОН, ОТРЕЗОК, КОВАР, ЛГРФПРИБЛ, СТОШУХ и другие) [5].

Математический аппарат вычислительной среды MatLab (сокращение от Matrix Laboratory) опирается на вычисления, производимые с матрицами, векторами и комплексными числами. Графическое представление функциональных зависимостей здесь организовано в форме, соответствующей инженерной документации. Язык программирования весьма прост: он содержит лишь несколько десятков операторов. Это компенсируется большим числом процедур и функций, содержание которых понятно пользователю, имеющему соответствующую математическую и инженерную подготовку. Практически все процедуры и функции доступны не только для использования, но и модификации. Они могут быть использованы в режиме мощного научного калькулятора, а также составления программ, предназначенных для многоразового применения. Вычислительная среда MatLab структурирована по тематике пакетов программ, называемых Toolbox. Для выполнения статистического анализа предназначен Statistics Toolbox.

Пакет включает 20 различных распределений вероятностей. Прежде всего, нормальный закон распределения (normcdf), которому предположительно подчиняются все результаты измерений в геодезии. Так же распределения, которые используются при математической обработке геодезических измерений - при вычислении допусков, доверительных интервалов, различного рода критериев согласия. К ним относятся распределения Стьюдента (tcdf), Пирсона (chi2cdf), F-распределение Фишера (fcdf). Ряд других распределений, в том числе, Beta-распределение (betacdf), биномиальное распределение (binocdf), экспоненциальное распределение (expcdf), у-распределение (gamcdf), геометрическое распределение (geocdf), логнормальное распределение (logncdf), пуассоновское распределение (poisscdf), рэлеевское распределение (raylcdf), распределение Вэйбулла (weibcdf), а также множество статистических функций.

Наиболее распространенные статистические функции входят в состав ядра системы MatLab (в том числе функции генерации случайных данных с равномерным и нормальным распределением).

Основные возможности пакета Statistics Toolbox: описательная

статистика; распределения вероятностей; оценка параметров и аппроксимация; проверка гипотез; множественная регрессия; интерактивная пошаговая регрессия; моделирование методом Монте-Карло; аппроксимация на интервалах; статистическое управление процессами; планирование эксперимента; моделирование поверхности отклика; аппроксимация нелинейной модели; анализ главных компонент; статистические графики; графический интерфейс пользователя. Полный список имеющихся средств пакета можно получить по команде help stats, а полное описание этого инструментария есть в официальной справочной документации на английском языке [4].

О сервисных возможностях вычислительной среды MatLab можно судить по приведенной ниже таблице, составленной путем сопоставления свойств с пакетом символьных вычислений Maple V.

Таблица

MatLab Maple V

Ориентация на численные методы Пакет символьных вычислений. Удобный инструмент для относительно несложных расчётов. Наиболее удачное применение совместно с MatLab.

Поддержка сценариев и включение новых алгоритмов Отсутствует возможность включения новых алгоритмов

Сохранение результатов решения на диске, их загрузка в память в нужный момент, использование в других сценариях и т. д. Невозможно сохранить результаты решения на диске, т. е. необходимо каждый раз запускать сценарий заново

Решение систем дифференциальных уравнений (СДУ) в форме Коши. MatLab всегда находит решение СДУ. Имеется несколько методов, в том числе для жёстких систем Решение дифференциальных уравнений (ДУ) с помощью преобразования Лапласа. Однако для жестких систем или сложных уравнений решение не всегда может быть получено или процесс займёт несравненно много времени

Можно присоединять электронные таблицы Excel Имеет встроенные электронные таблицы, но работать с ними крайне неудобно

Удобный внутренний язык описания сценариев Сложный язык описания сценариев

Автоматизированная компиляция написанных функций, создание динамически загружаемых библиотек, исполняемых приложений Отсутствует

Создание моделей объектов по технологии RAD в среде Simulink Отсутствует

Создание графического пользовательского интерфейса Отсутствует

Присоединение с MS Word и, соответственно, имеются все возможности редактора. Принцип напоминает MathCad. Однако требует значительных вычислительных ресурсов. Верстка документа непосредственно в рабочей программе. Качественно организовано создание раскрывающихся уровней программы, но для документирования это абсолютно не пригодно.

Работа со звуком, изображениями, анимация Отсутствует

Для имитационного моделирования статистических исследований геодезических данных наиболее подходит пакет визуального моделирования Uitoois, позволяющий использовать графический интерфейс GUI для создания графического интерфейса пользователя, и пакет визуального программирования Simulink, служащий для создания моделей, состоящих из графических блоков с заданными свойствами (параметрами). в пакете Uitoois заложены возможности создания меню, кнопок, переключателей, осей и пр. С его помощью изготовлены все демонстрационные программы MatLab и он может быть использован для подготовки программ для «непрограммирующего пользователя». Полный список имеющихся средств пакета можно получить по команде help uitoois.

В пакете Simulink графические компоненты моделей (модули) содержатся в ряде разделов библиотеки и с помощью мыши могут переноситься в основное окно, соединяться друг с другом. Двойной щелчок мышью на изображении модуля выводит окно со списком его параметров, которые пользователь может менять. Начиная с 6 версии MatLab, основным нововведением является обработка матричных сигналов. Добавлены отдельные пакеты повышения производительности Simulink, такие как Simulink Accelerator для компиляции кода моделей, Simulink profiler для анализа кода и т. д. Полный список имеющихся средств можно получить по команде help simulink.

В вычислительной среде MathCad фирмы MathSoft используется естественный математический язык, на котором формулируется решаемая задача в форме, близкой к принятой в литературе, а результаты вычислений представляются в форме технического отчета, отражающего все этапы анализа с иллюстрациями законов распределений.

Математическая статистика здесь представлена функциями для 17 различных видов распределения случайных величин. Эти функции рассчитывают плотность вероятности, функцию распределения, квантиль вероятности, генерируют вектора случайных чисел. Кроме функций, схожих с функциями MatLab ’а, здесь имеются: распределение Коши (Cauchy) и логистическое распределение (logis), которым, по результатам статистического анализа [6] в ряде случаев подчиняются случайные величины в геодезии.

В наиболее совершенных программных средствах обеспечивается возможность интеграции с программами из других приложений. Так, например, приложения MathCad и MathConnex могут использовать компоненты Axum, Excel, MatLab, S-Plus, SmartSketch. Это позволяет гибко использовать функции, предназначенные и для статистического анализа.

Проведенный анализ позволяет утверждать, что для решения статистических задач наиболее приемлема вычислительная система MatLab фирмы Math Works. С использованием возможностей этой среды представляется наиболее удобным разработать программно-методический комплекс для статистического исследования геодезических данных, идентифицировать закономерности объекта исследований по выборкам реальных либо имитируемых результатов геодезических наблюдений.

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. Гмурман В.Е. Теория вероятностей и математическая статистика [Тескт] / В.Е. Гмурман. - М.: Высш. шк., 2003.

2. Дьяконов В.П. Математические пакеты расширения MatLab [Текст]: специальный справочник / В.П. Дьяконов, В.В. Круглов. - СПб.: Питер, 2001.

3. Statastics Toolbox User’s Guide. - © 1993 - 2001 by The MathWorks, Inc.

4. Список функций Statistics Toolbox [Электронный ресурс]. - Режим доступа: http://www.matlab.ru/statist/book2/index.asp.

5. Сингаевская Г.И. Функции в Excel. Решение практических задач. - М.: Издат. дом «Вильямс», 2005.

6. Лесных Н.Б. Законы распределения случайных величин в геодезии [Тескт]: монография / Н.Б. Лесных. - Новосибирск: СГГА, 2005. - 129 с.

© С.А. Егорова, 2007

i Надоели баннеры? Вы всегда можете отключить рекламу.