Научная статья на тему 'Пакеты прикладных программ для многоаспектного анализа судебной статистической информации'

Пакеты прикладных программ для многоаспектного анализа судебной статистической информации Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
1331
83
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ПАКЕТЫ ПРИКЛАДНЫХ ПРОГРАММ / СУДЕБНАЯ СТАТИСТИЧЕСКАЯ ИНФОРМАЦИЯ / МНОГОАСПЕКТНЫЙ АНАЛИЗ / ОТКРЫТЫЙ И ЗАКРЫТЫЙ ИСХОДНЫЙ КОД / КЛАССИФИКАТОР / SOFTWARE PACKAGES / JUDICIAL STATISTICAL INFORMATION / MULTI-ASPECT ANALYSIS / OPEN AND CLOSED SOURCE CODE / USER CLASSIFIER

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Ловцов Дмитрий Анатольевич, Богданова Марина Валерьевна, Паршинцева Лидия Сергеевна

Цель работы: обосновать рациональность ситуационного выбора продуктивных пакетов при-кладных программ для многоаспектного анализа судебной статистической информации.Метод: сравнительный технико-экономический анализ и классификация существующих стати-стических пакетов прикладных программ.Результаты: обоснован пользовательский классификатор современных наиболее популярных па-кетов прикладных программ для многоаспектного анализа судебной статистической информации, содержащий прикладную характеристику пакетов по основным прагматическим показателям; выявлены их достоинства и недостатки.Разработаны рекомендации по выбору статистических пакетов.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Ловцов Дмитрий Анатольевич, Богданова Марина Валерьевна, Паршинцева Лидия Сергеевна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

SOFTWARE PACKAGES FOR MULTI-ASPECT ANALYSIS OF JUDICIAL STATISTICAL INFORMATION

Purpose of the paper: justifying the rationality of the situational choice of productive software packages for multi-aspect analysis of judicial statistical information. Method used: comparative technical and economic analysis and classification of existing statistical software packages. Results obtained: a justification is given for the user classifier of today’s most popular software packages for multi-aspect analysis of judicial statistical information which contains an applied description of software packages by their basic pragmatic indicators; their advantages and drawbacks are identified. Recommendations for choosing statistical packages are worked out.

Текст научной работы на тему «Пакеты прикладных программ для многоаспектного анализа судебной статистической информации»

ПАКЕТЫ ПРИКЛАДНЫХ ПРОГРАММ ДЛЯ МНОГОАСПЕКТНОГО АНАЛИЗА СУДЕБНОЙ СТАТИСТИЧЕСКОЙ ИНФОРМАЦИИ

Ловцов Д.А., БогдановаМ.В., ПаршинцеваЛ.С.*

Аннотация.

Цель работы: обосновать рациональность ситуационного выбора продуктивных пакетов прикладных программ для многоаспектного анализа судебной статистической информации.

Метод: сравнительный технико-экономический анализ и классификация существующих статистических пакетов прикладных программ.

Результаты: обоснован пользовательский классификатор современных наиболее популярных пакетов прикладных программ для многоаспектного анализа судебной статистической информации, содержащий прикладную характеристику пакетов по основным прагматическим показателям; выявлены их достоинства и недостатки.

Разработаны рекомендации по выбору статистических пакетов.

Ключевые слова: пакеты прикладных программ, судебная статистическая информация, многоаспектный анализ, открытый и закрытый исходный код, классификатор.

DOI: 10.21681/1994-1404-2017-1-28-36

Судебная статистическая информация - это основа при принятии управленческих решений в правовой сфере деятельности, включая правотворчество. Применение традиционных и новых (нетрадиционных [5]) информационных технологий позволяет в сжатые сроки всесторонне проанализировать обширную судебную статистическую информацию и выявить основные тенденции развития правовой сферы [4]. Использование информационных технологий для многоаспектного анализа судебной статистической информации связано с применением компьютерных программ, которые условно можно разделить на бесплатные (free software) и коммерческие (commercial), с открытым (open source) и закрытым (closed source) исходным кодом. Коммерческие

программы, в отличие от бесплатных, распространяются с целью извлечения прибыли и имеют достаточно высокую стоимость: годовая стоимость лицензии на зарубежные программы для одного компьютера варьирует в пределах от 100 до 6 000 долл. США. Отечественные статистические пакеты, к которым относятся Stadia, «Олимп», «Мезозавр», «Эвриста», «САНИ» и др., стоят сравнительно дешевле. Так, например, стоимость лицензии Stadia для одного пользователя составляет 15 000 руб. [6].

Бесплатные статистические программы делятся на программы с открытым и закрытым исходным кодом. Преимуществом программного обеспечения с открытым исходным кодом является возможность его усовершенствования путем доработки и изменения исходного кода.

По назначению все статистические программные продукты можно разделить на три основные

* Ловцов Дмитрий Анатольевич, доктор технических наук, профессор, заслуженный деятель науки Российской Федерации, заместитель по научной работе директора Института точной механики и вычислительной техники им. С. А. Лебедева Российской академии наук, заведующий кафедрой информационного права, информатики и математики Российского государственного университета правосудия, Российская Федерация, г. Москва.

E-mail: dal-1206@mail.ru

Богданова Марина Валерьевна, доктор экономических наук, доцент, профессор кафедры информационного права, информатики и математики Российского государственного университета правосудия, Российская Федерация, г. Москва.

E-mail: bogdanovamv2009@yandex.ru

Паршинцева Лидия Сергеевна, кандидат экономических наук, доцент кафедры статистики Государственного университета управления, Российская Федерация, г. Москва.

E-mail: lspantelina@yandex.ru

группы: профессиональные, универсальные и специализированные [8]. К профессиональным программам для статистического анализа, особенностью которых является возможность работы со сверхбольшими объемами данных, относятся SAS и BMDP. Универсальные программы предназначены для выполнения анализа данных по широкому кругу статистических методов в различных сферах человеческой деятельности. Среди большого разнообразия универсальных программ отдельно можно выделить такие бесплатные программы, как R, Macanova, Vista, MyStat, InStat+, AtteStat, Microsiris, PSPP и PAST.

В специализированных пакетах реализовано ограниченное число статистических методов. К специализированным бесплатным статистическим программам относятся Gretl, Jmulti, SALTSTAT (BETA), G7, FACTOR и др.; среди коммерческих программ наибольший интерес представляют такие пакеты, как «Мезозавр», «Эвриста» и «САНИ».

На основе указанных классификационных признаков возможна продуктивная классификация пакетов наиболее популярных прикладных программ для многоаспектного анализа судебной (правовой) статистической информации (рис. 1).

Статистические пакеты

1

Бесплатные

ZU

г Открытый исходный

Универсальные программы

Среда Ä

MacANOVA

Vista

Gretl

Jmulti

SALSTAT (BETA)

Закрытый исходный

MyStat

InStat+

AtteStat

Microsiris

PSPP

PAST

Gl (7.375)

FACTOR (7,0)

Специализированные программы

Коммерческие

SAS

BMDP

Microsoft Excel

SPSS

Statistica

SvStat

Stadia

Олимп

«Мезозавр»

«Эвриста»

«САНИ»

Профессиональные программы

Рис. 1. Классификация статистических пакетов прикладных программ для анализа судебной статистической информации

В настоящее время рынок статистических программ весьма разнообразен и обширен: более 1000 программ для анализа данных предлагаются современному пользователю. В связи с этим встает вопрос: «Какой статистический пакет целесообразно выбрать для решения широкого спектра аналитических задач в области права и судов?». Основными критериями выбора, как правило, являются: доступность прикладного пакета для широкой аудитории и мощность множества методов для проведения многоаспектного статистического анализа информации.

Среда R. Одной из наиболее востребованных программ, предназначенных для анализа данных, особенно среди зарубежных компаний, таких как Google, InterContinental Hotels Group, Shell и др., является среда R. Так, по мнению научного сотрудника Google Дэрела Прегибона: «R позволяет статистикам выполнять сложные виды анализа без глубокого знания внутреннего устройства вычислительных систем» [1].

Среда R представляет собой язык программирования для многоаспектной логической обработки статистических данных. В отличие от

целого ряда других статистических программ среда R имеет ряд преимуществ, среди которых: широкое представление статистических методов, кросс-платформенность (среда R компилируется и работает на разных платформах, таких как UNIX, Windows и MacOS), бесплатность, качественная графика, возможность работы с разными форматами данных, открытый исходный код, большое множество проверенных пакетов (более 7 тыс.), возможность создания скриптов и новых пакетов и др. По меткому выражению главного экономиста Google Хэла Вариана: «Огромная красота R заключается в том, что вы можете модифицировать его, чтобы делать всевозможные вещи» [2].

С точки зрения статистического анализа интересными представляются пакеты fBasics, forecast, fpp, FactoClass и др., краткое описание которых представлено в табл.1.

Главными недостатками среды R являются сложность в использовании для рядового пользователя и недостаток русскоязычной информации о среде R. Так, например, ввод данных в програм-

му может осуществляться двумя основными способами:

1. Вручную. Для этого необходимо создать переменную и задать необходимые значения с использованием оператора присваивания <- и функции с(), преобразующей ряд чисел в один вектор. Например:

Преступления

<-с(347,499,577,654,434,487,344,331,356,1209,329,2 65,335,367,563,396,588,847)

В этом примере используются данные о числе преступлений, совершенных несовершеннолетними и при их участии, в субъектах Центрального федерального округа в 2015 году, соответственно в А с помощью представленной выше команды будет создана переменная Преступления. Этот способ удобен, если имеется небольшое количество значений. В противном случае, целесообразно выполнять ввод данных посредством импорта.

Таблица 1.

Минимальный перечень пакетов для выполнения статистического анализа в среде 1 [9]

Наименование пакета Краткое описание возможностей

fBasics Расчет описательных статистик, вычисление критериев нормальности распределения Шапиро - Уилка, Колмогорова - Смирнова, Андерсона - Дарлинга, Крамера - фон Мизеса, Лиллиефорса, хи-квадрат Пирсона, Шапиро - Франчия, Д'Агостино, Жарка - Бера, проверка гипотез с помощью Места, теста Крускала - Уоллиса, теста Ансари - Брэдли, теста Бартлетса, теста Колмогорова - Смирнова и т.д., применение ряда методов анализа временных рядов, таких как построение автокорреляционной и частной автокорреляционной функции и расчет коэффициентов автокорреляции, отображение эффекта Тейлора и др.

forecast Пакет предназначен для анализа временных рядов и прогнозирования. С помощью этого пакета представляется возможным вычислять автокорреляционную и частную автокорреляционную функции, рассчитывать сезонную и систематические составляющие, параметры моделей АРНМА и АША, оценивать ошибки моделей, строить прогнозы и др.

fpp Пакет используется для анализа временных рядов. Подробное описание принципов работы с этим пакетом приводится в книге авторов Роб. Дж. Хайндмана и Джорджа Афанасопулоса «Прогнозирование: принципы и практика».

FactoClass В пакете широко представлены методы факторного и кластерного анализов.

gstat Gstat - это программа для моделирования геостатистики в одно-, двух- или трехмерном измерениях. С помощью пакета можно построить вариограмму, вычислить кригинг, выполнить линейное предсказание модели (ОЬБ) и т.д.

lattice Пакет, предназначенный для построения графиков.

2. Импортом из файлов различных форматов. При импорте данных из полностью закрытых форматов, таких как MS Excel, в отличие от импорта данных из текстовых файлов с расширениями

типа *.csv, *.txt и др., могут возникнуть некоторые сложности с загрузкой. В связи с этим, одним из способов решения этой проблемы является использование вместо MS Excel программы «Элек-

тронная таблица» бесплатного пакета офисных программ OpenOffice. Также при импорте данных из файлов различных форматов следует знать следующие нюансы:

• Функция read.table() переносит данные из выбранного файла в заданную переменную;

• Первый аргумент представляет собой имя файла, который должен лежать в рабочей директории. Проверить путь рабочей директории можно с помощью команды >getwd(). Поменять рабочую директорию можно командой setwd().

• Аргумент sep используется, если разделителем полей является любой другой символ, за исключением пробелов.

• Параметр dec используют, чтобы уточнить разделитель в десятичных дробях;

• Аргумент header равный значению TRUE указывается, если первая строка таблицы представляет собой заголовки.

Таким образом, как видно из описания различных способов ввода данных, пользователь программы [ должен не только владеть различными статистическими методами, но и знать основы программирования и на начальном этапе базовые команды языка [ .

MacANOVA. Программа представляет собой универсальную кросс-платформенную статистическую программу с собственным языком программирования, содержащую основные статисти-

Описание остальных параметров функции read.table() можно получить с помощью выполнения команды help(read.table).

Например, пусть в рабочей директории сохранен файл под именем Data.csv с данными о числе преступлений, совершенных несовершеннолетними и при их участии и числе зарегистрированных преступлений на 100 тыс. чел. населения за 2015 г. по субъектам РФ, представленными по столбцам, с заголовками в первой строке, при этом точка с запятой выступает в качестве разделителей полей. Посредством команды, представленной ниже, данные из файла Data.csv будут импортированы в переменную data, созданную в программе R:

>data<-read.table(«Data.csv»,sep=»;»,header=TRUE).

Для расчета описательных статистик в среде R предназначена функция >summary. На рис. 2 представлено окно ввода команд и вывода результатов в среде R.

ческие методы, в частности, дисперсионный анализ [4]. Разработчиком этой программы является университет Миннесоты. Статистический пакет MacANOVA - это бесплатный пакет с открытым исходным кодом, что можно отнести к ее главным преимуществам.

В программе MacANOVA реализованы такие статистические методы, как однофакторный и многофакторный дисперсионный анализ, описательная статистика, методы проверки гипотез,

R R Console а II В MM

Введите q()■, чтобы выйти из R. *

[Загружено ранее сохраненное рабочее пространство]

> Преступления«;-с (347г 499г 577 г 654,434г437г 344,331 r356r1209r329r265r335r367r563ir$

> data<-read. table ("Data. csvw, sep=rT; wr header=TRUE)

> summary (Преступления)

Min. 1st Qu. Median Mean 3rd Qu. Max.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

265.0 344.3 415.0 436.0 573.5 120Э.0

> summary (data)

Число преступлений, совершенных несовершеннолетними и при их участии

Min. 1Э.0

1st Qu. 332 .0

Median 570.0

Mean 74Э.2

3rd Qu. 1097.2

Max. 3053.0

Коэффициент преступности .на 100 тыс. чел. населения. =l

Min. 2 43

1st Qu. 1255

Median 1604

Mean 1674

3rd Qu. 2140

Max. > 1 3075 -

j Fir .| F

y

Рис. 2. Ввод данных в программу R и результаты работы функции summary()

графический метод анализа, кластерный, дискри-минантный и факторный анализы, анализ временных рядов и другие методы [11].

Главным недостатком этой программы является сложность в ее установке и отсутствие русскоязычной версии программы.

Vista. Статистический пакет Vista - это комплексное решение для анализа данных и их качественной визуализации. Наряду со средой R и пакетом MacANOVA, Vista распространяется бесплатно, имеет открытый исходный код и является кросс-платформенной программой. Удобство в использовании программы Vista заключается в структурированном графическом интерфейсе, а набор статистических методов, включающих одномерный и многомерный анализ данных в комплексе с графическим методом анализа [4], создает конкурентное преимущество в пользу программы Vista на рынке статистических программ.

К недостаткам этой программы можно отнести отсутствие русскоязычной версии программы и русскоязычной литературы по работе с ней.

Среди бесплатных программ с закрытым исходным кодом особый интерес представляют My-Stat, InStat+, PAST, PSPP, Microsiris и бесплатная надстройка AtteStat для MS Excel.

MyStat. Программа является бесплатной студенческой версией программы Systat. Разработчиком данной программы является компания Systat Software, Ink [13].

MyStat - это мощный комплекс инструментов, предназначенный для статистического анализа и обработки данных. С помощью этой программы можно применять такие статистические методы анализа, как табличный и графический метод, группировка и сводка данных, расчет обобщающих характеристик, оценка вариации признака, корреляционно-регрессионный метод, анализ рядов динамики, многомерные статистические методы и др. [4].

К преимуществам данной программы относится не только широкое представление статистических методов, но и понятный для рядового пользователя интерфейс программы. После запуска программы перед пользователем открываются две начальные вкладки: стартовая страница Startpage и редактор вывода.

Стартовая страница делится на 5 панелей:

• Последние открытые файлы (Recent data files). Панель содержит список недавно открытых файлов, с которыми можно работать, щелкнув по ним дважды левой кнопкой мыши;

• Темы (Themes);

• Руководства (Manuals). Панель содержит руководства пользователя на английском языке, которые можно открыть с помощью левой кнопки мыши;

• Советы (Didyou know...). В этой панели отображаются важные советы по анализу данных с использованием программы MyStat .

• Блокнот (Scratchpad). В панели можно делать необходимые заметки во время работы с программой.

Редактор вывода служит для отображения результатов анализа, которые пользователь получает в ходе исследования.

Ввод данных в программу осуществляется посредством импорта данных или вручную. При этом программа MyStat позволяет открывать исходные данные из таких программ, как MS Access, MS Excel, SPSS Statistics, Statistica, Stata и др. Ручной ввод данных подразумевает собой задание спецификаций переменных и работу с редактором данных. В целом, ввод данных, выполнение анализа и сохранение его результатов в MyStat аналогичен организации работы в таких известных коммерческих программах как Statistica и SPSS.

InStat+ [10]. Ещё одним интересным и в тоже время достаточно простым в использовании пакетом для проведения статистического анализа является пакет общего назначения InStat+. Этот пакет предназначен для выполнения простого статистического анализа. Так, например, анализ временных рядов в InStat+ достаточно поверхностный и представляет собой лишь возможность построения автокорреляционной функции и расчета скользящих средних. Также в программе In-stat+ не реализованы такие методы, как факторный, дискриминантный и кластерный анализы [2].

PAST [14]. Первоначально программа была разработана для статистического анализа в геологии, но впоследствии программа была доработана авторами и в настоящее время является одной из наиболее популярных бесплатных программ, включающей в себя большой спектр статистических методов. На рис. 3 представлено рабочее окно программы PAST.

Как видно из рис. 3, рабочее окно программы стандартное и состоит из трех составляющих: главного меню, панели задач и области данных. Главное меню состоит из 13 пунктов, среди которых следующие пункты:

Transform - включает способы преобразования данных, такие как логарифмирование, исключение тренда и др.;

Plot - содержит различные виды графиков;

Судебная статистика 2016.dat Le i s \ш ж

File Edit Transform Plot Univariate Multivariate Model Diversity Timeseries Geometry Stratigraphy Script Help

Show Click mode Edit View

' □ Row attributes о Select & Cut Щ Paste □ Bands

J Column attributes Drag rows/columns Ш Copy Selects И □ В lactate (3/0)

Поступило уголовных дел, ед. Число осужденных лиц, чел. С D Б *

Центральный • 155962 U

Северо-Западный * 90536 66565

Южный • 97561 78340

Северо-Кавказский * 38192 32913

Приволжский • 198567 164948

Уральский * 100335 8214В

Сибирский * 177771 141147

Дальневосточный * 6040 S 45614

L

Рис. 3. Рабочее окно программы PAST

Univariate - служит для выполнения одномерного анализа, а именно: расчета описательных статистик, выполнения дисперсионного анализа, установления нормальности распределения и др.;

Multivariate - включает многомерные методы анализа, такие как дискриминантный, кластерный, дисперсионный и др.;

Model - служит для расчета параметров различных моделей;

Timeseries - ипользуется для анализа временных рядов и прогнозирования и включает такие методы, как ARIMA, спектральный анализ, декомпозиция и др.

Помимо большого количества статистических методов, PAST имеет еще ряд преимуществ. Например, эта программа не требует установки и может работать даже с флешки (USB-флеш-накопитель). Несомненными достоинствами программы являются интуитивно понятный интерфейс и удобные способы ввода исходных данных (импорт из других файлов, ручной ввод, включая команды копировать/вставить).

К недостаткам программы можно отнести отсутствие русскоязычной версии программы, русскоязычной литературы, предназначенной для освоения программы и достаточно узкое представление графического метода анализа.

Microsiris. Это универсальная статистическая программа с закрытым исходным кодом, предназначенная для Windows. Программа разработана в Мичиганском университете. Microsiris может импортировать до 20 тыс. переменных из SPSS, SAS, STATA, и Excel и обрабатывать до 80 тыс. переменных. В программе реализовано дерево решений, которое помогает выбирать статистические мето-

ды, соответствующие целям и условиям конкретного анализа [12].

К недостаткам программы можно отнести сложный для восприятия интерфейс, отсутствие русскоязычной версии и русскоязычной литературы по освоение программы.

MS Excel. Говоря о статистических программных пакетах, нельзя не упомянуть о MS Excel и его надстройке для выполнения статистического анализа AtteStat. MS Excel представляет собой мощный табличный процессор, ориентированный на решение различных аналитических задач, встающих перед пользователем. Работа в программе Excel организована в виде рабочей книги, состоящей из 255 рабочих листов, каждый из которых может содержать до 65 536 строк и 256 столбцов. Excel имеет большой спектр возможностей для решения аналитических задач и наглядного представления полученных результатов, а также обладает широкими возможностями для проведения статистического анализа данных. Для этой цели служат специализированные надстройки «Пакет анализа», AtteStat, «Сводная таблица» и 78 статистических функций, представленных в приложении «Мастер функций».

С точки зрения статистического анализа программа «Сводная таблица» в Excel служит для выполнения группировки данных, а также расчета групповых и общих описательных статистик.

Надстройка «Пакет анализа» содержит 19 инструментов анализа данных, включая такие как: однофакторный и двухфакторный дисперсионный анализ с повторениями и без повторений, корреляция, ковариация, описательная статистика, экспоненциальное сглаживание, двухвы-

u> •Ь

-e-

o

Возможности пакета

Наименование пакета Расчет описательных Выборочное наблюдение Проверка гипотез Дисперсионный анализ Анализ временных рядов и про- Корреляционный анализ Регрессионный анализ Многомерные статистические Графический метод анализа Особенности

статистик гнозирование методы

Среда R ++ ++ ++ ++ ++ ++ ++ ++ ++ Кросс-платформенный пакет. Широкие возможности использования. Трудоемкость в освоении.

Macanova + + + ++ ++ + + + + Кросс-платформенный пакет. Отсутствие литературы на русском языке. Сложности сустановкой. Язык команд

Vista + + + + + + + + Отсутствие литературы на русском языке. Есть тех. поддержка

Gretl + + + + ++ + + + Есть русскоязычная версия. Кросс-платформенный пакет. Неудобный ввод данных

Jmulti + ++ Кросс-платформенный пакет. Предназначен для анализа временных рядов и прогнозирования

SALSTAT (BETA) + + + + + + Отсутствие литературы на русском языке.

MYSTAT + + + + + + + + Бесплатная студенческая версия программы 5у5й?

lnStat+ + + + + + + + Предназначен для выполнения простого статистического а нал иза

Micros iris + + + + + + + Сложный интерфейс. Отсутствие литературы на русском языке

PSPP + + + + + + + + Есть русскоязычная версия. Кросс-платформенный пакет

PAST + + + + + + + + + Программа не требует установки.

G7 (7.375) + + +

FACTOR (7,0) ++ Количество переменных для анализа не ограничено

SAS + + + + + + + + + Высокая стоимость

BMDP + + + + + + + + + Высокая стоимость

MS Excel и Attestât + + + + + + + + +

SPSS Высокая стоимость.

Есть русскоязычная версия

Statistica Высокая стоимость.

Есть русскоязычная версия

SyStat + + + + + + + + + Высокая стоимость

Stadia + + + + + + + + + Российский стат. пакет

Олимп + + + + ++ + + + + Российский стат. пакет

Мезозавр ++ Российский стат. пакет

Эвриста ++ + + + + Российский стат. пакет

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

САНИ ++ Российский стат. пакет

s

X

■е-

о

5

о

о о

с

■е-

с §

3 ■8 о

ГО

U 3

го о 0\ »

Ï 3 ? "О С< С п ^

3

о

3 с

о

3

0

СV

1 о-

S з

с 43 с о

ГО f\J

о чз 5 о

с ï ■е-

о "О

Q £ С О X X

О" ГС С

s

ГС эс

3

о X X

О" ГС

3 %

X §

о см С

с

Ю «

Q

О

О

Сс

О

■е-«

гс

о .с с с

â s1

о Р\

^ S

Q С

ia -С

F а

g N

борочный F-тест для дисперсий, анализ Фурье, гистограмма, скользящее среднее, генерация случайных чисел, ранг и персентиль, регрессия, выборка, парный двухвыборочный f-тест для средних, двухвыборочный f-тест с одинаковыми и различными дисперсиями и двухвыборочный z-тест для средних [4].

Расширением возможностей статистического анализа надстройки «Пакет анализа» является бесплатная надстройка Attestat. Для реализации надстройки Attestat, ее необходимо скачать с официального сайта и установить на рабочий компьютер. После чего Attestat будет автоматически запускаться при открытии MS Excel во вкладке «Надстройки».

В Attestat реализованы такие статистические методы, как метод кросс-табуляции, метод преобразования, включая преобразования Бокса-Кокса, Зиллнера-Реванкара и др., метод скользящего среднего, сигнулярный спектральный анализ, автокорреляция процесса, гармонический анализ Фурье, периодограмма, методы выявления сезонности во временном ряду, анализ выживаемости, контроль качества, метод рандомизации, параметрические и непараметрические методы проверки гипотез, методы распознавания, такие как линейный дискриминантный анализ Фишера, канонический дискриминантный анализ, пробит-анализ и др., различные методы обработки выделяющихся наблюдений, одномерные и многомерные методы проверки нормальности распределения, различные методы логической обработки пропущенных значений, методы шкалирования,

методы обработки экспертных оценок, включая метод средних рангов, парные сравнения, групповое оценивание и др., методы факторного, кластерного, корреляционного, регрессионного и дисперсионного анализов [4].

С учетом того, что надстройка Attestat охватывает большое количество различных методов и относится к универсальным программам, многие общестатистические разделы представлены достаточно узко. Так, например, в Attestat не представлен метод экспоненциального сглаживания, методы ARFIMA, ARIMA и др.

PSPP [15]. Программа является кросс-платформенной и представляет собой универсальный пакет для статистического анализа. В настоящее время, помимо англоязычной версии программы, доступна и русскоязычная версия, что несомненно, является преимуществом среди других бесплатных статистических пакетов. К достоинствам этой программы также можно отнести наличие не только графического пользовательского интерфейса, но и традиционного интерфейса командной строки.

Организация работы в PSPP аналогична коммерческой программе SPSS. Так, например, редактор данных разделен на две составляющие: просмотр данных и просмотр переменных, соответственно, где вводятся значения переменных и задаются их спецификации. Окно редактора данных программы PSPP представлено на рис. 4. В качестве примера введены данные по коэффициенту преступности на 100 тыс. чел. населения по субъектам РФ за 2015 г.

Рис. 4. Окно редактора данных программы PSPP

В качестве основного аргумента в пользу выбора программы РБРР для анализа данных можно отнести то, что она располагает большим количеством распространенных статистических методов. Так, РБРР позволяет выполнять группировку данных, делать преобразования данных, рассчитывать описательные статистики, выполнять дисперсионный, корреляционный, регрессионный, кластерный, факторный анализы, рассчитывать непараметрические критерии, строить ДОС-кривую [3, 7] и простые графики.

Существенным недостатком программы является отсутствие возможности выполнять анализ временных рядов и строить прогнозы.

Для выполнения анализа временных рядов и прогнозирования разработано большое количество специализированных пакетов, таких как вгв^, тиШ, О7, «Мезозавр», «Эвриста», «САНИ» и др.

Обобщая проведенный аналитический обзор пакетов прикладных программ, можно сформировать пользовательский классификатор (табл. 2) существующих пакетов прикладных программ для анализа судебной статистической информации, содержащий прикладную характеристику пакетов

по основным прагматическим показателям, а также сделать следующие выводы:

Современные бесплатные статистические программы не уступают коммерческим по своим возможностям и интерфейсу.

Выбор того или иного пакета должен отвечать целям и требованиям конкретного исследования.

Для анализа временных рядов и прогнозирования целесообразно остановиться на одном из специализированных пакетов, которые включают исчерпывающий спектр статистических методов в этой области.

Таким образом, на основе сравнительного технико-экономического анализа и классификация существующих статистических пакетов прикладных программ обоснован классификатор современных наиболее популярных пакетов прикладных программ для многоаспектного анализа судебной статистической информации, содержащий прикладную характеристику пакетов по основным прагматическим показателя, а также выявлены их достоинства и недостатки и сформулированы рекомендации по выбору статистических пакетов.

Рецензент: Барабанов Александр Владимирович, кандидат технических наук, доцент, г. Москва, Россия.

E-mail: a.barabanov@npo-echelon.ru

Литература

1. Ashlee Vance. Data Analysts Captivated by R's Power. The New York Times, 6.01.2009. Режим доступа: http://www.nytimes.com/2009/01/07/ technology/ business-computing/07program.html (дата обращения: 11.04.2017г.).

2. Богданова М. В., Пантелина Л. С. Кластерная классификация факторных показателей нормы управляемости и компонентный анализ // Вестник Университета (ГУУ). 2013. №7. С. 13-19.

3. Ловцов Д. А., Князев К. В. Защищённая биометрическая идентификация в системах контроля доступа. II. Качество информационно-математического обеспечения // Информация и космос. 2013. № 2. С. 95-100.

4. Ловцов Д. А., Богданова М. В., Паршинцева Л. С. Основы статистики: Учеб. пособие. М.: РГУП, 2017. 150 с.

5. Ловцов Д. А., Черных А. М. Модернизация системы судебной статистики на основе новой геоинформационной технологии // Правовая информатика. 2016. № 1. С. 7-14.

6. Научно-производственное общество «Информатика и компьютеры» [Электронный ресурс]. Режим доступа: http://statsoft.msu.ru/products.htm (дата обращения: 10.04.2017 г.).

7. Паклин Н. Логистическая регрессия и ROC-анализ - математический аппарат [Электронный ресурс].

Режим доступа: http://www.basegroup.ru/library/ analysis/regression/logistic/ (дата обращения: 11.04.2017 г.).

8. Прикладная математическая статистика: Учеб. пособие / О. Г. Берестнева, О. В. Марухина, Г. Е. Шевелев. Томск: Изд-во Томского политехн. ун-та, 2012. 188 с.

9. Программа R [Электронный ресурс]. Режим доступа: https://cran.r-project.org/mirrors.html (дата обращения: 11.04.2017 г.).

10. Программа InStat+ [Электронный ресурс]. Режим доступа: https://www.reading.ac.uk/ssc/resourcepage/ instat.php (дата обращения: 11.04.2017 г.).

11. Программа MacANOVA [Электронный ресурс]. Режим доступа: http://www.stat.umn.edu/ macanova/macanova.home.html (дата обращения: 11.04.2017 г.).

12. Программа Microsiris [Электронный ресурс]. Режим доступа: http://www.microsiris.com/ (дата обращения: 11.04.2017 г.).

13. Программа MyStat [Электронный ресурс]. Режим доступа: https://systatsoftware.com/ (дата обращения: 11.04.2017 г.).

14. Программа PAST [Электронный ресурс]. Режим доступа: http://www.nhm.ac.uk/about-us/page-not-found.html (дата обращения: 11.04.2017 г.).

15. Программа PSPP [Электронный ресурс]. Режим доступа: https://www.gnu.org/software/pspp/ (дата обращения: 11.04.2017 г.).

i Надоели баннеры? Вы всегда можете отключить рекламу.