Научная статья на тему 'Статистические пакеты программ в социально-экономических исследованиях'

Статистические пакеты программ в социально-экономических исследованиях Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
1702
203
Поделиться
Ключевые слова
СТАТИСТИКА / STATISTICS / ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ / SOFTWARE / КЛАССИФИКАЦИЯ / CLASSIFICATION / СОЦИАЛЬНО-ЭКОНОМИЧЕСКИЕ ИССЛЕДОВАНИЯ / SOCIO-ECONOMIC STUDIES / СТАТИСТИЧЕСКИЙ ИНСТРУМЕНТАРИЙ / STATISTICAL TOOLS / РЕЙТИНГ / ПРОГРАММЫ ДЛЯ ОБРАБОТКИ ДАННЫХ / THE RATING OF THE PROGRAM TO PROCESS THE DATA / SPSS / SAS / STATISTICA / STATA / PYTHON / EVIEWS / ПРОГРАММЫ С ОТКРЫТЫМ КОДОМ / OPEN-SOURCE SOFTWARE

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Цыпин Александр Павлович, Сорокин Александр Сергеевич

В настоящей статье проводится сравнительный анализ имеющегося на сегодня программного обеспечения в области статистических исследований. Цели написания статьи систематизировать классификации программного обеспечения для обработки статистических данных и обозначить современные тенденции в развитии информационных технологий в этой области. В качестве основного метода используется метод сравнения на основе открытых источников информации, а также практического опыта работы авторов в пакетах программ для статистической обработки данных. Результатами проведенного исследования можно считать следующие: на основе критического анализа имеющихся классификаций пакетов статистических прикладных программ была предложена расширенная классификация программного обеспечения для управления, статистической обработки данных и их «добычи» из «больших» массивов (big data) по критериям функциональности, производительности, стоимости, решаемым задачам, специализации и прочим параметрам; выделены требования, предъявляемые пользователями к статистическим пакетам программ; на базе ряда критериев проведена сравнительная оценка универсальных статистических программ; отмечены современные тенденции в развитии рынка программного обеспечения для статистической обработки данных. Отдельное внимание уделено обзору методической литературы по популярным пакетам прикладных программ для обработки данных. Полученные результаты будут полезны исследователям при выборе программного продукта для проведения статистической обработки массивов информации в социально-экономической области и других смежных областях.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Цыпин Александр Павлович, Сорокин Александр Сергеевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

STATISTICAL SOFTWARE PACKAGES IN SOCIAL AND ECONOMIC RESEARCHES

This paper presents a comparative analysis of existing software in the field of statistical research.The main goal is to systematize classification of software for statistical data processing and to reveal current trends in the development of information technologies in this area. The main method used in the paper is the method of comparison based on open sources of information, as well as the practical experience of the authors in the software for statistical processing. The results of the study are the following: on the basis of a critical analysis of existing classifications of statistical packages authors proposed an enhanced software classification for management, statistical data processing and their "extraction" of "large" arrays (bigdata) by functionality criteria, performance, cost, solved problems, specialization and other parameters; authors highlighted the customer requirements for the statistical packages; on the basis of several criteria authors conducted a comparative evaluation of universal statistical software; authors noted the current trends in the development of the software market for statistical data processing. Special attention is given to the review of methodological literature on popular software packages for data processing. The results will be useful to researchers when choosing software for statistical processing of data arrays in the socio-economic and other related fields.

Текст научной работы на тему «Статистические пакеты программ в социально-экономических исследованиях»

УДК 330.47

СТАТИСТИЧЕСКИЕ ПАКЕТЫ ПРОГРАММ В СОЦИАЛЬНО-ЭКОНОМИЧЕСКИХ

ИССЛЕДОВАНИЯХ

© 2016

Цыпин Александр Павлович, кандидат экономических наук, доцент кафедры «Статистика и эконометрика»

Оренбургский государственный университет (460018, Россия, Оренбург, просп. Победы, д. 13, e-mail: zipin@yandex.ru) Сорокин Александр Сергеевич, кандидат экономических наук, доцент, доцент кафедры «Математические методы в экономике» Российский экономический университет им. Г.В. Плеханова (117997, Россия, Москва, Стремянный пер., 36, e-mail: alsorokin@mail.ru)

Аннотация. В настоящей статье проводится сравнительный анализ имеющегося на сегодня программного обеспечения в области статистических исследований. Цели написания статьи - систематизировать классификации программного обеспечения для обработки статистических данных и обозначить современные тенденции в развитии информационных технологий в этой области. В качестве основного метода используется метод сравнения на основе открытых источников информации, а также практического опыта работы авторов в пакетах программ для статистической обработки данных. Результатами проведенного исследования можно считать следующие: на основе критического анализа имеющихся классификаций пакетов статистических прикладных программ была предложена расширенная классификация программного обеспечения для управления, статистической обработки данных и их «добычи» из «больших» массивов (big data) по критериям функциональности, производительности, стоимости, решаемым задачам, специализации и прочим параметрам; выделены требования, предъявляемые пользователями к статистическим пакетам программ; на базе ряда критериев проведена сравнительная оценка универсальных статистических программ; отмечены современные тенденции в развитии рынка программного обеспечения для статистической обработки данных. Отдельное внимание уделено обзору методической литературы по популярным пакетам прикладных программ для обработки данных. Полученные результаты будут полезны исследователям при выборе программного продукта для проведения статистической обработки массивов информации в социально-экономической области и других смежных областях.

Ключевые слова: статистика, программное обеспечение, классификация, социально-экономические исследования, статистический инструментарий, рейтинг, программы для обработки данных, SPSS, SAS, Statistica, Stata, R, Python, EViews, программы с открытым кодом.

STATISTICAL SOFTWARE PACKAGES IN SOCIAL AND ECONOMIC RESEARCHES

© 2016

Tsypin Alexander Pavlovich, Ph.D in economics, associate professor at the department

of Statistics and econometrics Orenburg State University (460018, Russia, Orenburg, Pobedy avenue, 13, e-mail: zipin@yandex.ru) Sorokin Alexander Sergeevich, Ph.D in economics, associate professor at the department of Mathematical methods in economics Plekhanov Russian University of Economics (113054, Russia, Moscow, lane Stremyanny, 36, e-mail: alsorokin@mail.ru)

Abstract. This paper presents a comparative analysis of existing software in the field of statistical research.The main goal is to systematize classification of software for statistical data processing and to reveal current trends in the development of information technologies in this area. The main method used in the paper is the method of comparison based on open sources of information, as well as the practical experience of the authors in the software for statistical processing. The results of the study are the following: on the basis of a critical analysis of existing classifications of statistical packages authors proposed an enhanced software classification for management, statistical data processing and their "extraction" of "large" arrays (bigdata) by functionality criteria, performance, cost, solved problems, specialization and other parameters; authors highlighted the customer requirements for the statistical packages; on the basis of several criteria authors conducted a comparative evaluation of universal statistical software; authors noted the current trends in the development of the software market for statistical data processing. Special attention is given to the review of methodological literature on popular software packages for data processing. The results will be useful to researchers when choosing software for statistical processing of data arrays in the socio-economic and other related fields.

Keywords: statistics, software, classification, socio-economic studies, statistical tools, the rating of the program to process the data, SPSS, SAS, Statistica, Stata, R, Python, EViews, open-source software.

Увеличивающийся в последнее десятилетие информационный поток неизбежно приводит к накоплению огромного массива информации, и в настоящее время перед научными кругами стоит задача анализа так называемых «больших данных» (big data). Из этого следует, что без программного обеспечения проанализировать такие массивы информации невозможно. Выявить явные и скрытые закономерности призваны статистические пакеты программ (СПП).

В связи с этим встает проблема выбора подходящего программного продукта, отвечающего запросам исследователя и(или) целям проводимого исследования. Сделать выбор из множества существующих пакетов не просто в силу отсутствия системной информации о современных статистических пакетах.

Из вышесказанного вытекают цели проводимого исследования, которые заключаются в сравнительном анализе статистических пакетов программ для прове-АНИ: экономика и управление. 2016. Т. 5. № 4(17)

дения исследования социально-экономических явлений и оценки сложившихся тенденций в развитии рынка СПП.

Рассмотрение теоретических основ в вопросе выбора статистического программного обеспечения приводит нас к трем работам: Айвазян С. А., Степанов В. С. (1997) [1]; Молчанов И. Н., Хаджиев В. (2001) [2]; Пана-рина Д. В. (2015) [3]. Представленные авторы оценивают усеченный круг пакетов по незначительному набору показателей. Наиболее развернутое представление дает нам ресурс «ВикипедиЯ» в публикации Comparison of statistical packages [4, 5], несомненным достоинством рассматриваемого материала является оценка возможностей пакетов по самым востребованным инструментам: графическое представление информации, регрессионный анализ, анализ временных рядов, дисперсионный анализ и ряда других методов.

Далее, опираясь на ранее проведенные исследования

и материалы в сети интернет, а также руководствуясь собственным опытом использования статистических пакетов программ, рассмотрим классификацию пакетов по разным признакам. Необходимость разработки классификации обусловлено такими причинами как: внушительным количеством СПП; использованием СПП в различных областях научных знаний (социология, политология, история, археология, банковское дело, страхование, биология, медицина и т.д.); различными требованиям к уровню подготовленности пользователя и другими факторами.

Рассмотрение работ в области информационных технологий позволяют нам утверждать, что однозначной группировки статистических пакетов программ не существует, поэтому будем опираться на мнение ряда авторов [6, 7] и накопленный авторами опыт.

!россплатфор-

(есГХет)

Рисунок 1 - Расширенная классификация статистических пакетов программ

Итак, можно выделить несколько классификационных признаков (рисунок 1).

1. В зависимости от страны происхождения:

1.1. Зарубежные (иностранные) пакеты: STATGRAPHICS, SPSS, STATA, SAS, STATISTICA, EViews, Kxen, S-plus и т.д.

1.2. Отечественные пакеты: Deductor, Prognoz Platform, STADIA, ЭВРИСТА, МИЗОЗАВР, ОЛИМП: Стат-Эксперт, Статистик-Консультант, САНИ, КЛАСС-МАСТЕР и т.д.

Обе группы имеют ряд существенных недостатков. Так многие отечественные разработки не могут конкурировать по спектру представленных статистических методов (небогатый инструментарий), методическому обеспечению, технической поддержке. Также стоит отметить, что вследствие интервенции иностранных пакетов и отсутствия серьезных инвестиций в развитие, большинство перечисленных некоммерческих отечественных продуктов (если не все) прекратило свое существование.

В свою очередь, иностранные пакеты имеют следующие недостатки: во-первых, в основной своей массе не русифицированы, что значительно сужает круг пользователей и осложняет освоение программ. Этот же недостаток распространяется на методическое обеспечение; во-вторых, имеют значительную стоимость, что при высоком курсе доллара относительно российского рубля, порождает проблему интеллектуального пиратства.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Нельзя не отметить о вступлении с 1 января 2016 года Закона о преференциях для российского программного обеспечения и создании Единого реестра российских программ для электронных вычислительных машин и баз данных. Закон направлен на расширение сфер использования отечественных компьютерных программ и баз данных. Принятие данного Закона в свою очередь ограничило использование иностранных коммерческих программ для бизнес-аналитики в государственных компаниях. Что привносит «призрачную» надежду на возрождение российских разработок в рассматриваемой предметной области.

2. По доступности (платности):

2.1. Бесплатные пакеты: R, Python, Rapid Miner, BV4.1, GeoDA, Winpepi, Epi Info, X-12-ARIMA и др.

2.2. Платные: Deductor, Prognoz Platform, SPSS, STATA, SAS, STATISTICA, EViews, Maple, Mathematica, MATLAB и др.

Многие бесплатные пакеты характеризуется «скудным» набором статистических методов и призваны решать специфические задачи в конкретных предметных областях, например, при проведении переписей или оценки эпидемиологической обстановки. К справедливости стоит отметить, что среди бесплатных пакетов есть и «лидеры» (R, Python, Rapid Miner) по количеству реализуемых методов, приближающихся к продуктам второй группы. В свою очередь, пакеты, входящие в группу 2.2, предлагают пользователю богатый «арсенал» статистических методов, которые можно использовать в различных областях научных знаний, но «требует» за это весьма внушительные денежные средства.

Следует отметить, что непосредственно сравнение платных и бесплатных программ не совсем корректно. Это разные по назначению и функционалу программы. Многие платные программы представляют собой не только инструмент статистической обработки данных, но и систему хранилищ данных, интегрированную в бизнес-среду компаний, систему отчетов для управления и т.д., т.е. это не просто пакеты для обработки данных, а инструменты Business intelligence (BI). Стоимость внедрения таких пактов может достигать сотни тысяч долларов (SAS, SPSS Modeler), но оправдывает себя с точки зрения последующей отдачи от внедрения. В основном рассматриваемая группа пакетов предназначена для использования на крупных предприятиях и не доступна частным исследователям.

3. По функциональности (аналитическим возможностям, набору инструментария):

3.1. Универсальные пакеты (общего назначения или профессиональные): SPSS, STATA, STATISTICA, S-PLUS, SAS, Deductor, Prognoz Platform и др.

3.2. Специализированные пакеты: BioStat, EQS, ЭВРИСТА, GWR4, GeoDA, Arrow Model и др.

Статистические методы в большинстве инварианты по отношению к исходным данным и предметной области. Пакеты из первой группы не ориентированы на специфическую предметную область и могут применяться для анализа данных, формируемых и исследуемых в различных сферах деятельности человека. Как правило, они предлагают широкий диапазон статистических методов и имеют относительно простой интерфейс. Многопрофильность универсального пакета позволяет провести подробный анализ различных типов, данных с использованием широкого диапазона статистических методов. Большинство существующих универсальных пакетов имеют много пересечений по составу встроенных статистических процедур и являются конкурирующими продуктами по отношению друг к другу. Их основное отличие состоит в способах реализации интерфейса программы.

В свою очередь, специализированные пакеты позволяют проводить анализ с использованием ограниченного числа специализированных статистических методов или применимы к решению вопросов, относящихся к отдельно взятой предметной области. Как правило, с подобными статистическими пакетами работают специалисты, хорошо знакомые с методами анализа данных в той области, на которую ориентирован пакет. Минусом данного вида продуктов является тот факт, что освоение пакета требует от пользователя знания «механики» статистических процедур, что является несомненным барьером для их распространения.

Рассматриваемая классификация по функциональности может быть дополнена еще двумя группами пакетов.

3.3. Табличные редакторы (процессоры) - Excel (Microsoft Office), Calc (OpenOffice), Lotus 1-2-3 (Lotus SmartSuite); Quattro Pro (WordPerfect Office); Numbers (iWork). Эти программы не имеют своим основным назначением профессиональный статистический анализ данных и предназначены для быстрого ввода числовых данных, их редактирования и преобразования в необходимый формат. Плюсы: русскоязычные, импорт информации из баз данных, совместимость с основными статистическими пакетами программ, возможно использование для «разведочного» анализа данных. Минусы: представлено незначительное количество статистических алгоритмов и процедур обработки данных, в связи с чем возникает невозможность их применения для глубокого анализа и обработки больших массивов информации. Отдельным пунктом нельзя не упомянуть о популярной программе MS Excel. Многие исследователи начинают осваивать статистических анализ именно в этой программе, реализуя алгоритмы статистических расчетов с помощью формул.

В арсенале MS Excel для проведения статистического исследования имеются встроенные статистические функции и надстройка «Анализ данных» с реализованными основными процедурами базового статистического анализа.

Существует и возможность автоматизации расчетов и визуализации данных с помощью языка программирования VBA. Также на рынке присутствует коммерческий пакет XLStat, позволяющий реализовать основные процедуры статистического анализа, доступные в универсальных программах, прямо в Excel.

Данный пакет практически не распространен в России, но пользуется большой популярностью в Европе. Причина этого кроется в невысокой стоимости относительно универсальных программ.

3.4. Математические пакеты программ (MathCad, Maple, MATLAB, Mathematica и др.) позволяют проводить аналитические исследования любой сложности, рассчитанными на исследователя с обширными математическими знаниями. Плюсы: русскоязычные, пакеты имеют возможность реализации статистических методов любой сложности. Минусы: требуют от исследователя знания алгоритмов построения статистических процедур. В основном эти пакеты предназначены для автоматизации проектирования и инженерных расчетов, а не для прикладного статистического анализа.

Еще один критерий классификации очень тесно пересекается с критерием доступности.

4. По открытости исходного программного кода:

4.1. Программы с открытым программным кодом (open-source software), в этой группе лидерами являются пакеты R и Python.

4.2. Программы с закрытым программным кодом (SAS, STADIA, SPSS, STATA и др.).

Исходный код первых программ доступен для просмотра, изучения и изменения, что позволяет пользователю принять участие в доработке самой открытой программы, использовать код для создания новых программ или процедур обработки данных, исправления ошибок в коде других авторов - через заимствование исходного кода, если это позволяет совместимость лицензий, через изучение использованных алгоритмов, структур данных, технологий, методик и интерфейсов. Плюсы таких программ: бесплатность и большая гибкость. Минусы: требуются навыки программирования при работе с такими программами, это работа с командной строкой при создании кода, хотя существуют и специальные приложения к таким программам для работы с диалоговыми окнами как в универсальных программах (например, пакет R-Studio для R).

Еще одним дополнительным критерием к классификации по функциональному назначению является:

5. Возможность «добычи данных»:

5.1. Программы для классического статистического анализа - SPSS, Statistica, Stata и т.д.

5.2. Программы для «добычи данных» - SAS Enterprise Miner, SPSS Modeler, Rapid Miner, Statistica Data mining, R, Python, KNIME, Prognoz Platform и др.

Функционал первой группы программ представлен процедурами управления данными, разведочного анализа данных и статистическими методами (проверка гипотез, корреляционно-регрессионный анализ, дисперсионный анализ и т.д.).

Вторая группа представляет собой инструменты Business intelligence (сокращённо BI). Синонимом BI является «добыча данных» (Data mining), «разведка данных», «извлечение информации», «раскопка данных», «просев информации», «интеллектуальный анализ данных», «обнаружение знаний в базах данных» и др. Это собирательное название совокупности методов обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных для интерпретации знаний для принятия решений в различных сферах человеческой деятельности.

Данное определение было дано основоположником направления Data mining Григорием Пятецким-Шапиро в 1989 году. Как правило, лидеры рынка коммерческих СПП имеют соответствующее решение для «добычи данных». Четкой грани между классическим статистическим анализом и «добычей данных» не существуют. Методы «добычи данных» находятся на стыке методов статистики, методов оптимизации и методов машинного обучения. Функционал программ второй группы дополняется, например, алгоритмами поиска ассоциативных правил, нейронными сетями, сложными алгоритмами кластеризации и др.

Например, IBM имеет два продукта: SPSS Statistics

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

- пакет для статистической обработки, и SPSS Modeler

- пакет для «добычи данных» и моделирования; SAS аналогично имеет универсальную платформу SAS Enterprise и решение для data mining - надстройку Miner. Программа Statistica имеет отдельно лицензируемый модуль, интегрируемый в основную платформу, Statistica Data Miner. В качестве инструментов для решения задач поиска нетривиальных или латентных закономерностей могут быть использованы и бесплатные программы: Rapid Miner, R, Python.

Говоря о BI программах, нельзя не упомянуть и о рейтинге Gartner, так называемом «магическом квадранте платформ углубленной аналитики» (рисунок 2). Это рейтинг, построенный в виде системы координат, где на горизонтальной оси измеряется полнота видения (completeness of vision), а на вертикальной оси - способность реализации (ability to execute). Каждый поставщик решений в той или иной категории оценивается по этим двум критериям, попадая в один из четырех квадрантов. Лидерами становятся поставщики с положительными оценками по обоим показателям (верхний правый квадрант). Рейтинг Gartner - один из самых престижных: даже попадание в квадрант с отрицательными оценками по обеим осям оценивается как успех (нижний левый квадрант). В 2012 г. в нижний левый квадрант попала российская разработка Prognoz Platform.

Следующие критерии - это программная реализация интерфейса работы и кросс-платформенность СПП.

6. По интерфейсу работы:

6.1. Программы с интерфейсом командной строки (Command line interface) - R, Python.

6.2. Программы с интерфейсом в виде меню и диалоговых окон (Menu interface) - SPSS, Stata, Statistica, EViews.

6.3. Программы с графическим интерфейсом визуального моделирования (graphical user interface) -SAS Enterprise Miner, SPSS Modeler, Statistica Data Miner.

СПП первого типа предполагают взаимодействие пользователя и компьютера путем ввода с клавиатуры

текстовых команд, это схоже с работой с языками программирования. Плюсы: возможность автоматизации и гибкость реализации решений. Минусы: требуются навыки программирования и знание алгоритмов работы статистических процедур.

Претенденты Лидеры

т SAS О IBM

=г го со ^ с; го о SAP Angösse • • KNIME О Rapid Miner • Dell

л 1— Fl соф Q •Microsoft *Alteryx

о (^Prediction Software

ю о о о с О Lavastorm Megaputer ф Prognoz Hi Accenture ® Alpine Data

Нишевые игроки Провидцы

Завершенность видения

Рисунок 2 - Магический квадрант (источник: Garther, февраль 2016)

Второй тип программ предлагает пользователю выбор процедур управления данными и их анализа в меню программы, дальнейшую настройку опций работы в диалоговых окнах этих процедур. Плюсы: удобство для использования исследователями без соответствующего технического, математического образования, не обладающих навыками программирования. Минусы: отсутствие гибкости при реализации расчетов.

Последний недостаток отсутствует у коммерческих программ - лидеров рынка. Тенденция такова, что все современные универсальные СПП имеют возможность реализации процедур через меню, а также с помощью командной строки. Например, в пакетах Stata и EViews все расчеты можно выполнять с помощью командной строки или в меню, пакет SPSS имеет встроенный командный язык - синтаксис, с помощью которого можно автоматизировать рутинные операции и пользоваться процедурами недоступными в меню.

Последний тип интерфейса характерен, как правило, для инструментов data mining. Работа с такими инструментами происходит в среде визуального моделирования.

Основные процедурыуправления данными и их анализ графически изображаются в виде узлов, пользователь в процессе работы формирует потоки данных (stream) -последовательную их обработку на ряде узлов. Принцип работы с потоками позволяет исследователю работать с данными визуально и автоматизировать повторяющиеся операции путем запуска готовых потоков. Это несомненное преимущество этих программ.

Современные программы для обработки данных должны обладать кросс-платформенностью - возможностью работы в различной операционной среде. Большинство коммерческих прикладных программ для статистической обработки (SPSS, Stata, EViews и др.) и популярных бесплатных (например, R) являются кросс-платформенными.

7. По кроссплатформенности:

7.1. Программы под операционную систему Windows.

7.2. Программы под операционную систему Mac.

7.3. Программы под операционную систему Unix.

По возможности обработки больших массивов

данных и возможностью распределенной работы для коммерческих программ можно выделить такой критерий классификации, как наличие серверной версии.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

8. По возможность хранения данных и выполнения вычислений на сервере:

8.1. Локальные версии.

8.2. Серверные версии.

Основное отличие серверной от локальной версии в том, где хранятся данные и происходит их обработка. Серверные версии СПП не хранят обрабатываемые данные в оперативной памяти компьютера пользователя, не перезагружают процессор и оперативную память. Физических ограничений по объему обрабатываемой информации при серверном варианте нет, это зависит только от технических параметров сервера, где установлена программа. Наличие серверной версии -необходимое условие при обработке «сверх больших данных», в этом ее преимущество по сравнению с локальной. Минус: серверные версии стоят на порядок дороже локальных. Все коммерческие программы-лидеры имеют локальную и серверную версию.

Еще один критерий, который можно ввести для платных программ, отражающий современные тенденции в развитии СПП, возможность интеграции с другими ИТ-продуктами. И речь тут идет даже не о стандартных операциях экспорта и импорта данных в форматы других приложений по обработке данных, а о возможности чтения кода открытых программ.

9. По возможности интеграции:

9.1. Интегрируемые с программами с открытым кодом R, Python.

9.2. Не поддерживающие интеграцию с программами с открытым кодом

Интеграция с open-source software позволяет существенно расширить стандартный функционал программы, писать сценарии работы, создавать свои процедуры или диалоговые окна, автоматизировать процесс работы с данными. Так пакет SPSS - один из лидеров рынка универсальных пакетов для обработки данных - давно имеет интеграцию с R и Python. Интеграция с пакетом R появилась в последних версиях программы Statistica.

С точки зрения удобства пользователя можно ввести еще дополнительные критерии классификации.

10. По наличию русифицированной версии для зарубежных программ:

10.1. С русифицированным интерфейсом - SPSS, Statistica, .

10.1. С англоязычным интерфейсом - Stata, EViews, SAS и др.

Опять же популярные программы имеют возможность работы с интерфейсом и получением результатов обработки данных на разных языках. Наиболее удобный пакет по этому критерию - программа Statistica. Многие же пакеты имеют не совсем корректно переведенный с точки зрения содержания статистических процедур перевод - например, SPSS. Однако это не является их существенным недостатком.

11. По методическому обеспечению и справочной поддержке пользователя на русском языке:

11.1. С наличием встроенной справки на русском языке, множеством опубликованной литературы по использованию пакета.

11.2. Без встроенной справки на русском языке, практически с отсутствующей литературой на русском языке по работе с программой.

На обзоре отечественной литературы по наиболее популярному и востребованному для решения бизнес-задач СПП остановимся отдельно. Практически отсутствует литература на русском языке по пакету SAS - лидеру «магического квадранта». Во многом это объясняется «закрытой» политикой компании SAS и нацеленностью на крупные компании госсектора, финансового, нефтяного и газового, телекоммуникационного секторов.

Обучиться работе с программой долгое время можно было только на дорогостоящих корпоративных курсах SAS. Также крайне мало литературы по пакетам с англоязычным интерфейсом STATA [8, 9, 101 и EViews АНИ: экономика и управление. 2016. Т. 5. № 4(17)

[11, 12, 13] наиболее востребованными при проведении эконометрического моделирования: построении регрессий, анализе временных рядов и работе с панельными данными. В основном вся литература по этим пакетам представлена в виде небольших по объему учебных пособий.

Парадоксально, но фактически отсутствует литература по отечественным СПП, здесь можно обозначить работу [14] по исследованию данных в среде Deductor, в пакете STADIA [15].

Достаточно литературы по использованию пакета MS Excel для статистического анализа данных [11, 16, 17, 18]. Но основная особенность при работе в MS Excel (как отмечалось выше) - это не знание самой программы, а знание алгоритмов статистических методов и их реализация.

Больше всего методической литературы по пакетам SPSS и Statistica. Популярность первого вызвана тем, что данный универсальный пакет фактически является стандартом обработки социологических и маркетинговых данных на многих коммерческих предприятиях. А популярность второго наличием представительства в России - компании StatSoft, ведущим активную маркетинговую политику по продвижению своего продукта с удобным русифицированным интерфейсом и обширной справочной поддержкой. По SPSS достаточно общей литературы [19, 20, 21], а также специализированных изданий для социологов [22, 23], психологов [24], маркетологов [25, 26]. Аналогичная ситуация с пакетом Statistica [27, 28, 29, 30]. Преимуществом последнего пакета является наличие отдельных модулей с обширным функционалом по промышленной статистике [31] и построению нейронных сетей [32], пакет позволяет проводить обработку данных и эконометрических исследований [33, 34], пользуется популярностью при обработке данных клинических исследований в медицине[35].

Особо следует подчеркнуть в последнее время бурный рост публикаций, в том числе на русском языке, по машинному обучению и инструментам по добычи данных с открытым кодом: R [36, 37, 38, 39, 40, 41] и Python [42, 43], отражающий общую тенденцию развития и роста популярности программ с открытым кодом.

Подводя итоги проведенного исследования, можно обозначить следующие основные тенденции в развитии рынка СПП:

1. Рост доли на рынке бесплатных программ и программ с открытым кодом для анализа и «добычи данных». Производители платного СПП фактически признали конкурентами бесплатные пакеты (R, Python) и больше не могут игнорировать их. Все игроки рынка коммерческих программ вынуждены поддерживать интеграцию с этими пакетами, чтобы остаться в лидерах.

2. В целом наблюдается укрупнение рынка. Многие крупные системные интеграторы и компании IT-индустрии стали развивать направление бизнес-аналитики и поглощать компании-производителей СПП, что привело к бурному развитию последних. Так в 2009 г. компания IBM приобрела компанию SPSS, после чего продукты IBM SPSS Statistics и IBM SPSS Modeler стали занимать лидирующие позиции по мнению ряда экспертов на рынке прогнозной аналитики. В 2013 г. компания SAP купила компанию KXEN, зайдя на рынок программ BI и стала активно развивать это направление. В 2014 г. компания StatSoft была поглощена компанией Dell после чего программный продукт Statistica был дополнен инструментом анализа больших данных -Statistica Data Miner. В 2015 г. компания Revolution Analytics - разработчик продукта Revolution R -высокопроизводительной версии среды выполнения языка R для обработки «больших данных», была поглощена корпорацией Microsoft.

3. Появление бесплатных образовательных программ для студентов, преподавателей и исследователей от

ведущих игроков рынка СПП для популяризации своих продуктов. Так в 2010 г. компания SAS объявила о запуске в России и странах СНГ академической программы для вузов. В рамках данной программы преподаватели и студенты могут получить бесплатный доступ к программе SAS на облачном сервере и методические материалы для обучения. С 2016 г. подобную программу «Статкласс» предлагает в России компания IBM с продуктом IBM SPSS Statistics. Компания Dell постоянно проводит бесплатные семинары по использованию своего продукта Statistica и поддерживает на официальном сайте «портал знаний по статистике». Производители программ BI ежегодно проводят конкурсы научных работ, выполненных на своем программном обеспечении. По схожему пути пошла и российская компания Base Group c продуктом Deductor, предлагающая бесплатную версию для академических исследований и программу сотрудничества с ВУЗами. Российская компания «Прогноз» также проводит ежегодные конкурсы студенческих работ.

4. Развитие «облачных» технологий привело к возникновению сервисов по обработке данных в «облаке». Эти сервисы пока не могут конкурировать с обычными коммерческими программами по обработке данных, но в будущем, с высокой долей вероятности, потеснят игроков рынка. Особенно эти сервисы могут быть востребованы частными исследователями, которые не в состоянии приобрести дорогостоящие платные СПП. Первые шаги в этом направлении уже сделаны, так «облачные» технологии применяет компания SAS при реализации своей академической программы. Но в настоящее время остается масса нерешенных вопросов относительно перспектив развития таких сервисов для коммерческого использования, например, вопрос надежности хранения конфиденциальных данных в «облаке».

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Подводя итоги, можно сделать вывод, что выбор программного обеспечения для обработки социально-экономических данных - весьма непростой вопрос. Для того, чтобы статистический пакет программ был удобным и эффективным в работе, он должен удовлетворять многочисленным и весьма жестким требованиям:

- содержать значительный спектр статистических инструментов (процедур, методов);

- быть достаточно простыми для быстрого освоения и удобным в использовании;

- отвечать высоким требованиям к вводу, преобразованию и хранению наборов данных, также иметь возможность экспорта-импорта данных;

- иметь широкий набор средств графического представления данных и результатов;

- иметь подробную документацию (методическое обеспечение), достаточную для самостоятельного освоения исследователями, знакомыми со статистическими процедурами;

- быть доступным по цене, в идеале относиться к категории бесплатных продуктов.

СПИСОК ЛИТЕРАТУРЫ:

1. Айвазян С. А. Инструменты статистического анализа данных / С. А. Айвазян, В. С. Степанов // Мир ПК. - 1997. - № 8. - С. 32-41.

2. Молчанов И. Н. Статистическое программное обеспечение: тенденции и особенности развития / И. Н. Молчанов, В. Хаджиев // Вопросы статистики. -2001. - № 1. - С. 44-47.

3. Панарина Д. В. Использование статистических пакетов в экономических информационных системах / Д. В. Панарина // Экономика и предпринимательство. -2015. - № 12-2 (65-2). - С. 192-194.

4. Comparison of statistical packages (Сравнение статистических пакетов) [Электронный ресурс] / ВикипедиЯ - Режим доступа: https://en.wikipedia.org/ wiki/Comparison of statistical packages._

5. List of statistical packages (Список статистических пакетов программ) [Электронный ресурс] / ВикипедиЯ

- Режим доступа: https://en.wikipedia.org/wiki/List_of_ statistical_packages

6. Величко В. В. Сравнительный анализ статистических пакетов программ / В. В. Величко // Инновационная наука. - 2016. - № 5-2 (17). - С. 32-35.

7. Цыпин А. П. Информационное обеспечение процесса построения исторических временных рядов социально-экономических показателей России / А.П. Цыпин, А.Г. Ковалев // Интернет-журнал Науковедение. - 2014.

- № 6 (25). - С. 50.

8. Унгуряну Т. Н. Программное обеспечение для статистической обработки данных STATA: введение / Т. Н. Унгуряну, А. М. Гржибовский // Экология человека. - 2014. - № 1. - С. 60-63.

9. Ратникова Т. А. Анализ панельных данных и данных о длительности состояний: учебное пособие / Т. А. Ратникова, К. К. Фурманов ; Нац. исслед. ун-т «Высшая школа экономики». - М.: Изд. дом Высшей школы экономики, 2014. - 373 с.

10. Колеников С. О. Прикладной эконометрический анализ в статистическом пакете STATA: учебное пособие / С. О. Колесников. - М.: Российская экономическая школа, 2000. - 111 с.

11. Галиуллина Л. М. Методические указания по выполнению лабораторных работ по эконометрике (компьютерный практикум в Excel и EViews) / Л. М. Галиуллина.- Спб.: изд-во СПбГУЭФ, 2009.- 52 с.

12. Брюков в. Г. Как предсказать курс доллара: эффективные методы прогнозирования с использованием Excel и EViews. - М. Кнорус; ЦИПСиР, 2011. - 272 с.

13. Молчанов И. Н., Герасимова И. А. Компьютерный практикум по начальному курсу эконометрики (реализация на Eviews): практикум / Ростовский государственный экономический университет. - Ростов-н/Д., - 2001.

- 58 с.

14. Паклин Н. Б., Орешков В. И. Бизнес-аналитика: от данных к знаниям. - Спб: Питер, 2013. - 706 с.

15. Кулаичев А.П. Методы и средства анализа данных в среде Windows. STADIA. - М.: Информатика и компьютеры, 2002 - 341 с.

16. Вуколов Э. А. Основы статистического анализа: практикум по статистическим методам и исследованию операций с использованием пакетов STATISTICA и EXCEL. - М.: ФОРУМ: ИНФРА-М, 2004. - 464 с.

17. Сдвижков О. А. Непараметрическая статистика в MS Excel и VBA. - М.: ДМК Пресс, 2014 г. - 172 c.

18. Цыпин А. П. Статистика в табличном редакторе Excel: лабораторный практикум / А. П. Цыпин, Л. Р. Фаизова. - Оренбург: ОГУ, 2016. - 290 с.

19. Наследов А. IBM SPSS Statistics 20 и Amos: Профессиональный статистический анализ данных. -С-Пб.: Питер, 2013, - 416 c.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

20. Дубина И. Н. Математико-статистические методы в эмпирических социально-экономических исследованиях: учебное пособие. - М.: Финансы и статистика, Инфра-М, 2010, - 416 c.

21. Многомерный статистический анализ в экономических задачах. Компьютерное моделирование в SPSS: учебное пособие. / под ред. И. В. Орловой. - М.: Вузовский учебник, 2009, - 320 c.

22. Крыштановский А. О. Анализ социологических данных с помощью пакета SPSS: учебное пособие. - М.: ГУ ВШЭ, 2007, - 284 c.

23. Пациорковский В. В., Пациорковская В. В. SPSS для социологов: учебное пособие. - М.: ИСЭПН РАН, 2005, - 434 c.

24. Ермолаев-Томин О. Ю. Математические методы в психологии: учебник. - М.: Юрайт, 2012, - 511 c.

25. Нэреш К. Малхотра. Маркетинговые исследования с помощью SPSS: практическое руководство. - М.: Вильямс, 2006, - 1200 c.

26. Моосмюллер Г., Ребик Н. Н. Маркетинговые ис-384

следования с SPSS: учебное пособие. - М.: Инфра-М, 2011, - 200 с.

27. Боровиков В. П. Прогнозирование в системе STATISTICA в среде Windows: Основы теории и интенсивная практика на компьютере: учебное пособие. - М.: Финансы и статистика, 2006. - 368 с.

28. Боровиков В. П. Популярное введение в современный анализ данных в системе STATISTICA. - М.: Горячая линия - Телеком, 2013, - 288 с.

29. Халафян А. А. STATISTICA 6.0. Математическая статистика с элементами теории вероятностей. - М.: Издательство Бином, 2010. - 496 с.

30. Халафян А. А. STATISTICA 6.0. Статистический анализ данных. - М.: Издательство Бином, 2010. -528 с.

31. Халафян А. А. Промышленная статистика: контроль качества, анализ процессов, планирование экспериментов в пакете Statistica. - М.: Либроком, 2013.

32. Нейронные сети. Statistica neural networks: методология и технологии современного анализа данных / под. ред. В. П. Боровикова. - М.: Горячая линия -Телеком, 2008. - 392 с.

33. Плотников К. Э. Основы эконометрики в пакете STATISTICA: учебное пособие. - М.: Вузовский учебник, 2011. - 297 с.

34. Афанасьев В. Н. Эконометрика в пакете STATISTICA: учебное пособие / В. Н. Афанасьев, А. П. Цыпин. - Оренбург: ИП Кострицын, 2010. - 196 с.

35. Трухачева Н. В. Математическая статистика в медико-биологических исследованиях с применением пакета Statistica. - М.: ГЭОТАР-Медиа, 2012. - 384 с.

36. Шипунов А. Б. Наглядная статистика: используем r! - М.: ДМК Пресс, 2012. - 298 с.

37. Кабаков Р. И. R в действии. Анализ и визуализация данных на языке R. - М.: ДМК Пресс, 2013. - 580 с.

38. Джеймс Г., Уиттон Д., Хасти Т., Тибширани Р. Введение в статистическое обучение с примерами на языке R! - М.: ДМК Пресс, 2016. - 460 с.

39. Люк Д. Анализ сетей (графов) в среде R. Руководство пользователя - М.: ДМК Пресс, 2016. - 248 с.

40. Храмов Д. А. Сбор данных в интернете на языке R. - М.: ДМК Пресс, 2016. - 282 с.

41. Мастицкий С. Э., Шитиков В. К. Статистический анализ и визуализация данных с помощью R. - М.: ДМК Пресс, 2015. - 496 с.

42. Коэльо Л. П., Ричард В. Построение систем машинного обучения на языке Python / пер. с англ. Слинкин А. А. - М.: ДМК Пресс, 2016. - 302 с.

43. Маккинли У. Python и анализ данных / пер. с англ. Слинкин А. А. - М.: ДМК Пресс, 2015. - 482 с.

44. Мастицкий С. Э. Визуализация данных с помощью ggplot2. - М.: ДМК Пресс, 2016. - 222 с.

45. Куфель Т. Эконометрика. Решение задач с применением пакета программ GRETL / Т. Куфель. - М.: Горячая линия-Телеком, 2007. - 188 с.

46. Тарасов В. Н. Практические вопросы применения многомерной классификации распределенных информационно-вычислительных систем при решении проектных задач / В. Н. Тарасов, Д. В. Горбачев, Р. Н. Подольских // Интеллект. Инновации. Инвестиции. - 2015. - № 1. -С. 130-136.