Информационная система статистической обработки экономических данных (стэк)

Тынкевич Моисей Аронович; Болотова Ольга Сергеевна; Латышева Евгения Ильинична

УДК 519.2+004.4

М.А.Тынкевич, О.С.Болотова, Е.И.Латышева

ИНФОРМАЦИОННАЯ СИСТЕМА СТАТИСТИЧЕСКОЙ ОБРАБОТКИ ЭКОНОМИЧЕСКИХ ДАННЫХ (СТЭК)

Человек познавал окружающий мир и самого себя в этом мире на основе статистики, которая позволяла ему находить связи между явлениями. Человеческий разум при посредстве статистики и неотделимо сопровождающего ее математического аппарата породил как современную науку -астрономию и геологию, физику твердого тела и генетику, так человеческую этику понятий «хорошо» или «плохо». Экспоненциальный рост объемов информации во всех сферах и усложнения связей в обществе за последние три столетия привел к примату математики, для которой присущ лаконизм и обоснованность выводов. «В каждой естественной науке заключено столько истины, сколько в ней математики» (И. Кант).

Как и при решении любой обратной задачи -воспроизведения закона, которому следовала или следует некоторая система (техническая, экономическая и пр.), по результатам ее действий (часто неполным и извращенным внесистемными факторами, особенно в сфере денежных интересов) невозможно гарантировать надежность и однозначность получаемых выводов. Тем не менее такой поиск остается жизненной потребностью.

Наряду с многообразием других подходов, для анализа статистических данных используются методы математической статистики (регрессионный и дисперсионный анализ, анализ главных компонент, связанные с ними методы проверки гипотез), математическим аппаратом которой является теория вероятностей. Там, где удается из моря «дурной вероятности» выловить статистические закономерности (законы распределения и тенденции), с целью последующей оптимизации вступают в работу методы массового обслуживания (без них не могли бы проектироваться, например, современные средства массовых коммуникаций) и методы статистического моделирования (Монте-Карло ).

В последние 70 лет появилось великое множество алгоритмов анализа временных рядов, основанных на сочетании регрессионного анализа, спектрального анализа и эвристических подходов, вокруг которых не утихают споры. Предлагается многообразие специфических подходов к информации, предлагаемой статистикой рынка ценных бумаг, страхового дела. Хотя никаких революционных идей в обработке данных здесь не возникло, существует много фирм, дающих вполне правдоподобные прогнозы.

Для облегчения применения методов статистического анализа и прогнозирования на рынке программного обеспечения распространяются

сотни разных программных пакетов. Специализированные пакеты (Эвриста, МЕЗОЗАВР, ОЛИМП, СтатЭксперт, Forecast Expert) ориентированы на использование в специфической предметной области - страховое дело, статистика ценных бумаг и другие области анализа временных рядов

Пакеты общего назначения более популярны. Они обладают продуманным, дружественным к пользователю интерфейсом и относительно подробной документацией, широким спектром статистических функций, что привлекает как специалистов, так и новичков в статистике (SPSS, STATIS-TICA, STATGRAPHICS, S-plus, SAS, STADIA).

Тем не менее, наряду с весьма богатыми возможностями, есть в них и определенные минусы. Большинство пакетов имеет свою оригинальную систему подготовки данных, ограниченно русифицировано (многие понятия нестандартны и не согласуются с традиционными для классической литературы); богатство возможностей, обеспе-

ченное большим коллективом разработчиков в естественном стремлении «объять необъятное», перерастает в трудность восприятия рядовым пользователем, не отличающимся глубоким знакомством с подводной частью айсберга математической статистики.

Соответственно, экономист, инженер или

студент вынужден для выполнения небольшого и подчас элементарного анализа обращаться к объемистому дорогостоящему руководству, в котором, вместо хотя бы описания методов достижения целей и пояснения используемых понятий, он обнаруживает кнопочную технологию и последовательность экранов (если в описаниях библиотек программ 40-летней давности как зарубежные, так и отечественные авторы приводили методы и даже исходные модули, что делает их публикации вечными, то современные пособия, за малым исключением, живут не более 5- 10 лет, до усиленной рекламы следующего пакета).

Мы попытались построить компьютерную систему, предназначенную для пользователя, знакомого лишь с азами статистического анализа, который без длительного обучения мог бы “занести в компьютер“ свою информацию и удовлетворить свое любопытство на традиционном уровне познания основных статистических величин (среднее, дисперсия, вариация и пр.), установления факта нормальности или специфики данных, без чего последующий анализ может оказаться неправомерным, наличия корреляции, характера связей и тенденций (в рамках «джентльменского набора» математических кривых, популярного в

среде эконометристов). Мы не добивались повышенной точности получаемых оценок там, где это связано с излишествами расхода времени и памяти, поскольку точность порядка 0.1% в экономических оценках более чем приемлема.

Естественно, разработке пакета предшествовал определенный анализ математических соотношений, которые легли в его основу.

Основу всякого статистического анализа одномерной выборки Х=(х,, 1=1,Ы} составляют т.н. моменты, их производные и некоторые другие параметры эмпирического распределения.

Моменты первых порядков определяются традиционно, например, в несмещенных оценках

х 1 V

цх=х = N Vх1 I=1

N

■ среднее значение;

Бх = —— У \х,- - х I2 - дисперсия; N-1 / л

г =1

М3х =

1

N

( N-1)(N-2)

-л У1хг - х у

г=1

М4х=

М 4х =

N(N2-2N+3 )m4x-3■N(2N-3 )Б2х (N-1)(N-2)(N-3)

- моменты третьего и четвертого порядков, где

N

т4х = NУхг - хУ •

г=1

Среди других традиционных базовых характеристик:

- 5х = VБх - стандартное отклонение ;

- Ах =

М,х>

- коэффициент асимметрии,

определяющий смещение распределения вправо (Ах>0) и влево (Ах<0);

М 4х

- Эх = -

- - 3 - коэффициент эксцесса , ха-

рактеризующий остроту пика распределения (для нормального распределения эксцесс нулевой);

- Хщт, хтах - предельные значения массива данных;

- ^х хтах-хтт — размах;

- Ух = 8 х/мх " коэффициент вариации по Пирсону;

о 8х

- Л- = —= - стандартное отклонение средне-

х

го значения;

- Ме - медиана распределения с плотностью

р(х) (срединное значение упорядоченной выборки - Х^/2]+1 при нечетном N или 0.5 [Х^/2] +

Х^/2]+1] при четном N:

Ме ж

| р(х)дх =| р(х)дх ;

-ж Ме

- Мо - мода распределения (значение х, соответствующее максимуму плотности распределения).

ЕШВаКЕВЖ1 ^*1

г Данные:

Г

Переменная:

Данные в строках: с 2 Число наблюдений: 28

по 31

Изменить

Характеристика

Минимальный элемент:

Максимальный элемент:

Размах:

Среднее значение: Дисперсия:

Стандартное отклонение:

Коэффициент асимметрии:

Коэффициент эксцесса:

Коэффициент вариации:

Станд. отклонение ср. значения: Медиана распределения:

Значение

-3,96000

1.25000

5.21000

-0.01393

1.02900

1.01440

-2.44671

8.02541

-7.2829Е+003

0.19170

0.24500

Рис. 1. Вывод результатов расчета статистических характеристик

К базовой статистике следует отнести и коэффициент корреляции (\Гху 1)

N

1 ^ х -Цх

N ^ s ■ і х г =1

ху

У, -^у _ хУ-^у

На основе такой базовой статистики строится весь последующий анализ эмпирических данных.

Часто практики не уделяют должного внимания распределениям вероятностей случайных величин (это присуще во многом и известным пакетам). Знание характера эмпирического распределения существенно, например, для правомерности применения методов регрессионного анализа (в их основе близость распределения к нормальному), методов теории массового обслуживания (экспоненциальное и Пуассона) и др. Отсутствие унимодальности приводит подчас к абсурдным выводам.

Из многообразия типов распределений непрерывных случайных величин, нуждающихся в компьютерном анализе, мы выбрали лишь те, которые наиболее часто встречаются в приложениях (рис.2), и установили представление плотности р(х) , функции Г(х) и параметров распределения через моменты.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

1. Равномерное распределение 1

Р(х) =

А < х < В В - А 0 х і [А, В]

¥(х<А)=0;

Р(х) =

х—А В-А

(А<х<В), Е(х>В)=1;

а

о

х У

У

-л/3.

’ х Ч ^ ^ Мх + 8 х

2. Нормальное распределение

р(х)=тт е г: р(х)=ф(х-вА);

А ^х, В 8х .

В

Здесь Ф(?) =

1

- У2

| е 2 dz .

—ж

3. Распределение Лапласа-Шарлье

р(х) =

Ву!2л

1 — А-(зя — я3) + 2±(я4 — бя2 + 3)

я =

х—А В

А=Мх : В=8х: Ах и Ех - коэффициенты асимметрии и эксцесса. Это оригинальное распределение, определяемое как отрезок ряда Грама-Шарлье первого рода, сохраняет унимодальность и неотрицательность р(х), как нами установлено аналитическим и численным анализом, в ограниченном

диапазоне |я| < Гз при ограниченных значениях асимметрии |Ах|<3 и эксцесса »-л/2<£х<4.

4. Распределение Лапласа (двустороннее показательное)

р(х) = ~2Ве

х—А

В

; Р(х) = <

х—А 1е В

2

А—х

1------е В

. 2

х < А ,х > А

А=^х, В = 8х/ 42 .

5. Логарифмически нормальное распределение

р(х) =

;• В^2ж

ехр[—2 {■| ]

¥(х) = Ф| Ы(х1 А I, х>0

В

А = 1п

В =,\1п

1

Мо=ехр(А-В2) , Ме= ехр(А).

6. Распределение Вейбулла

А А

. . — х__ — х_

р(х) = х — е В ; ¥(х) = 1 — е В , х>0;

А>1, В>0:

1/А 1/А

Ме =(В-1п(2)) ; Мо =[В- (А-1)/А] ;

А - корень уравнения (существует при Ух<1)

ЦА) = У2 + 1 — Г( 1 + А)/Г2(1 + А) = 0;

В =

Мх

Г(1+А)

ж

где Г(Я) =| Г Я 1е tdt -гамма-функция, Ухо

коэффициент вариации; распределение часто используется при оценках надежности и риска.

7. Экспоненциальное распределение

р(х)=Я -е_Ях, х>0 ; ¥(х)=1- е~Ях:

Я=1/Мх ; Ме = 1п(2)/ Я ; Мо=0; Ах =2; Ех=6. Одно из основных распределений в теории массового обслуживания.

8. Распределение Рэлея

—1(х)2

р(х) = ——- е 2 Р , х>0 ;

Р2

„2

¥(х) = 1 — е 2Р .

Параметр масштаба Р = ^-^-Мх ; Бх = 4 ж Р

асимметрия положительна.

9. Распределение Максвелла

■2 — 2( т)2

е

, х>0 ;

1 х2

р(х) = 2 Р —1 + 2Ф(х / Р),

х>0.

Мо= Р^2 , Мх= Р.I8 , Бх = 3ж 8 Р2 V ж ж

откуда Р = 8хЛ1 ж—^.

10. Распределение %2 (ХИ-квадрат)

А—1 —х / \ х 2 е 2

р(х) = ------- ----, х>0, А>1 ;

2 2 Г (А)

1 х/2 А—1 .

Е(х) = 1 ^ , | 12 е~;

Г ( А/2)

0

А=^х ; 8х=^2А ; при А>2 мода=А-2 ;

Ах= , Ех= 12/А; составляет базу критерия

Пирсона .

11. ХИ-распределение

х

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

1

р(х) =

хА 1е

2

А—1 2 2 Г (А)

, х>0,

.2

Р(х) =

1

Г ( А/2)

/ 2 А — 1 | I2 е t dt

0

А= + М2 ; мода = л/А — 1

12. Гамма-распределение

р(х) =

А—1

В

ВАГ(А )

; х>0:

А =

Мх

У

,В = ■

Мх

= эхУх.

Мода распределения равна х=В(А-1).

13. Распределение Фишера (распределение отношения дисперсий, ^-распределение)

р( х) =

Г(А+В)

Г(А) Г ( 2)

■х

( —1 (1+Ах)

В = 2 • Мх .

А+ В

А,В>0: х>0:

Мх — 1

А = -

2В2(В—2)

(В—2)2 (В—4)^1 — 2В2

при А >2 Мо =

В А—2 А В+2 '

14. Распределение Парето

р(х) = С

х

С + 1

1 <х <ж: с>0;

Е(х) = С \ Лх = 1 — ~А, 1хС +1 хС где параметр (формы) распределения Мх

С = ■

>1.

Мх — 1

15. Распределение Стьюдента

Г(А+1)(

р(х) =

1

Ж Г(А)

.2 Л

А+1

1 +

х

А =

2Л2

Л2—1

>2; симметричное распределение с

эксцессом =3(А-2)/(А-4) (при А>4). Одно из по-

пулярнейших распределений для оценки доверительных интервалов .

16. Т-распределение Хотеллинга

р(х) =

Г(п+1)

п + 1

Г(п—2 +1 )Г(2)

к — 1 х2 (1 +х) 2

___________п________

к

п2

0<х<ж , п>к>1.

к =

Мх(п—1)

Мх + п

; п - корень уравнения

О Подбор законов распределения для выборки значений непрерывной велечины

,= □

Законы распределения для проверки:

Ш

Равномерное распределение

0 Нормальное распределение И Распределение Лапласа-Шарлье вд Распределение Лапласа © Логнсрмапьное распределение 0 Распределение Вейбулла 0 Экспоненциальное распредепение р] Распределение Релея ^ Хи-квадрат распределение 0 Хи-распределение И Гамма-распределение ■у!; Распределение Фишера Й Распределение Парего 0 Распределение Максвелла 0 Распределение Стьюдента Г/: Распределение Хотеллинга 0 Бета-распределение первого рода

[анные для проверки. Переменная

*

Данные в строках: с 2 по 32

Число наблюдений: 23

Изменить

•/ Вселить ЕСе

о к

Отмена

Справка

2

х

2

х

Рис. 2. Выбор данных для проверки эмпирического распределения на соответствие гипотетическим распределениям

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Продолжить I График

№ Тип связи y=F(x,a,b,c,d) А В С D Soct

1 Линейная y=a+b*x 0.06853 -0.31471 0,0 0.0 0,94253

2 Кубическая у= а+Ь*х+с*хл 2+d*x~ 3 0.27875 -0.07100 -0,18578 -0,14460 0,96199

3 Г иперболическая y-a*b /х 0.04148 0,01798 0,0 0,0 0.96661

4 Гиперболическая 2-ой степени у=а+Ь/х+с/хл2 0.03966 -0.01693 -7,2945Е-006 0,0 0.96671

5 Квадратическая у=а+Ь*х+с*хл2 0.17610 -0.14075 -0,18268 0,0 0.97508

6 Обращенная кубическая у=1 /(а+Ь*х+с*хл 2 ♦ с1*хл 3) 2.72879 0.45341 0,66410 0,10071 1.02407

7 Обратно квадратическая у=1/(а+Ь*х+с*хл2) 2.88844 0.10313 0,66194 0,0 1.02903

8 Обращенная линейная у=1/(а+Ь*х) 3.50781 -0.30520 0,0 0,0 1.02993

9 Обращенная гиперболическая у=х/(а+Ь*х) 0.11946 1,86366 0.0 0,0 1,0951 А

10 Экспоненциальная у=а*Ехр(Ь*х) - - - - -

11 Степенная у=а*хлЬ - - - - -

12 Экспоненциально квадратическая у=Ехр (а+Ь*х+с*хл 2) - - - - -

13 Показательная у=а*Ьлх - - - - -

14 Логарифмическая y=a+b*Ln(x) - - - - -

15 Линейно-экспоненциальная у=а*Ехр(Ь*х)+с - - - - -

16 Линейно-степенная у=а*хлЬ+с - - - - -

17 Линейно-показательная у=а*Ьлх+с - - - - -

18 Логистическая у=а/(1 +Ь*Ехр(-с*х)) - - - - -

Рис. 3. Подбор тенденций для динамических рядов

Данные:

Независимая переменная: В

Зависимая переменная: С

Данные в строках: с 2 по 32

Число наблюдений: 29

Базовая статистика Линия регрессии

(р| Подбор тенденций с помощью набора функций [К:\Примерi.xls]

п2(эх — 2Мх) — п(4Мхс + 3эх) — — 2Мх(М1 + э2) = 0

2

(в зависимости от знака при п в его решении выбираем минус или плюс).

17. Бета -распределение первого рода

р(х)=гГАгв хА—1(1—х)В—1,

ГГ А )■ Г ( В )

0<x<1;

F(x) = <

0,x < 0

Bx(A,B)

B(A,B )

1, x > 1

,0 < x < 1,

где

Bx(a,P) = J ta—1(1 — t)p—1dt -

непол-

ная бета-функция;

2

А = (МГ—(1—Мх)—Мх; В = А^ММ*.;

$2 Мх ’

при А, В>1 существует мода = (А-1)/(А+В-2).

Предлагаемый нами пакет СТЭК позволяет найти выполнить базовую статистику эмпирического распределения объема N и осуществить проверку его на близость к вышеперечисленным по критерию

^2 ^y(p7h'-РГ)2 i=1

Npm

f=k-1,

где k - число подинтервалов области данных, определяемое по формуле Стерджеса k=[1.446 ln(N)+3.5] или принудительно с учетом “порога”.

Естественно, пакет обеспечивает графику плотности и функции распределения при любых допустимых значениях параметров, генерацию последовательностей псевдослучайных чисел с указанным распределением z

J р(z)dz = x , x e[0,1] p.p.,

—да

поиск квантилей по заданному значению F(x)=a (эта возможность позволяет избавиться от традиционного использования таблиц при поиске уровня значимости получаемых статистических оценок ).

Другая составная часть пакета связана с традиционным регрессионным анализом. Обычная парная корреляция и регрессия предлагает оценки по 5 традиционным для эконометрики типам связей:

y=a+bx ; y=a+b/x ; y=a+b ln(x) ; y=a-exp(bx) ;

y=a+bx+cx2 (коэффициенты уравнений регрессии, корреляционные отношения, остаточная дисперсия, средняя невязка, их оценки по Стьюденту и уровень значимости).

Блок множественной регрессии m

y = x1 = a0 +2ajf(xj) ■ i=2

также допускает линейное, гиперболическое, ло-

гарифмическое и параболическое включения всех факторов (в том числе и х1) с последующим расчетом матрицы парных регрессионных отношений, признаков, упомянутых выше, и коэффициентов уравнения регрессии в стандартизованном масштабе. Кстати, проблема «пропущенных значений» решается по усмотрению пользователя пакета (удалением «наблюдения» или вставкой среднего значения).

Пакет обеспечивает и ранговую корреляцию по Спирмену и Кендаллу с учетом возможной связанности рангов [4]

С ориентацией на анализ трендов динамических рядов подобрана система популярных в эконометрике функций (рис.2). С той же целью создана и возможность подбора аппроксимирующего алгебраического полинома заданной степени или с автоматическим выбором таковой по критерию 100- кратного уменьшения остаточной дисперсии. Здесь нами предусмотрена возможность построения полинома как по обычным значениям факторов, так и по их стандартизованным (нормированным) значениям.

Для создания системы СТЭК по соображениям разработки с минимальными затратами эффективного пользовательского интерфейса, соответствующего стандартам операционной системы Windows, и высокого быстродействия создаваемых приложений использована интегрированная среда разработки Borland Delphi 6.0.

Ввод данных в системе организован в виде знакомой всем пользователям MS Excel электронной таблицы, состоящей из столбцов (переменных, факторов) и строк (наблюдений). Максимально число переменных - 26, число наблюдений

- 512.

Сохраняются операции с использование буфера обмена Windows, операции с выделенными

блоками (аналогично MS Excel) и пр.

Ввод данных в электронную таблицу можно осуществить непосредственно с клавиатуры, на основе уже введенных при помощи формул, копированием через буфер обмена или открытием готовых файлов (расширения файлов *.xls, *.txt). В качестве дополнительных функций система позволяет сортировать и нормировать данные.

Вывод численных и текстовых результатов анализа производится в отдельные окна, где расположены таблицы, подобные таблицам ввода; можно копировать в буфер обмена или сохранять в файлах указанных выше типов. Имеется возможность вывода результатов на печать. Вывод графических результатов производится также в отдельные окна. Пользователь может настроить различные компоненты графика (цвет линий, фона, вид легенда, заголовок, тип линии и др.), сохранить его в графическом растровом формате (расширение *.bmp), копировать в буфер обмена, а также вывести на печать.

Доступ к статистическим процедурам осуществляется через пункты меню и через кнопки панели инструментов.

Как мы уже указывали выше, система СТЭК обеспечивает определение базовых числовых характеристик совокупностей, подбор законов распределения, графику законов распределения, генерацию псевдослучайных чисел заданного типа, корреляционный и регрессионный анализ, подбор тенденций для динамических рядов.

Предусмотрено получение справки не только о работе системы, но и теоретической информации об описательных статистиках, рассчитываемых системой, обо всех распределениях, представленных для анализа, а также теоретические выкладки по корреляционному и регрессионному анализу.

СПИСОК ЛИТЕРАТУРЫ

1. Поллард Дж. Справочник по вычислительным методам статистики. -М.: Финансы и статистика. 1982. -344 с.

2. Корн Г., Корн Т. Справочник по математике для научных работников и инженеров. -М.: Наука. 1984. -832 с.

3. Программное обеспечение ЭВМ Мир-1 и Мир-2. Том 2. -Киев: Наукова думка. 1976. -371 с.

4. Математический энциклопедический словарь. - М.: Советская энциклопедия. 1988.

5. ЯнкеЕ., Эмде Ф., Леш Ф. Специальные функции. - М.: Наука.1964. -344с.

□ Авторы статьи:

Тынкевич Болотова Латышева

Моисей Аронович Ольга Сергеевна Евгения Ильинична

- канд. физ.-мат. наук, проф. каф. - дипломант каф. вычислительной - дипломант каф. вычислительной

вычислительной иехники и инфор- иехники и информационных техно- иехники и информационных техно-

мационных технологий логий логий

Информационная система статистической обработки экономических данных (стэк) Текст научной статьи по специальности «СМИ (медиа) и массовые коммуникации»

Текст научной работы на тему «Информационная система статистической обработки экономических данных (стэк)»