УДК 519.2+004.4
М.А.Тынкевич, О.С.Болотова, Е.И.Латышева
ИНФОРМАЦИОННАЯ СИСТЕМА СТАТИСТИЧЕСКОЙ ОБРАБОТКИ ЭКОНОМИЧЕСКИХ ДАННЫХ (СТЭК)
Человек познавал окружающий мир и самого себя в этом мире на основе статистики, которая позволяла ему находить связи между явлениями. Человеческий разум при посредстве статистики и неотделимо сопровождающего ее математического аппарата породил как современную науку -астрономию и геологию, физику твердого тела и генетику, так человеческую этику понятий «хорошо» или «плохо». Экспоненциальный рост объемов информации во всех сферах и усложнения связей в обществе за последние три столетия привел к примату математики, для которой присущ лаконизм и обоснованность выводов. «В каждой естественной науке заключено столько истины, сколько в ней математики» (И. Кант).
Как и при решении любой обратной задачи -воспроизведения закона, которому следовала или следует некоторая система (техническая, экономическая и пр.), по результатам ее действий (часто неполным и извращенным внесистемными факторами, особенно в сфере денежных интересов) невозможно гарантировать надежность и однозначность получаемых выводов. Тем не менее такой поиск остается жизненной потребностью.
Наряду с многообразием других подходов, для анализа статистических данных используются методы математической статистики (регрессионный и дисперсионный анализ, анализ главных компонент, связанные с ними методы проверки гипотез), математическим аппаратом которой является теория вероятностей. Там, где удается из моря «дурной вероятности» выловить статистические закономерности (законы распределения и тенденции), с целью последующей оптимизации вступают в работу методы массового обслуживания (без них не могли бы проектироваться, например, современные средства массовых коммуникаций) и методы статистического моделирования (Монте-Карло ).
В последние 70 лет появилось великое множество алгоритмов анализа временных рядов, основанных на сочетании регрессионного анализа, спектрального анализа и эвристических подходов, вокруг которых не утихают споры. Предлагается многообразие специфических подходов к информации, предлагаемой статистикой рынка ценных бумаг, страхового дела. Хотя никаких революционных идей в обработке данных здесь не возникло, существует много фирм, дающих вполне правдоподобные прогнозы.
Для облегчения применения методов статистического анализа и прогнозирования на рынке программного обеспечения распространяются
сотни разных программных пакетов. Специализированные пакеты (Эвриста, МЕЗОЗАВР, ОЛИМП, СтатЭксперт, Forecast Expert) ориентированы на использование в специфической предметной области - страховое дело, статистика ценных бумаг и другие области анализа временных рядов
Пакеты общего назначения более популярны. Они обладают продуманным, дружественным к пользователю интерфейсом и относительно подробной документацией, широким спектром статистических функций, что привлекает как специалистов, так и новичков в статистике (SPSS, STATIS-TICA, STATGRAPHICS, S-plus, SAS, STADIA).
Тем не менее, наряду с весьма богатыми возможностями, есть в них и определенные минусы. Большинство пакетов имеет свою оригинальную систему подготовки данных, ограниченно русифицировано (многие понятия нестандартны и не согласуются с традиционными для классической литературы); богатство возможностей, обеспе-
ченное большим коллективом разработчиков в естественном стремлении «объять необъятное», перерастает в трудность восприятия рядовым пользователем, не отличающимся глубоким знакомством с подводной частью айсберга математической статистики.
Соответственно, экономист, инженер или
студент вынужден для выполнения небольшого и подчас элементарного анализа обращаться к объемистому дорогостоящему руководству, в котором, вместо хотя бы описания методов достижения целей и пояснения используемых понятий, он обнаруживает кнопочную технологию и последовательность экранов (если в описаниях библиотек программ 40-летней давности как зарубежные, так и отечественные авторы приводили методы и даже исходные модули, что делает их публикации вечными, то современные пособия, за малым исключением, живут не более 5- 10 лет, до усиленной рекламы следующего пакета).
Мы попытались построить компьютерную систему, предназначенную для пользователя, знакомого лишь с азами статистического анализа, который без длительного обучения мог бы “занести в компьютер“ свою информацию и удовлетворить свое любопытство на традиционном уровне познания основных статистических величин (среднее, дисперсия, вариация и пр.), установления факта нормальности или специфики данных, без чего последующий анализ может оказаться неправомерным, наличия корреляции, характера связей и тенденций (в рамках «джентльменского набора» математических кривых, популярного в
среде эконометристов). Мы не добивались повышенной точности получаемых оценок там, где это связано с излишествами расхода времени и памяти, поскольку точность порядка 0.1% в экономических оценках более чем приемлема.
Естественно, разработке пакета предшествовал определенный анализ математических соотношений, которые легли в его основу.
Основу всякого статистического анализа одномерной выборки Х=(х,, 1=1,Ы} составляют т.н. моменты, их производные и некоторые другие параметры эмпирического распределения.
Моменты первых порядков определяются традиционно, например, в несмещенных оценках
х 1 V
цх=х = N Vх1 I=1
N
■ среднее значение;
Бх = —— У \х,- - х I2 - дисперсия; N-1 / л
г =1
М3х =
1
N
( N-1)(N-2)
-л У1хг - х у
г=1
М4х=
М 4х =
N(N2-2N+3 )m4x-3■N(2N-3 )Б2х (N-1)(N-2)(N-3)
- моменты третьего и четвертого порядков, где
N
т4х = NУхг - хУ •
г=1
Среди других традиционных базовых характеристик:
- 5х = VБх - стандартное отклонение ;
- Ах =
М,х>
- коэффициент асимметрии,
определяющий смещение распределения вправо (Ах>0) и влево (Ах<0);
М 4х
- Эх = -
- - 3 - коэффициент эксцесса , ха-
рактеризующий остроту пика распределения (для нормального распределения эксцесс нулевой);
- Хщт, хтах - предельные значения массива данных;
- ^х хтах-хтт — размах;
- Ух = 8 х/мх " коэффициент вариации по Пирсону;
о 8х
- Л- = —= - стандартное отклонение средне-
х
го значения;
- Ме - медиана распределения с плотностью
р(х) (срединное значение упорядоченной выборки - Х^/2]+1 при нечетном N или 0.5 [Х^/2] +
Х^/2]+1] при четном N:
Ме ж
| р(х)дх =| р(х)дх ;
-ж Ме
- Мо - мода распределения (значение х, соответствующее максимуму плотности распределения).
ЕШВаКЕВЖ1 ^*1
г Данные:
Г
Переменная:
Данные в строках: с 2 Число наблюдений: 28
по 31
Изменить
Характеристика
Минимальный элемент:
Максимальный элемент:
Размах:
Среднее значение: Дисперсия:
Стандартное отклонение:
Коэффициент асимметрии:
Коэффициент эксцесса:
Коэффициент вариации:
Станд. отклонение ср. значения: Медиана распределения:
Значение
-3,96000
1.25000
5.21000
-0.01393
1.02900
1.01440
-2.44671
8.02541
-7.2829Е+003
0.19170
0.24500
Рис. 1. Вывод результатов расчета статистических характеристик
К базовой статистике следует отнести и коэффициент корреляции (\Гху 1)
N
1 ^ х -Цх
N ^ s ■ і х г =1
ху
У, -^у _ хУ-^у
На основе такой базовой статистики строится весь последующий анализ эмпирических данных.
Часто практики не уделяют должного внимания распределениям вероятностей случайных величин (это присуще во многом и известным пакетам). Знание характера эмпирического распределения существенно, например, для правомерности применения методов регрессионного анализа (в их основе близость распределения к нормальному), методов теории массового обслуживания (экспоненциальное и Пуассона) и др. Отсутствие унимодальности приводит подчас к абсурдным выводам.
Из многообразия типов распределений непрерывных случайных величин, нуждающихся в компьютерном анализе, мы выбрали лишь те, которые наиболее часто встречаются в приложениях (рис.2), и установили представление плотности р(х) , функции Г(х) и параметров распределения через моменты.
1. Равномерное распределение 1
Р(х) =
А < х < В В - А 0 х і [А, В]
¥(х<А)=0;
Р(х) =
х—А В-А
(А<х<В), Е(х>В)=1;
а
о
х У
У
-л/3.
’ х Ч ^ ^ Мх + 8 х
2. Нормальное распределение
р(х)=тт е г: р(х)=ф(х-вА);
А ^х, В 8х .
В
Здесь Ф(?) =
1
- У2
| е 2 dz .
—ж
3. Распределение Лапласа-Шарлье
р(х) =
Ву!2л
1 — А-(зя — я3) + 2±(я4 — бя2 + 3)
я =
х—А В
А=Мх : В=8х: Ах и Ех - коэффициенты асимметрии и эксцесса. Это оригинальное распределение, определяемое как отрезок ряда Грама-Шарлье первого рода, сохраняет унимодальность и неотрицательность р(х), как нами установлено аналитическим и численным анализом, в ограниченном
диапазоне |я| < Гз при ограниченных значениях асимметрии |Ах|<3 и эксцесса »-л/2<£х<4.
4. Распределение Лапласа (двустороннее показательное)
р(х) = ~2Ве
х—А
В
; Р(х) = <
х—А 1е В
2
А—х
1------е В
. 2
х < А ,х > А
А=^х, В = 8х/ 42 .
5. Логарифмически нормальное распределение
р(х) =
;• В^2ж
ехр[—2 {■| ]
¥(х) = Ф| Ы(х1 А I, х>0
В
А = 1п
В =,\1п
1
Мо=ехр(А-В2) , Ме= ехр(А).
6. Распределение Вейбулла
А А
. . — х__ — х_
р(х) = х — е В ; ¥(х) = 1 — е В , х>0;
А>1, В>0:
1/А 1/А
Ме =(В-1п(2)) ; Мо =[В- (А-1)/А] ;
А - корень уравнения (существует при Ух<1)
ЦА) = У2 + 1 — Г( 1 + А)/Г2(1 + А) = 0;
В =
Мх
Г(1+А)
ж
где Г(Я) =| Г Я 1е tdt -гамма-функция, Ухо
коэффициент вариации; распределение часто используется при оценках надежности и риска.
7. Экспоненциальное распределение
р(х)=Я -е_Ях, х>0 ; ¥(х)=1- е~Ях:
Я=1/Мх ; Ме = 1п(2)/ Я ; Мо=0; Ах =2; Ех=6. Одно из основных распределений в теории массового обслуживания.
8. Распределение Рэлея
—1(х)2
р(х) = ——- е 2 Р , х>0 ;
Р2
„2
¥(х) = 1 — е 2Р .
Параметр масштаба Р = ^-^-Мх ; Бх = 4 ж Р
асимметрия положительна.
9. Распределение Максвелла
■2 — 2( т)2
е
, х>0 ;
1 х2
р(х) = 2 Р —1 + 2Ф(х / Р),
х>0.
Мо= Р^2 , Мх= Р.I8 , Бх = 3ж 8 Р2 V ж ж
откуда Р = 8хЛ1 ж—^.
10. Распределение %2 (ХИ-квадрат)
А—1 —х / \ х 2 е 2
р(х) = ------- ----, х>0, А>1 ;
2 2 Г (А)
1 х/2 А—1 .
Е(х) = 1 ^ , | 12 е~;
Г ( А/2)
0
А=^х ; 8х=^2А ; при А>2 мода=А-2 ;
Ах= , Ех= 12/А; составляет базу критерия
Пирсона .
11. ХИ-распределение
х
1
р(х) =
хА 1е
2
А—1 2 2 Г (А)
, х>0,
.2
Р(х) =
1
Г ( А/2)
/ 2 А — 1 | I2 е t dt
0
А= + М2 ; мода = л/А — 1
12. Гамма-распределение
р(х) =
А—1
В
ВАГ(А )
; х>0:
А =
Мх
У
,В = ■
Мх
= эхУх.
Мода распределения равна х=В(А-1).
13. Распределение Фишера (распределение отношения дисперсий, ^-распределение)
р( х) =
Г(А+В)
Г(А) Г ( 2)
■х
( —1 (1+Ах)
В = 2 • Мх .
А+ В
А,В>0: х>0:
Мх — 1
А = -
2В2(В—2)
(В—2)2 (В—4)^1 — 2В2
при А >2 Мо =
В А—2 А В+2 '
14. Распределение Парето
р(х) = С
х
С + 1
1 <х <ж: с>0;
Е(х) = С \ Лх = 1 — ~А, 1хС +1 хС где параметр (формы) распределения Мх
С = ■
>1.
Мх — 1
15. Распределение Стьюдента
Г(А+1)(
р(х) =
1
Ж Г(А)
.2 Л
А+1
1 +
х
А =
2Л2
Л2—1
>2; симметричное распределение с
эксцессом =3(А-2)/(А-4) (при А>4). Одно из по-
пулярнейших распределений для оценки доверительных интервалов .
16. Т-распределение Хотеллинга
р(х) =
Г(п+1)
п + 1
Г(п—2 +1 )Г(2)
к — 1 х2 (1 +х) 2
___________п________
к
п2
0<х<ж , п>к>1.
к =
Мх(п—1)
Мх + п
; п - корень уравнения
О Подбор законов распределения для выборки значений непрерывной велечины
,= □
Законы распределения для проверки:
Ш
Равномерное распределение
0 Нормальное распределение И Распределение Лапласа-Шарлье вд Распределение Лапласа © Логнсрмапьное распределение 0 Распределение Вейбулла 0 Экспоненциальное распредепение р] Распределение Релея ^ Хи-квадрат распределение 0 Хи-распределение И Гамма-распределение ■у!; Распределение Фишера Й Распределение Парего 0 Распределение Максвелла 0 Распределение Стьюдента Г/: Распределение Хотеллинга 0 Бета-распределение первого рода
[анные для проверки. Переменная
*
Данные в строках: с 2 по 32
Число наблюдений: 23
Изменить
•/ Вселить ЕСе
о к
Отмена
Справка
2
х
2
2
х
Рис. 2. Выбор данных для проверки эмпирического распределения на соответствие гипотетическим распределениям
Продолжить I График
№ Тип связи y=F(x,a,b,c,d) А В С D Soct
1 Линейная y=a+b*x 0.06853 -0.31471 0,0 0.0 0,94253
2 Кубическая у= а+Ь*х+с*хл 2+d*x~ 3 0.27875 -0.07100 -0,18578 -0,14460 0,96199
3 Г иперболическая y-a*b /х 0.04148 0,01798 0,0 0,0 0.96661
4 Гиперболическая 2-ой степени у=а+Ь/х+с/хл2 0.03966 -0.01693 -7,2945Е-006 0,0 0.96671
5 Квадратическая у=а+Ь*х+с*хл2 0.17610 -0.14075 -0,18268 0,0 0.97508
6 Обращенная кубическая у=1 /(а+Ь*х+с*хл 2 ♦ с1*хл 3) 2.72879 0.45341 0,66410 0,10071 1.02407
7 Обратно квадратическая у=1/(а+Ь*х+с*хл2) 2.88844 0.10313 0,66194 0,0 1.02903
8 Обращенная линейная у=1/(а+Ь*х) 3.50781 -0.30520 0,0 0,0 1.02993
9 Обращенная гиперболическая у=х/(а+Ь*х) 0.11946 1,86366 0.0 0,0 1,0951 А
10 Экспоненциальная у=а*Ехр(Ь*х) - - - - -
11 Степенная у=а*хлЬ - - - - -
12 Экспоненциально квадратическая у=Ехр (а+Ь*х+с*хл 2) - - - - -
13 Показательная у=а*Ьлх - - - - -
14 Логарифмическая y=a+b*Ln(x) - - - - -
15 Линейно-экспоненциальная у=а*Ехр(Ь*х)+с - - - - -
16 Линейно-степенная у=а*хлЬ+с - - - - -
17 Линейно-показательная у=а*Ьлх+с - - - - -
18 Логистическая у=а/(1 +Ь*Ехр(-с*х)) - - - - -
Рис. 3. Подбор тенденций для динамических рядов
Данные:
Независимая переменная: В
Зависимая переменная: С
Данные в строках: с 2 по 32
Число наблюдений: 29
Базовая статистика Линия регрессии
(р| Подбор тенденций с помощью набора функций [К:\Примерi.xls]
п2(эх — 2Мх) — п(4Мхс + 3эх) — — 2Мх(М1 + э2) = 0
2
(в зависимости от знака при п в его решении выбираем минус или плюс).
17. Бета -распределение первого рода
р(х)=гГАгв хА—1(1—х)В—1,
ГГ А )■ Г ( В )
0<x<1;
F(x) = <
0,x < 0
Bx(A,B)
B(A,B )
1, x > 1
,0 < x < 1,
где
Bx(a,P) = J ta—1(1 — t)p—1dt -
непол-
ная бета-функция;
2
А = (МГ—(1—Мх)—Мх; В = А^ММ*.;
$2 Мх ’
при А, В>1 существует мода = (А-1)/(А+В-2).
Предлагаемый нами пакет СТЭК позволяет найти выполнить базовую статистику эмпирического распределения объема N и осуществить проверку его на близость к вышеперечисленным по критерию
^2 ^y(p7h'-РГ)2 i=1
Npm
f=k-1,
где k - число подинтервалов области данных, определяемое по формуле Стерджеса k=[1.446 ln(N)+3.5] или принудительно с учетом “порога”.
Естественно, пакет обеспечивает графику плотности и функции распределения при любых допустимых значениях параметров, генерацию последовательностей псевдослучайных чисел с указанным распределением z
J р(z)dz = x , x e[0,1] p.p.,
—да
поиск квантилей по заданному значению F(x)=a (эта возможность позволяет избавиться от традиционного использования таблиц при поиске уровня значимости получаемых статистических оценок ).
Другая составная часть пакета связана с традиционным регрессионным анализом. Обычная парная корреляция и регрессия предлагает оценки по 5 традиционным для эконометрики типам связей:
y=a+bx ; y=a+b/x ; y=a+b ln(x) ; y=a-exp(bx) ;
y=a+bx+cx2 (коэффициенты уравнений регрессии, корреляционные отношения, остаточная дисперсия, средняя невязка, их оценки по Стьюденту и уровень значимости).
Блок множественной регрессии m
y = x1 = a0 +2ajf(xj) ■ i=2
также допускает линейное, гиперболическое, ло-
гарифмическое и параболическое включения всех факторов (в том числе и х1) с последующим расчетом матрицы парных регрессионных отношений, признаков, упомянутых выше, и коэффициентов уравнения регрессии в стандартизованном масштабе. Кстати, проблема «пропущенных значений» решается по усмотрению пользователя пакета (удалением «наблюдения» или вставкой среднего значения).
Пакет обеспечивает и ранговую корреляцию по Спирмену и Кендаллу с учетом возможной связанности рангов [4]
С ориентацией на анализ трендов динамических рядов подобрана система популярных в эконометрике функций (рис.2). С той же целью создана и возможность подбора аппроксимирующего алгебраического полинома заданной степени или с автоматическим выбором таковой по критерию 100- кратного уменьшения остаточной дисперсии. Здесь нами предусмотрена возможность построения полинома как по обычным значениям факторов, так и по их стандартизованным (нормированным) значениям.
Для создания системы СТЭК по соображениям разработки с минимальными затратами эффективного пользовательского интерфейса, соответствующего стандартам операционной системы Windows, и высокого быстродействия создаваемых приложений использована интегрированная среда разработки Borland Delphi 6.0.
Ввод данных в системе организован в виде знакомой всем пользователям MS Excel электронной таблицы, состоящей из столбцов (переменных, факторов) и строк (наблюдений). Максимально число переменных - 26, число наблюдений
- 512.
Сохраняются операции с использование буфера обмена Windows, операции с выделенными
блоками (аналогично MS Excel) и пр.
Ввод данных в электронную таблицу можно осуществить непосредственно с клавиатуры, на основе уже введенных при помощи формул, копированием через буфер обмена или открытием готовых файлов (расширения файлов *.xls, *.txt). В качестве дополнительных функций система позволяет сортировать и нормировать данные.
Вывод численных и текстовых результатов анализа производится в отдельные окна, где расположены таблицы, подобные таблицам ввода; можно копировать в буфер обмена или сохранять в файлах указанных выше типов. Имеется возможность вывода результатов на печать. Вывод графических результатов производится также в отдельные окна. Пользователь может настроить различные компоненты графика (цвет линий, фона, вид легенда, заголовок, тип линии и др.), сохранить его в графическом растровом формате (расширение *.bmp), копировать в буфер обмена, а также вывести на печать.
Доступ к статистическим процедурам осуществляется через пункты меню и через кнопки панели инструментов.
Как мы уже указывали выше, система СТЭК обеспечивает определение базовых числовых характеристик совокупностей, подбор законов распределения, графику законов распределения, генерацию псевдослучайных чисел заданного типа, корреляционный и регрессионный анализ, подбор тенденций для динамических рядов.
Предусмотрено получение справки не только о работе системы, но и теоретической информации об описательных статистиках, рассчитываемых системой, обо всех распределениях, представленных для анализа, а также теоретические выкладки по корреляционному и регрессионному анализу.
СПИСОК ЛИТЕРАТУРЫ
1. Поллард Дж. Справочник по вычислительным методам статистики. -М.: Финансы и статистика. 1982. -344 с.
2. Корн Г., Корн Т. Справочник по математике для научных работников и инженеров. -М.: Наука. 1984. -832 с.
3. Программное обеспечение ЭВМ Мир-1 и Мир-2. Том 2. -Киев: Наукова думка. 1976. -371 с.
4. Математический энциклопедический словарь. - М.: Советская энциклопедия. 1988.
5. ЯнкеЕ., Эмде Ф., Леш Ф. Специальные функции. - М.: Наука.1964. -344с.
□ Авторы статьи:
Тынкевич Болотова Латышева
Моисей Аронович Ольга Сергеевна Евгения Ильинична
- канд. физ.-мат. наук, проф. каф. - дипломант каф. вычислительной - дипломант каф. вычислительной
вычислительной иехники и инфор- иехники и информационных техно- иехники и информационных техно-
мационных технологий логий логий