Научная статья на тему 'Роль предварительной подготовки исходных данных для статистического анализа'

Роль предварительной подготовки исходных данных для статистического анализа Текст научной статьи по специальности «Экономика и бизнес»

CC BY
174
20
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
НЕФОРМАЛЬНЫЙ АНАЛИЗ ИСХОДНЫХ ДАННЫХ / СТАТИСТИЧЕСКИЙ АНАЛИЗ / ГРУППИРОВАНИЕ ОБЪЕКТОВ / КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ / КОЭФФИЦИЕНТ СХОЖЕСТИ / УРАВНЕНИЕ РЕГРЕССИИ

Аннотация научной статьи по экономике и бизнесу, автор научной работы — Борисов А. Н.

Рассматривается необходимость предварительной неформальной подготовки данных, предназначенных для последующего статистического анализа.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по экономике и бизнесу , автор научной работы — Борисов А. Н.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Роль предварительной подготовки исходных данных для статистического анализа»

УДК 336.717.1

А.Н. Борисов, д-р техн. наук, проф., проф., (4872) 33-24-80, (Россия, Тула, ТулГУ)

РОЛЬ ПРЕДВАРИТЕЛЬНОЙ ПОДГОТОВКИ ИСХОДНЫХ ДАННЫХ ДЛЯ СТАТИСТИЧЕСКОГО АНАЛИЗА

Рассматривается необходимость предварительной неформальной подготовки данных, предназначенных для последующего статистического анализа.

Ключевые слова: неформальный анализ исходных данных, статистический анализ, группирование объектов, коэффициент корреляции, коэффициент схожести, уравнение регрессии.

Пусть в качестве примера взята (табл. 1) выборка по двадцати заводам с указанной стоимостью основных производственных фондов (ОПФ) и выработкой сахара.

Таблица 1

№№ заводов Стоимость ОПФ, млрд руб. Выработано сахара, тыс. ц

1 4,99 130

2 6,93 158

3 6,9 161

4 8,09 120

5 4,88 171

6 7,05 101

7 7,88 188

8 4,85 244

9 4,35 134

10 3,43 122

11 6,06 169

12 6,11 165

13 9,79 139

14 3,85 133

15 6,69 172

16 6,63 145

17 6,47 142

18 6,08 144

19 8,11 109

20 9,47 206

Попытаемся выяснить корреляционную зависимость между стоимостью ОПФ и выработкой сахара. Расчет, выполненный в Excel средствами статистического анализа, дает значение коэффициента корреляции, равное 0,047. Такое значение коэффициента формально свидетельствует об отсутствии взаимосвязи между стоимостью ОПФ и выработкой сахара, что явно противоречит не только экономическому, но и здравому смыслу, так как с увеличением стоимости ОПФ, несомненно, должна возрастать и выработка сахара.

С целью разрешения противоречия выполним предварительный неформальный анализ исходных данных (табл. 1). Для этого построим точечный график 1, где каждая точка соответствует номеру завода.

Уже на этом графике можно увидеть разбиение заводов на три условных группы (табл. 2), в рамках которых восстанавливается экономический смысл (выработка сахара прямо пропорциональна стоимости ОПФ).

График 1. Расположение заводов на плоскости «стоимость ОПФ (х) - выработка сахара (у)»

Таблица 2

Группа Технология Номера заводов Коэффициент корреляции

1 Отсталая 4, 6, 13, 19 0,959

2 Распространенная 1, 2, 3, 5, 7, 9, 10, 11, 12, 14, 15, 16, 17, 18, 20 0,822

3 Передовая 8

Попытаемся выяснить, чему соответствует полученное группирование заводов, что общего у заводов в рамках этих групп. Для этого у каждого завода рассчитаем значение показателя фондоотдачи (табл. 3), равное отношению выработки сахара к стоимости ОПФ:

^ (Выработка сахара, тыс. ц) . —-Фондоотдача 1 = ——----— ,1=1,15.

(Стоимость ОПФ, млрд руб.)

Таблица 3

№№ Стоимость ОПФ, Выработано сахара, Фондоотдача,

заводов млрд руб. тыс. ц тыс. ц / млрд руб.

1 4,99 130 26,05

2 6,93 158 22,80

3 6,9 161 23,33

4 8,09 120 14,83

5 4,88 171 35,04

6 7,05 101 14,33

7 7,88 188 23,86

8 4,85 244 50,31

9 4,35 134 30,80

10 3,43 122 35,57

11 6,06 169 27,89

12 6,11 165 27,00

13 9,79 139 14,20

14 3,85 133 34,55

15 6,69 172 25,71

16 6,63 145 21,87

17 6,47 142 21,95

18 6,08 144 23,68

19 8,11 109 13,44

20 9,47 206 21,75

и построим точечный график 2.

♦ 5 +10 »14

_±3_

+ 1 ♦ 1-й 12 *1с

♦2+3 + 7_+ 20

+ 4 »6 +13 +19

0 5 10 15 20 25

ММ заводов х

График 2. Расположение заводов на плоскости «№№ заводов (х) - фондоотдача (у)»

Оказывается, что заводы первой группы имеют очень близкие (в интервале 13,44-14,83) значения фондоотдачи, правда, и самые низкие, что свидетельствует, скорее всего, об использовании самой низко производительной технологии выработки сахара (отсталой). Но именно благодаря этой схожести (общее качество), они и образуют свою группу и могут сравниваться между собой, свидетельством чему и является значение коэффициента корреляции для этой группы заводов, равное 0,959.

Продолжая рассуждать подобным образом, мы видим, что завод, включенный в третью группу, использует самую высоко производительную (передовую) технологию (значение фондоотдачи равно 50,31), и его нельзя сравнивать ни с какими другими заводами, а значит, он должен быть исключен из выборки.

Что касается заводов второй группы, то хотя значения их фондоотдачи и изменяются в более широком интервале (21,75-35,57), можно сделать вывод (график 1), что они используют традиционную (распространенную) технологию выработки сахара и могут быть сравнимы между собой. Об этом свидетельствует и достаточно высокое значение коэффициента корреляции для второй группы, равное 0,822. А разброс значений фондоотдачи в этой группе можно объяснить различиями в уровне менеджмента, загрузке оборудования, обеспеченности сырьем и т. п. Полученное значение коэффициента корреляции говорит также о нецелесообразности дальнейшего разбиения данной группы заводов на подгруппы.

Таким образом, только неформальный анализ исходной выборки позволил распределить заводы по трем группам и выполнить последующий статистический анализ внутри каждой из групп. Так, стало возможным построить линейные уравнения регрессии (табл. 4) зависимости выработки сахара от стоимости ОПФ и сделать выводы о конкурентоспособности заводов, необходимости привлечения ими дополнительных капиталов на модернизацию производства с целью повышения производительности и эффективности работы и т. д.

Сформулируем вывод. Для увеличения величины коэффициента корреляции у двух наборов данных, включающих значения N объектов, следует рассмотреть возможность группирования этих объектов по признаку схожести, исходя из близких значений их коэффициентов схожести:

(значение набора данных 1)г

I = 1, N.

СХ| (значение набора данных 2) В рассмотренном выше случае:

к = Фондоотдача,

(значение набора данных 1). = Выработка сахара (тыс. ц)., (значение набора данных 2). = Стоимость ОПФ (млрд руб.)

N = 15.

Группа

График уравнения регрессии

150

I 2.100 +

ю ш

ГО X

з 0 50 4

ш

у = 13,93х + 2,21

+

+

5 10 Стоимость ОПФ

15

♦ Выработано сахара, тыс.ц

У

-Линейный

(Выработано сахара, тыс.ц

У)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

ш

250 200

о ^50

V© ш

Х100

О- со

^ °50

СО

у = 12,18 х +82,33

Стоимость ОПФ

10

♦ Выработано сахара

•Линейный (Выработан о сахара)

Рассмотрим другие примеры на основе демографических статистических данных для областей Центрального федерального округа в 2007 г. (табл.

5)[1]:

1. Взаимосвязь {(Доходы на дупгу населения, руб.) - (Все население,

чел.)}.

Для того, чтобы к^ ^(Доходы на душу населения, руб.);, рассмотрим

взаимосвязь {(Все доходы населения, руб.) = [(Доходы на дупгу населения, руб.) х (Все население, чел.)] - (Все население, чел.)}:

(Доходы на душу населения, руо)! х {Все население области, чел),

сх ~ =

(Все население области, чел.); = (Доходы на душу населения, руб.),, г = 1,17. Взаимосвязь может быть представлена графиком 3 с коэффициентом корреляции 0,992.

Однако очевидно, что существенное влияние на величину коэффициента корреляции оказывает Московская область. Исключая ее, получим график 4

Все доходы населения, руб

ю о.

4>

ч

о о се

А

§

X

о

Ч &

1,2Е+11

1Е+11

8Е+10

6Е+10

4Е+10

2Е+10

1000000 2000000 3000000 4000000 5000000 6000000 7000000 Все население, чел.

График 3

2,5Е+10

ю

Си «

5

2Е+10

ч 1,5Е+10 8

I

о ч

£

1Е+10

5Е+09

Все доходы населения, руб

¿4 **

500000 1000000 1500000 2000000 2500000 Все население, чел.

График 4

с коэффициентом корреляции 0,936. Это высокий коэффициент. Тем не менее график 5 взаимосвязи {(^Ц) - (Все население, чел.)} показывает

возможность его повышения путем разбиения областей на три группы (табл. 6) по признаку близких значений коэффициента схожести.

При этом мы не будем и в последующих примерах касаться качественного анализа причин схожести областей, относя этот вопрос к отдельному исследованию.

oj о ю

№ п/п Область Доходы на душу населения, руб. Городское население, чел. Сельское население, чел. Всё население, чел. Уровень занятости населения, % Численность населения на одного врача, чел. Численность студентов государственных и муниципальных высших учебных заведений, чел. Число посещений театров зрителями, тыс. чел.

1 Белгородская 9403,7 1004502 509118 1513620 64,9 243,4 71669 173,9

2 Брянская 7597,5 900220 417369 1317589 64,1 273,2 44943 155

3 Владимирская 7095,9 1133405 326169 1459574 63,4 290,8 47989 164,7

4 Воронежская 8530,3 1441080 853536 2294616 59,1 181,9 111441 399,8

5 Ивановская 5692,8 877783 210103 1087886 63,4 194,1 52234 189,5

6 Калужская 9291,6 767150 241818 1008968 65,3 257,2 26220 153,1

7 Костромская 7711,4 479403 222806 702209 66,1 267,3 20466 133

8 Курская 8613 738809 431921 1170730 62,5 190,2 44233 173

9 Липецкая 9611,5 748398 425472 1173870 63,3 234,4 33939 102,7

10 Орловская 7182,7 530561 296027 826588 62,2 253,8 44805 209,8

11 Рязанская 8114,6 820949 351376 1172325 62,2 180,6 43045 203,8

12 Смоленская 8436,5 708978 284536 993514 63,4 164,8 31551 97,4

13 Тамбовская 8592,3 644402 472717 1117119 57,3 288,6 40483 126,8

14 Тверская 8591,7 1025864 364580 1390444 64,9 190,5 37547 258,3

15 Тульская 8373,2 1265034 315497 1580531 64,1 286,7 45814 331,7

16 Ярославская 9811,1 1077458 242682 1320140 65,2 169,4 45558 270,1

17 Московская 14480,7 5369184 1276488 6645672 69,7 255,5 134062 629,5

12000

ю

^ 10000 к

X

о> Ч о о

Е

>>

Е

Ъ =1

Л

§

* §

8000 6000 4000 2000 0

Доходы на душу населения, руб.

9ф Щ

♦ 10 ♦ 3

-

♦ 4

500000 1000000 1500000 2000000 2500000 Все население, чел.

График 5

Таблица 6

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Группа Доходы Номера областей Коэффициент корреляции

1 Высокие 1, 6, 9, 16 0,991

2 Средние 4, 8, 11, 12, 13, 14, 15 -0,998

3 Низкие 2, 3, 7, 10 0,992

Область (5) должна быть исключена из выборки.

Линейные уравнения регрессии зависимости всех доходов населения от всего населения для разных групп представлены в табл. 7.

Так, например, чтобы Ивановская область (5) (все население составляет 1 087 886 чел.), имеющая самый низкий доход на душу населения, перешла в группу 3, необходимо поднять доход на душу населения с 5692,8 руб. до (7045,9 * х + ЗЕ + 08) / (Все население) = (7045,9 * 1087886 + ЗЕ + 08) / 1087886 = 7321,66 руб.

2. Взаимосвязь {(Уровень занятости населения, %) - (Все население, чел.)} без учета Московской области по той же причине, что и в предыдущем примере.

Для того чтобы к^ = (Уровень занятости населения, %\ /100, рассмотрим взаимосвязь {(Занятое население, чел.) = [(Уровень занятости населения, %\ / /100)] х (Все население, чел.)] - (Все население, чел.)}, когда:

(Уровень занятости населения, %)/ х (Все население области, чел.),

сх — —

100 х (Все население области, чел)1 = (Уровень занятости населения, %)/ /100, г = 1,16,

Группа

График уравнения регрессии

ю £ к

5 Я

V

ч 8 С5

Я

ч о

X

о

ч

о

оэ

1,6Е+10 1,4Е+10 1,2Е+10 1Е+10 8Е+09 6Е+09 4Е+09 2Е+09 О

у=9719,4х-2Е+08

♦ б9

Л 1

500000 1000000 1500000 2000000

Все население, чел.

ю

щ

к

5

Я

§

8 С5

Я

2

ч о

X

о

ч

03

2,5Е+10 2Е+10 1,5Е+10 1Е+10 5Е+09 0

у= 8576,6х- 1Е+08

^^ 15

12

0 500000 1000000 1500000 2000000 2500000

Все население,чел.

к я я

V

ч

о сз я

2

ч о

X

о

ч

V

о 03

1,2Е+10 1Е+10 8Е+09 6Е+09 4Е+09 2Е+09 0

у = 7045,9х + ЗЕ+08 2

10"

500000 1000000 1500000 2000000

Все население, чел.

что не требует, также как и в предыдущем примере, его дополнительного расчета, так как деление на 100 не влияет на схожесть, и взаимосвязь может быть представлена графиком 6 с коэффициентом корреляции 0,991.

Несмотря на это великолепное значение, судя по графику 7 (к^ ) - (Все

население, чел.), четко просматриваются 3 группы областей (табл. 8).

Области (4) и (13) должны быть исключены из выборки

График 6

График 7

Таблица 8

Группа Уровень занятости Номера областей Коэффициент корреляции

1 Высокий 1, 6, 7, 14, 16 0,99998

2 Средний 2, 3, 5, 9, 12, 15 0,9996

3 Низкий 8, 10, 11 0,9999

Линейные уравнения регрессии зависимости занятого населения от всего населения для разных групп областей представлены в табл. 9.

Таблица 9

Группа

График уравнения регрессии

Так, например, чтобы Тамбовская область (13) (все население составляет 1 117 119 чел.), имеющая самый низкий уровень занятости, перешла в группу 3, необходимо поднять доход на душу населения с 57,3 % до 100 (0,6498 х - 16886) / (Все население) = 100(0,6498 * 1117119 - 16886) / 1117119 = 63,5 %.

3. Взаимосвязь {(Численность населения на одного врача, чел.) -(Все население, чел.)} без учета Московской области.

Для того чтобы ксх^ = (Численность населения на одного врача, чел.), рассмотрим взаимосвязь {(Все население, чел.) - [(Количество врачей,

чел.) = (Все население, чел.)] / (Численность населения на одного врача, чел.)]}, когда:

(Численность населения на одного врача, чел.), х (Все насечение области, чей),

сх — —

(Все насечение области, чеп.)Ё = (Численность населения на одного врача, чет.),, г = 1,16,

что не требует его дополнительного расчета, и взаимосвязь может быть представлена графиком 8

Количество врачей, чел.

14000

чел 12000

5Я О 10000

Т Я 8000

о.

6000

о 4000

«

5Г 5 2000

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Ч

£ 0

>

500000 1000000 1500000 2000000 2500000 Все население,чел.

График 8

с коэффициентом корреляции 0,849. При этом получаем график 9 (^ ) -(Количество врачей, чел.).

Численность населения на одного врача,чел.

к

I 5

I =:

8 я

я 5

1 а

° I

= 1

? О

а «

я я У

350 300 250 200 150 100 50 0

-♦-♦к

10

ТТТ

-12

16

♦ 4

2000 4000 6000 8000 10000 12000 14000

Количество врачей, чел.

Здесь просматриваются 3 группы областей (табл. 10).

Группа Обеспеченность Номера областей Коэффициент

врачами корреляции

1 Низкая 3, 13, 15 0,999

2 Средняя 1, 2, 6, 7, 9, 10 0,980

3 Высокая 4, 5, 8, 11, 12, 14, 16 0,986

Линейные уравнения регрессии зависимости количества врачей от всего населения для разных групп областей представлены в табл. 11.

Таблица 11

Группа

График уравнения регрессии

Так, например, чтобы Тульская область (15) (все население составляет 1 580 531 чел.), относящаяся к группе 3 (низкой обеспеченности врача-

ми), перешла в группу 2 (средней обеспеченности врачами), необходимо снизить численность населения, приходящегося на одного врача, с 286,7 чел. до (Все население) / (0,0042 х - 256,11) = 1580531 / (0,0042 * 1580531 - 256,11) = 247,6 чел.

4. Взаимосвязь {(Численность студентов государственных и муниципальных высших учебных заведений, чел.) - (Все население, чел.)} без учета Московской области.

Эта взаимосвязь может быть представлена графиком 10

ч

о Т

СО

о &

в

о

ч £

л

н

о о X X

4*

ч

у

Численность студентов государственных и муниципальных высших учебных заведений,чел.

120000 100000 80000 60000 40000 20000 0

500000 1000000 1500000 2000000 2500000 Все население, чел.

График 10

с коэффициентом корреляции 0,859.

Коэффициент схожести принимает вид:

(Численность студентов, чел.)1 . _ —— /Г = , I — I, I о,

(Все население области, чея.\

и его зависимость от всего населения представлена на графике 11,

Численность студентов / Все население

4> £

ее о

* I

ч

0,06 0,05 0,04 0,03 0,02

й 5

5 0,01

♦ ю

8 16

~4ГГ

1а ,

15

500000 1000000 1500000 2000000 2500000 Все население, чел.

Группа Численность сту- Номера областей Коэффициент

дентов корреляции

1 Высокая 1,4, 5, 10 0,997

2 Средняя 2, 3, 8, 11, 12, 13, 16 0,891

3 Низкая 6, 7, 9, 14, 15 0,987

Линейные уравнения регрессии зависимости численности студентов от всего населения для разных групп областей представлены в табл. 13.

Таблица 13

Группа

График уравнения регрессии

X

а» Ч

о О X X

V

п

о 5 Т

120000 100000 80000 60000 40000 20000 0

у = 0,0463х + 3752,8 ♦ 4

10

0 1000000 2000000 3000000 Все на селение, чел.

60000 50000 40000 30000

о х

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

X

V

п

у

X Т

X

г

х

ч £

ь | 20000

10000 о

12

у = 0,0309х + 4791,2

500000 1000000 1500000 2000000 Все на селение, чел.

О Н Я

0/ П

X

50000 40000 30000 20000

| ~ 10000 х

я О

у = 0,0286х- 731,05 ^ 15

500000 1000000 1500000 2000000 Все население, чел.

Например, чтобы Тульская область (15) перешла из 3-й группы во 2-ю, надо поднять численность студентов с 45 814 чел. до (0,0309 х + 4791,2) = (0,0309 * 1580531 + 4791,2) = 53 630 чел.

5. Взаимосвязь {(Число посещений театров зрителями, чел.) - (Все доходы, млн руб.) = [(Доходы на душу населения, руб.) * (Все население, чел.) / 1000000]} без учета Московской области.

Эта взаимосвязь может быть представлена графиком 12

Число посещений театров зрителями, чел.

500000

о 400000 300000 200000 100000 А.

Си н ♦

н в ж.

и ♦

о о 0

с

о ч V 0 5000 10000 15000 20000 25000

5 Т Все доходы, млн. руб.

График 12

с коэффициентом корреляции 0,667.

Коэффициент схожести принимает вид:

_ (Численность посещений театров зрителями, чел.)1

сх ~ 5

(Все доходы, млн ру6.)( и его зависимость от всех доходов представлена на графике 13,

1 = 1,16,

Число посещений / Все доходы

со о с. н

Л

!§ X X « о

5 ч

о> 0> О V

оеа

о «

40,00 30,00 20,00 10,00 0,00

♦ 10 ▲ с

♦ 7 11 и , ¿5 ► Г ж.

е+Аз 12* й 2 ф ♦ 1 -

9

5000 10000 15000

Все доходы, млн. руб.

20000

Группа Число посещений Номера областей Коэффициент

театров корреляции

1 Высокая 4, 7, 11, 14, 15, 16 0,973

2 Средняя 2, 3, 6 0,858

3 Низкая 1, 12, 13 0,982

Области (5), (8), (9), (10) исключаются из выборки. Линейные уравнения регрессии зависимости числа посещений театров от всего населения для разных групп областей представлены в табл. 15.

Таблица 15

Группа

График уравнения регрессии

Например, чтобы Липецкая область (9) с доходами на душу населения 9611,5 руб. и населением 1 173 870 чел. (все доходы 12 952,03 млн руб.) достигла хотя бы 3-й группы, надо поднять число посещений театров с 102 700 чел. до (12,267 x + 980,88) = (12,267 * 12952,03 + 980,03) = 159 863 чел.

Таким образом, рассмотренные примеры иллюстрируют справедливость тезиса о необходимости предварительной неформальной подготовки исходных данных для статистического анализа путем группирования объектов по признаку близких значений их коэффициентов схожести.

УДК 336.66

Т.И. Калачева, канд. экон. наук, доцент кафедры «Финансы и менеджмент», (Россия, Тула, ТулГУ)

ИССЛЕДОВАНИЕ ГУДВИЛЛА КАК ИНСТРУМЕНТА ОЦЕНКИ ДИНАМИКИ КАПИТАЛИЗАЦИИ КОМПАНИИ

Рассмотрены трактовки понятия «гудвилл», основные субъекты и

участники процесса образования стоимости бизнеса, особенности подходов к

определению гудвилла.

Ключевые слова: гудвилл, оценка компании, стоимость активов.

Англо-русский экономический словарь дает следующие определения термина «goodwill»:

1. Условная стоимость деловых связей (фирмы), «цена» накопленных нематериальных активов фирмы, денежная оценка неосязаемого капитала (престиж торговых марок, опыт деловых связей, устойчивая клиентура).

2. Денежная оценка предполагаемого будущего превышения прибыльности (данной фирм по сравнению со средней прибыльностью аналогичных фирм).

3. Неосязаемый основной капитал (разность между ценой предприятия в целом и ценой его реального основного капитала).

4. Доброжелательность, благорасположение (клиентуры).

Однако на практике термин «гудвилл» понимают как разницу между рыночной ценой компании и стоимостью активов. Каждая из составных частей может варьироваться и включать различные составляющие. Например, в активы можно включить исключительно материальные, а можно включить и нематериальные; производить учет по балансовой стоимости,

i Надоели баннеры? Вы всегда можете отключить рекламу.