УДК 678
ПРИМЕНЕНИЕ МНОГОМЕРНОГО НОРМАЛЬНОГО РАСПРЕДЕЛЕНИЯ ДЛЯ ПОСТРОЕНИЯ ВЕРОЯТНОСТНОЙ ОЦЕНКИ КОМПЕТЕНТНОСТИ
© 2014 Н.В. Колачева, О.А. Кузнецова
Тольяттинский государственный университет
Поступила в редакцию 13.01.2014
В данной статье рассмотрено многомерное нормальное распределение, определена доверительная область вектора средних, рассмотрен пример построения доверительной области оценки компетентности студентов.
Ключевые слова: многомерное нормальное распределение, доверительная область, компетентность.
Оценка компетентности студентов в вузе является одной из важнейших задач эффективности подготовки конкурентоспособных специалистов, в том числе экологов. Образовательные стандарты третьего поколения предписывают внедрение компетентностно - ориентированного обучения в вузе.
Компетенция - это предметная область, в которой индивид хорошо осведомлен и в которой он проявляет готовность к выполнению профессиональной деятельности. Компетенция - это ситуативная категория, так как она выражается в готовности к осуществлению деятельности в конкретных профессиональных ситуациях. Компетентность - интегральная характеристика личности, распадающаяся на спектр отдельных компетенций, включает в себя когнитивные, мо-тивационно-ценностный и эмоционально-волевой компоненты.
Основные признаки или факторы компетенции можно оценить, используя таксономию Блу-ма, согласно которой каждая компетенция может быть оценена по шести признакам: знание, понимание, применение, анализ, синтез и оценка.
Согласно ФГОС ВО (уровень бакалавриата) у выпускника должны бать сформированы общекультурные (ОК), общепрофессиональные (ОПК), профессиональные (ПК) и профессионально-прикладные (ППК) компетенции. Для каждого из направлений обучения имеются свои задачи формирования необходимых компетенций будущего специалиста, в том числе в области экологии [1-10].
Рассматривая соответствующий набор компетенций как ^-мерный вектор X = (Х1зX2,...,Xп),
Колачева Наталья Вениаминовна, кандидат педагогических наук, доцент кафедры высшей математики и математического моделирования. E-mail: [email protected]. Кузнецова Ольга Александровна, кандидат педагогических наук, доцент кафедры высшей математики и математического моделирования. E-mail: oly—[email protected]
получим четыре вектора компетентностей XОК, ХОПК, ХПК, ХППК . Согласно таксономии Блума каждая компонента вектора компетентности будет иметь шесть оценочных значений. Каждому признаку может быть присвоен весовой коэффициент и рассчитан обобщенный показатель оценки компетенции как компоненты соответствующего вектора компетентности.
Чтобы получить среднее значение оценки компетенции каждого вектора необходимо иметь набор многомерных статистических данных, полученных в результате опроса и тестирования специалистов данной предметной области.
Эти данные подлежат систематизации и обработке с целью выявления характера и структуры взаимосвязей между компонентами гс-мерного вектора Х =(Х1, X2,... , Xn). Эти задачи можно решить методами многомерного статистического анализа.
Многомерные статистические методы позволяют обоснованно выбрать ту модель, которая наилучшим образом соответствует исходным статистическим данным, характеризующим реальное поведение исследуемой совокупности объектов, оценить надежность и точность выводов, сделанных на основании ограниченного статистического материала.
Рассмотрим более подробно многомерное нормальное распределение, так как многомерные методы, основанные на нормальном распределении, нашли широкое распространение и их можно изучать более организованно и систематически. Одномерное нормальное распределение возникает очень часто, потому что изучаемый эффект является суммой действия многих независимых случайных факторов. Подобно этому многомерное нормальное распределение часто встречается в связи с тем, что множественные измерения являются суммами многих малых независимых воздействий. Кроме того, для теории нормального распределения разработаны точные математические методы.
1776
Одномерная нормальная плотность распределения может быть записана следующим образом:
к ■ e
= к ■ e
(1)
где а - положительно, а & выбирается таким образом, чтобы интеграл от (1) по всей оси х был равен единице. Плотность вероятности многомерного нормального распределения величин Х1,..., Хп имеет аналогичную форму. Скалярная переменная х заменяется вектором
X =
Г X, ^
v X , V nj
(2)
скалярную постоянную 0 заменяют вектором
Г Mi ^
vMn у
(3)
а положительную постоянную а заменяют положительно определенной (симметрической) матрицей
г,
A =
а 21 а гг
v а , а 2
\ П1 n2
а
а
\
а
(4)
nn у
Выражение а(х - 0) = (х - 0)а(х -0 в
этом случае заменяется квадратичной формой
(х А(х -м) = £аг] (хг - V, )(( ) . (5)
•, 1=1
Тогда плотность вероятности п-мерного нормального распределения равна
(2л)Г
i-WZ-'(x-k)
2 e
(6)
где Е есть ковариационная матрица, равная А-1.
Для двумерного нормального распределения полученная модель описывается следующим образом.
Среднее значение вектора X = (X1, Х2 )Т равно
M
Г X, ^ Г Mi}
v X2 у
VM2 у
(7)
f
Z= M
((i -Mi)2 ((i -Mi)((2-M2) (2 К2 )((i -M) ((2 -M2)2
Л
a,,
Va2i
a
22 у
Л
va2^p a
2у
(8)
где <г является дисперсией Х1, - дисперсией X и р - коэффициентом корреляции между X1 и X 2.
Плотность вероятности X1 и X2 равна
2 7rala2sj\ - р
rexPÍ
(xi -M)2
- 2р(( -M)(X2 К2 ) , (X2 —M2 )2
aa2
a
(9)
Отметим, что плотность вероятности (6) в п-мерном евклидовом пространстве постоянна на эллипсоидах
(х-V) е-1 (х-V) = С (10)
для каждого положительного значения с. Центром каждого эллипсоида является точка V . Форма и положение эллипсоида определяются значением Е , а размеры - значением с.
Рассмотрим подробно двумерный случай плотности вероятности (9). Преобразуем координаты, переходя к стандартным нормальным случайным величинам по формуле
X - M
= у, (¿=1, 2), так, чтобы центры линий,
на которых плотность распределения постоянна, находились в начале координат. Эти линии определяются уравнениями
i
i-Р
-(( -2рy2 + y2) = с. (11)
ковариационная матрица может быть записана следующим образом:
Отрезки, отсекаемые на осях у1 и у2 равны между собой. Если р > 0, то большая ось эллипса наклонена под углом 450 к оси х и ее длина равна 2д/с(1 + р), а длина малой оси равна
2^]с(\ - р). Если р < 0 , то большая ось эллипса наклонена под углом 1350 к оси х и ее длина равна 2^]с(\ - р) , а длина малой оси равна
с(1 + р) (рис. 1).
Одной из причин изучения многомерных нормальных распределений является то, что частные и условные распределения, полученные из многомерных нормальных распределений, также нормальны. Линейные комбинации нормально распределенных величин также распределены нормально.
Нормальное распределение полностью определяется вектором V среднего значения и кова-
2
2
а
2
2
i
2
1777
риационной матрицей Е. Первой статистической проблемой является вопрос о том, как оценить эти параметры по результатам выборки.
Как и в одномерном случае, методом максимального правдоподобия можно показать, что оценкой для ) является выборочное среднее, оценкой для Е - матрица, пропорциональная матрице дисперсий и ковариаций. Выборочная дисперсия равна сумме квадратов отклонений наблюденных значений от выборочного среднего, деленной на число наблюдений без единицы; выборочная ковариация определяется подобным образом по результатам взаимных произведений соответствующих отклонений. Выборочная ковариационная матрица является несмещенной оценкой Е.
Метод наибольшего правдоподобия очень полезен для различных оценок и проблем проверки гипотез, относящихся к многомерным нормальным распределениям. Оценки, полученные по методу наибольшего правдоподобия, или их модификация обычно обладают некоторыми оптимальными свойствами - асимптотически эффективны.
Если х1,..., хы образуют выборку из многомерного нормального распределения с параметрами Ли Е , где = О°О]Рц ( р.. = 1), то оценкой наибольшего правдоподобия для Л являет-
Л = х = 1 N
ся Л = х = ~ X ха , оценкой наибольшего
N «=1
правдоподобия для О2 является
= _!X ( - х )2
т1 т ^ \ 1а 1/1
N а
где х есть г-я компонента
^ 1ГУ
ха и х. есть г-я компонента х , а оценка наибольшего правдоподобия для р равна
Xх . х. -Ш.х.
¡а .а I ]
Р. =
¡X х2 - Ж2 /X х2 - Их1 ОО] ■ (12)
.а . л! ]а ] '
\ а \ а
В одномерном случае выборочное среднее распределено нормально и не зависит от выбо-
/(Х1,Х2)
Рис. 1. Поверхность плотности нормального двумерного распределения
рочной дисперсии. Аналогично выборочное среднее х = ((... хп)) распределено нормально и не
зависит от Е.
Среднее значение выборки объема N из многомерной нормальной генеральной совокупности N (), Е) распределено нормально
N| ¡Л, — Е | и не зависит от Е , являющейся Г N )
оценкой наибольшего правдоподобия для Е .
Одна из наиболее важных групп задач одномерной статистики связана с вопросами, касающимися оценки математического ожидания некоторого распределения, дисперсия которого неизвестна. Бывают случаи, когда по выборке хотят решить, равно ли математическое ожидание некоторому наперед заданному числу, или же указать интервал, в котором находится математическое ожидание. В одномерных случаях обычно используется статистика, являющаяся частным от деления разности между выборочным значением х и гипотетическим математическим ожиданием генеральной совокупности на среднее квадрати-ческое отклонение 5. Если выборка произведена из совокупности N (¡Л, О2 ),то величина
I = = (х -и)-1 (13)
имеет ¿-распределение с N-1 степенями свободы, где N - объем выборки. Основываясь на этом можно построить критерий для проверки гипотезы Н0 : )= Л0, где )0 - заданное число, или построить доверительный интервал для неизвестного параметра Л .
Многомерным аналогом квадрата величины определенной формулой (13), является величина т2 Хотеллинга:
Т2 = N(х -и)8-1 (х -л), (14)
где х - вектор среднего значения и 5 - ковариационная матрица выборки объема N. Покажем, как можно использовать эту статистику для проверки гипотезы о векторе среднего значения генеральной совокупности Л и для получения доверительных областей для неизвестного параметра Л.
Если Л есть среднее значение многомерного нормального распределения N (л, Е), то вероятность получить выборку объема N со средним х = (( ... хп ) и выборочной ковариационной матрицей 5 такую, что
Т2 = N(5?-)) Я-1 (х - л) - Т2{а) (15)
равна 1 - а .
Здесь
2
а
1778
T2 =
{N — 1)„ { )
---FnN-n{a), (16)
N - n
где а - уровень значимости, РпМ_п (а) точка распределения.
Таким образом, если для конкретной выборки произвести вычисления по формуле (15), то утверждение относительно /Л , выраженное формулой (15), будет справедливо с доверием 1 — а . Совокупность точек, координаты которых удовлетворяют неравенству
N(х — т)Т£—1 (х — т)< Т02(а) (17)
образует в ^-мерном пространстве внутренность и границу эллипсоида с центром в точке х = ((... Хп )Т , размеры и форма которого зависят от £—1 и а (рис. 2), /Л лежит внутри этого эллипсоида. Эллипсоид (17) является случайным, так как выборка случайна.
Описанная модель многомерного нормального распределения использовалась при оценке уровня профессиональной компетентности студентов квалификации - бакалавр по направлению подготовки 080100.62 Экономика. В качестве компонентов вектора Хж оценивались две компетенции: способность на основе описания экономических процессов и явлений строить стандартные теоретические и эконометрические модели, анализировать и содержательно интерпретировать полученные результаты (ПК 4); способность использовать для решения аналитических и исследовательских задач современные технические средства и информационные технологии (ПК 8). Таким образом, вектор Хж рассматривается как двумерный вектор компетентности, формирование и оценка уровня которого проводилась при изучении дисциплины "Эконометрика" на третьем курсе обучения. Каждая компетенция оценивалась по таксономии Блума.
В качестве диагностических средств были использованы: тесты достижения для оценки уровней знания и понимания; представление и защи-
m,
та итоговой работы по дисциплине, которая включала в себя обработку, анализ и расчет эко-нометрических показателей с помощью средств ЭВМ (пакет "Анализ данных" Excel), построение эконометрических моделей и их использование для построения прогнозов. При использовании данного средства диагностики оценивались уровни применения, анализа, синтеза и оценки.
Результаты диагностики компетенций в группе из 25 студентов представлены в табл. 1.
Для получения обобщенных показателей уровня компетенций использовались весовые коэффициенты: а1 =0,05, а2 =0,05, аз =0,1, а4 =0,2, а5 =0,2, а6 = 0,4.
Результаты расчетов обобщенных показателей каждой компетентности приведены в табл. 2.
Найдем оценки математических ожиданий, дисперсии и коэффициента корреляции, доверительную область для вектора математических ожиданий с надежностью ^=0,95.
Точечные оценки для ¡¡1 и ¡¡2 - средние арифметические x1 и x2 равны:
x = —(27,3 + 30,1 +... + 70,3) = 46,72,
1 25
x2 = —(29,05 + 30,2 +... + 51,25) = 29,584.
2 25
Для определения ковариационной матрицы S выборки перейдем к центрированным случайным величинам u.. = x .. — x.:
UT =
—19,42 —16,62 ... 23,58 — 10,534 — 9,384 ... 11,666
UTU =
—19,42 —16,62 —10,534 — 9,384
23,58 11,666
( —19,42 —10,534^ —16,62 — 9,384
23,58 11,666
= ^13652,78 8762,803 = [8762,803 6320,309
Несмещенная оценка матрицы Е - ковариационная матрица 5 выборки равна
1 T 1 (13652,78 8762,803 ^ S = —— UTU = — N — 1 24
( 568,87 356,12 ^
8762 ,803 6320 ,309
v 365,12 263,35 ,
Таким образом, несмещенные оценки дисперсий и средних квадратичных отклонений следующие: ^ = 568,87; ^ = 23,85; 522 = 263,35; 52 = 16,23. Вычислим выборочный коэффициент корреляции
P. =■
356,12
■ = 0,92
Рис. 2. Граница доверительной области
23,85 -16,23 Обратная матрица к S будет иметь вид
1779
Таблица 1. Результаты формирования профессиональных компетенций в %
Номер студента в списке группы Компетенция Знание Понимание Применение Анализ Синтез Оценка
1 ПК 4 61 61 58 23 20 17
ПК 8 63 60 59 25 20 20
2 ПК 4 64 60 59 25 23 21
ПК 8 64 64 60 26 23 20
3 ПК 4 53 50 43 18 19 16
ПК 8 57 52 45 17 19 17
4 ПК 4 54 51 50 22 21 20
ПК 8 57 52 52 23 20 19
5 ПК 4 72 69 69 44 40 43
ПК 8 70 70 69 43 40 40
6 ПК 4 69 54 53 30 29 19
ПК 8 68 55 50 28 29 20
7 ПК 4 74 65 44 23 21 18
ПК 8 72 65 42 20 20 20
8 ПК 4 57 49 43 18 17 17
ПК 8 56 50 46 18 18 16
9 ПК 4 74 75 67 34 23 21
ПК 8 75 74 63 31 24 20
10 ПК 4 44 30 27 12 14 12
ПК 8 49 32 27 11 11 13
11 ПК 4 69 70 68 34 32 18
ПК 8 64 63 62 31 29 17
12 ПК 4 38 30 28 12 11 12
ПК 8 40 30 30 11 10 12
13 ПК 4 49 44 35 18 19 19
ПК 8 45 44 37 18 17 16
14 ПК 4 69 65 63 43 35 27
ПК 8 71 67 64 42 35 29
15 ПК 4 68 68 64 23 19 20
ПК 8 67 66 65 22 19 21
16 ПК 4 100 98 88 69 58 63
ПК 8 72 70 68 59 53 55
17 ПК 4 100 100 97 69 62 65
ПК 8 65 66 63 44 45 43
18 ПК 4 100 100 95 87 79 72
ПК 8 73 70 68 56 53 58
19 ПК 4 100 100 97 78 82 68
ПК 8 89 89 83 62 67 60
20 ПК 4 100 93 85 62 65 54
ПК 8 85 78 70 44 50 43
21 ПК 4 100 95 95 78 72 76
ПК 8 92 90 90 67 72 65
22 ПК 4 100 100 98 87 82 72
ПК 8 64 62 59 32 34 50
23 ПК 4 100 80 78 55 52 65
ПК 8 73 65 55 44 46 51
24 ПК 4 100 100 98 60 62 78
ПК 8 95 95 91 53 51 56
25 ПК 4 100 100 99 66 64 61
ПК 8 96 91 85 44 45 39
1780
Таблица 2. Обобщенные показатели профессиональных компетенций в %
Номер студента в списке группы ПК 4 (х1) ПК 8 (х 2)
1 27,3 29,05
2 30,1 30,2
3 23,25 23,95
4 26,85 26,85
5 47,95 46,5
6 30,85 30,55
7 27,35 27,05
8 23,4 23,5
9 33,95 32,75
10 16,4 16,35
11 34,15 31,35
12 15,6 15,5
13 23,15 21,55
14 39,4 40,3
15 29,6 29,75
16 69,3 58,3
17 71,9 47,85
18 81,5 58,95
19 78,9 67
20 65,15 51,15
21 79,65 71,9
22 82,4 45,4
23 64,2 50,8
24 75,4 61,8
25 70,3 51,25
я4 =
' 0,01596 - 0,02213^ ч- 0,02213 0,03448 ,
По формуле (14) находим значение статистики Хотеллинга
0,01596 - 0,02213 V 46,72 - и
Т2 = '7 ~ 3,42 = 7,137
Т2 = 25 -(46,72 -и. 29,584 -л
\-0,02213 0,03448 ^29,584- и2 = 0,399(46,72 - и )2 -1,1065 (46,72 - и )(29,584 - и2 )+ 0,862(29,584 - и2 )2.
При уровне значимости а = 1 - у = 0,05 и числе степеней свободы у1 = 2 и г2 = 23 находим по таблице точку ^-распределения -F (0,05 ;2;23 )= 3,42 .
Тогда по формуле (16)
(25 -1)-2 . 25 - 2
Из неравенства (17) получим уравнение эллипса (включая внутреннюю область)
0,399(46,72 -и)2 -1,1065(46,72 - и1 )(29,584 - и2) +
+ 0,862(29,584 - и2 )2 < 7,137 '
которое определяет доверительную область для вектора средних значений.
Пусть вектор Х подчиняется п-мерному нормальному распределению Ып (л, 2), а матрица СпЛ - матрица ранга к ( к < п ). Тогда вектор
СТX подчиняется к-мерному нормальному распределению Ык (СТи, С'2С), так как линейные комбинации нормально-распределенных величин также распределены нормально.
В этом случае статистика Т2 Хотеллинга имеет вид
Т2 = N((х - СТи)Т(СГЯС)-1 ((х - СТи) (18)
со значением, отвечающим вероятности а = 1 - у
Т'
-*- г,
N - к
- к (а).
(19)
Поскольку вектор СТ[Л содержит к генеральных средних, то в отличие от уравнения (16) теперь число степеней свободы равно к и Ы-к. В частном случае, когда С - единичная матрица порядка п, то уравнение (18) сводится к уравнению (16) и число степеней свободы становится прежним.
Использование линейных комбинаций компонент вектора /Л позволяет расширить область применения статистики 2 Хотеллинга при интервальном оценивании в задачах сравнения.
С помощью линейных комбинаций можно найти совместные доверительные интервалы или проверить гипотезу относительно первых (к < п) средних значений генеральной совокупности. Для этого достаточно принять
1781
(
СТ =
1 0 0 1
00
00 00
10
к
(20)
Поскольку СТ имеет размерность кXп и ранг ^ то вектор СТ) имеет размерность к X1 и содержит k генеральных средних.
Чтобы построить доверительный интервал для генерального среднего ) (у = 1,2,...,п), достаточно принять, что Cj есть ]-й столбец единичной матрицы размерности п. Тогда С= ) и статистика Хотеллинга
Т2 =
N С (х -и)
СТ3С
1 1
(21)
имеют распределение, зависящее от числа степеней свободы 1 и N-1.
Таким образом, согласно уравнению (18) доверительная область для СТи с надежностью у будет ограничена поверхностью
N (сТх - СТМ)Т «Т( - СТи) = Р1Ык (а) .(22)
N - к
В частности, с надежностью у доверитель-
ные границы для линейной комбинации С ) определяются как
СТх С]8С^-1(а). (23)
По данным табл. 1 с помощью линейных комбинаций найдем с надежностью у= 0,95 интервальные оценки генеральных средних ) и )2.
В нашем случае
а=1-у=0,95 X = =N-1=24.
Согласно таблице ^-распределения точка Д0,05 1; 24)=4,26.
Для построения интервальной оценки средней ) примем С = (1,0)г , так что СТх = 46,72; С^С = = 568,87 . Тогда границы доверительного интервала для ) имеют вид
46,72 + — • 568,87 • 4,26 = 46,72 ± 9,85 4 25 "
Откуда
36,87 < ) < 56,57.
Для построения интервальной оценки генерального среднего )2 принимаем С2 = (0,1)Т , откуда С2Тх = 29,584; С2Т3С2 = 322 = 263,35.
Тогда границы доверительного интервала для и2 имеют вид
29,584 + — • 263,35 • 4,26 = 29,584 ± 2,06 V 25 "
к
п-к
Доверительная
1782
Откуда
27,524 <[2 < 31,644.
Доверительная область для двумерного вектора [ средних представлена на рис. 3.
СПИСОК ЛИТЕРАТУРЫ
1. Андерсон Т. Введение в многомерный статистический анализ [пер. с англ.]. М. : ГИФМЛ, 1963. 500 с.
2. Васильев А.В. Инженер-эколог: профессия будущего // Известия Самарского научного центра Российской академии наук. 2005. № S2. С. 320-323.
3. Васильев А.В. Опыт обучения студентов вузов по проблемам защиты окружающей среды. Безопасность в техносфере. 2010. № 4. С. 55-58.
4. Васильев А.В. Обеспечение экологической безопасности в условиях городского округа Тольятти: учебное пособие. Самара: Изд-во Самарского научного центра РАН, 2012. 201 с., ил.
5. Васильев А.В., Заболотских В.В., Терещенко И.О., Терещенко Ю.П. Разработка программного обеспечения для комплексной оценки рисков здоровью населения на урбанизированных территориях // В сборнике: ELPIT-2013. Экология и безопасность жизнедея-
тельности промышленно-транспортных комплексов: сборник трудов IV Международного экологического конгресса (VI Международной научно-технической конференции). Научный редактор: А.В. Васильев. 2013. Т. 4. С. 26-35.
6. Васильев А.В., Заболотских В.В., Терещенко И.О., Терещенко Ю.П. Информационно-аналитическая система оценки рисков здоровью населения в условиях урбанизированных территорий // Экология и промышленность России. 2013. № 12. С. 29-31.
7. Павлова Е.С. Моделирование систем управления // Актуальные проблемы гуманитарных и естественных наук. 2013. № 2. С. 13-19.
8. Пивнева С.В. Реализация методов прогнозирования // Известия Самарского научного центра Российской академии наук. 2008. № S7. С. 171-177.
9. Ярыгин А.Н., Палферова С.Ш. Формирование базовых компетенций студентов при изучении математики в техническом вузе // Вектор науки тольяттин-ского государственного университета. Серия: Педагогика, психология. 2013. № 1 (12). С. 294-298.
10. Vasilyev A. V, Zabolotskikh V. V., Vasilyev V.A. Development of methods for the estimation of impact of physical factors on the health of population // Safety of Technogenic Environment. 2013. № 4. С. 42-45.
THE APPLICATION OF MULTIVARIATE NORMAL DISTRIBUTION FOR BUILDING A PROBABILISTIC ASSESSMENT OF COMPETENCE
© 2014 N.V. Kalacheva, O.A. Kuznetsova
Togliatti State University
This article describes the multidimensional normal distribution, defined trust the area of vector medium, consider an example of building trust the assessment of competence of students. Key words: multivariate normal distribution, trust region, competence.
Natalya Kolacheva, Candidate of Pedagogical Sciences, Associate Professor of Higher Mathematics and Mathematical Modeling Department. E-mail: [email protected] Olga Kuznetsova, Candidate of Pedagogical Sciences, Associate Professor of Higher Mathematics and Mathematical Modelling Department. E-mail: [email protected]
1783