УДК [519.2+004.7] (07) ВАК 05.13.10 ББК [22.172+32.97] Я7 РИНЦ А86
МЕТОДОЛОГИЧЕСКИЕ АСПЕКТЫ ПРИМЕНЕНИЯ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ ДЛЯ ПРОГНОЗИРОВАНИЯ РЕЗУЛЬТАТОВ ИНТЕРНЕТ-АТТЕСТАЦИЙ СТУДЕНТОВ
Е. А. Артюшина, ст. преподаватель кафедры «Вычислительные машины и системы»
Тел.: (8412) 49-61-56, e-mail: [email protected] Е. Г. Бершадская, к. т. н., профессор кафедры «Вычислительные машины и системы»
Тел.: (8412) 49-61-56, e-mail: [email protected] Пензенская государственная технологическая академия (ПГТА)
www.pgta.ru
The article deals with the ways of applying mathematical statistics conceptions while working out testing plans for the system of providing high quality of specialists' training. Estimation of probability of successful passing of attestation tests was obtained on the basis of sample statistical measurement, in this case random sampling data supply us with reliable conclusions about general aggregate.
Авторами статьи предлагается методика использования аппарата математической статистики при разработке планов тестирования во внутривузовской системе обеспечения качества подготовки специалистов. На основе выборочного статистического наблюдения, при котором по данным случайной выборки делаются выводы обо всей генеральной совокупности, получены оценки вероятности успешного прохождения аттестационного тестирования.
Ключевые слова: аттестационное тестирование, выборочное статистическое наблюдение, система обеспечения качества подготовки специалистов.
Keywords: attestation tests, sample statistical measurement, the system of providing high quality of specialists training.
В настоящее время в России в сфере высшего образования проводится работа по использованию инструмента мониторинга и сравнения (для построения рейтингов), а также выработки неких обобщенных (усредненных) стандартов отрасли. Используемые в практике процедуры мониторинга качества образования по отдельным показателям несовершенны и достаточно трудоемки. При этом наблюдается тенденция к переносу центра тяжести с процедур внешнего контроля качества образовательного процесса и его результатов на базе национальных систем аттестации и аккредитации в сторону внутренней самооценки (самообследования) вузов. Полученные в ходе самообследования материалы представляют собой результаты статистического сбора и обработки информации. Предлагается подход к ведению постоянного мониторинга, обеспечивающий получение прогнозируемых результатов на основе выборочной статистики.
Многофункциональность задач статистического наблюдения предполагает наряду со специфическими чертами сбора первичной информации для конкретной решаемой задачи учитывать и соблюдать общую методологию.
План статистического наблюдения в общем случае состоит из уточнения целей исследования, определения объекта наблюдения в пространстве и во времени, установлению единиц статистического наблюдения и статистической совокупности.
Использование аппарата математической статистики при разработке планов тестирования во внутривузовской системе обеспечения качества подготовки специалистов позволит оценивать вероятность успешного прохождения аттестационного тестирования и в целом прогнозировать исход независимой экспертизы, проводимой федеральными службами надзора в сфере образования.
Основными характеристиками предложенной к разработке модели принятия решений [1] будут:
- необходимая регулярность самотестирования вуза;
- число специальностей в вузе, которые должны быть подвергнуты процедуре тестирования, и критерии их отбора;
- число дисциплин различных циклов, по которым должны тестироваться специальности, и критерии их отбора.
Применительно к задаче внутривузовского тестирования единицами статистического наблюдения, выделенными из общей статистической совокупности, в таком случае должны быть специальности, курсы, группы, циклы, дисциплины циклов.
Как известно, одним из наиболее распространенных видов несплошного статистического наблюдения является выборочное, при котором по данным случайной выборки делают выводы обо всей генеральной совокупности.
В данном случае выборочное тестирование имеет ряд преимуществ перед сплошным, исчерпывающим контролем качества обучения. Прежде всего, оно значительно дешевле, результаты можно получить быстрее, оперативнее, его можно провести более тщательно, поддерживая необходимый баланс между количеством учебных групп и количеством учебных дисциплин, охваченных процедурой тестирования.
Для того чтобы по данной выборочной совокупности можно было бы судить обо всей генеральной совокупности, выборка обязана быть репрезентативной (представительной). Статистическая наука разработала ряд теоретических положений, а также практических правил и приемов для реализации этого важнейшего требования, предъявляемого к любой случайной выборке. Главные из них заключаются в том, чтобы единицы генеральной совокупности извлекались случайно и каждая единица статистического наблюдения (в данном случае - специальность, группа, цикл дисциплин и т. д.) имела бы равную возможность попасть в выборку. Все известные способы реализации выборки имеют своей главной целью добиться максимальной репрезентативности.
Следует всё же отметить, что выборочное наблюдение может основываться и на неслучайном отборе. Известны несколько разновидностей неслучайного отбора, например метод квот или выборка по значимости и другие [2].
Специалистами в области статистики предложено много способов осуществления случайной выборки. Это и собственно случайная выборка, и механическая, и серийная, и многоступенчатая, и малая выборка (п < 30) и некоторые другие методы.
Отбор единиц совокупности бывает двух видов - повторный и бесповторный. Бесповторный отбор дает более точные результаты, но он не всегда применим. В ряде случаев различие между повторным и бесповторным отбором бывает практически несущественным, и им пренебрегают.
На практике редко применяется один вид выборки в чистом виде. Как правило, они комбинируются в целях достижения максимальной репрезентативности и экономии сил и средств. Каждый из указанных видов выборки имеет свои преимущества, и статистику необходимо хорошо понимать задачи исследования, его цели, чтобы осуществить наиболее эффективный вид выборочного наблюдения.
Внутривузовское тестирование, как любой производственный и экономический эксперимент, связанный с экономическими затратами, проводится на небольшом числе испытаний. Использование малых выборок в качестве основного способа выборочного наблюдения в данном случае обуславливается еще и характером обследуемой совокупности. Так, для данного статистического наблюдения размер генеральной совокупности изначально невелик (например, общее число дисциплин в учебных планах любой специальности обычно не превышает 60-70), отсюда следует: объем выборки для всех ранее выделенных статистических единиц также будет мал (предположительно, п < 30).
Перед выборочным наблюдением стоит несколько основных задач. Прежде всего необходимо определить величину ц ошибки выборки, которая всегда присутствует в выборочных исследованиях и появляется вследствие того, что обследуются не все единицы статистической совокупности, а лишь часть из них.
Ошибка выборки л (или средняя ошибка выборки) превращается в предельную ошибку Л при умножении ее на коэффициент доверия t, который задается предварительно исходя из тре-
буемой точности и самого характера работы. Предельная ошибка позволяет судить об «истинном» размере параметра в генеральной совокупности с определенной степенью вероятности. Значения вероятности и, соответственно, ( табулированы. Для данного исследования в [1] предварительно задан уровень доверия ( = 0.9-0.99.
Второй тип задач выборочного наблюдения, тесно связанный с первой задачей, сводится к определению численности выборочной совокупности п.
Третий тип задач заключается в определении вероятности того, что выборочное среднее (или доля) отклонится от соответствующего параметра генеральной совокупности не более чем на заданную величину
г = А / | (1)
В тех случаях, когда численность выборки мала (< 30), для выяснения величины ( необходимо вместо распределения Лапласа воспользоваться распределением Стьюдента. Таблицы интеграла вероятностей Лапласа [3] используются для выборок большого объема из бесконечно большой генеральной совокупности. Отметим, что безусловно большой считается выборка с объемом более 100 единиц. Но уже при п = 100 возникает некоторое несоответствие между табличными данными и вероятностью предела. При п < 100 эта погрешность становится значительной.
Несоответствие вызывается, главным образом, характером распределения единиц генеральной совокупности. При большом объеме выборки он не имеет особого значения, так как распределение отклонений выборочного показателя от генеральной характеристики всегда оказывается нормальным. В выборках с объемом п < 30 особенности распределения генеральной совокупности сильно сказываются на распределении ошибок выборки ц и А.
Теория малых выборок, разработанная английским статистиком В. Госсетом (Стьюден-том), предлагает использовать в подобных случаях специальное (-распределение. При п > 100 таблицы распределения Стьюдента дают те же результаты, что и таблицы Лапласа. При 30 < п < 100 различия в получаемых значениях незначительны. Поэтому на практике к малым относят лишь выборки объемом менее 30 единиц.
Таким образом, при использовании малой выборки к случайной величине Т(п) вполне применим закон распределения Стьюдента, который характеризуется нулевым значением математического ожидания и для которого также известна из [4, 5] плотность распределения:
Г
f (t, n)
(n +1)
2
1 + — n
n+1 где t - текущая переменная;
2 > 0 n - объем выборки;
у- / n \ П ' ' Г — известная гамма-функция зависящая только ^ '
1,2 ) от n.
График плотности t-распределения Стьюдента, как известно, симметричен относительно оси ординат и качественно напоминает собой функцию плотности нормального распределения, но отличается от нее более «массивными» хвостами. Этот эффект сильнее выражен для малых значений T(n), а для значений случайной величины, превышающих 40, данное распределение близко к нормальному (распределению Гаусса).
После того как подобран подходящий теоретический закон распределения вероятностей, с которым предположительно можно согласовать экспериментальные данные в конкретном исследовании, необходимо определить параметры распределения, с тем чтобы подвергнуть их дальнейшей проверке по статистическим критериям.
Из (2) следует, что распределение Стьюдента зависит только от одного параметра: числа степеней свободы d. f = n - 1 (англ. degrees of freedom), которое равно числу тех индивидуальных значений признаков, которыми нужно располагать для определения искомой характеристики.
В [2] и [4] рассматриваются следующие критерии согласия для проверки гипотезы H0 о том, что «наблюдаемая случайная величина X подчиняется некоему теоретическому закону распределения F(x)». Это:
-критерий согласия Пирсона X (хи-квадрат); -критерий согласия Колмогорова-Смирнова; -критерий согласия Крамера - фон Мизеса ю2 (омега-квадрат).
Каждый из критериев имеет свои слабые и сильные стороны и относительно выбора между ними можно дать следующие указания. Критерий X очень мощен, но подходит для больших выборок (n > 100); что же касается критерия Колмогорова-Смирнова, то, хотя некоторые авто-
ры указывают, что получали с ним хорошие результаты лишь для выборок среднего объема (п > 30), нет достаточных оснований против применения этого критерия и при 10 < п < 100. При объеме выборки меньше 10 лучшие результаты дает критерий Крамера - фон Мизеса о2 [3].
Статистика критерия Колмогорова-Смирнова: Оп = шах|Ги (х) - Г(х)|, где Гп(х) - эмпирическая функция распределения. (3)
Статистика критерия Крамера - фон Мизеса:
по = £ #(х, - *£)}', (4)
причем для выборки с объемом п < 40 требуется замена
(2 )=( - М++ -I) (5)
4 п п2 Я п
Необходимо оговориться, что статистические критерии согласия Колмогорова-Смирнова и Крамера - фон Мизеса можно применять только в случае, когда гипотетическое распределение Г(х) полностью известно заранее из каких-либо теоретических соображений, т. е. когда известен не только вид функции Г(х), но и все входящие в нее параметры. Вышеупомянутое ¿-распределение Стьюдента считается известным с точностью до параметров.
Отметим далее, что дисперсия для малой выборки рассчитывается по уточненной формуле, согласно [4]:
п
Х(х -х)2 где п - 1 - это также «число степеней свободы», не меняющее (6)
(г2 = —-, величины выборочного среднего.
п -1
В расчетах ошибки выборки в случае типического и серийного отбора вместо общей дисперсии а2 следует использовать среднюю из внутригрупповых дисперсий и межгрупповую дисперсию
х, 2
(2 = Й_' где (г - частная дисперсия /-й группы; (7)
у Х[ х, - объем /-й группы.
1=1
Рассмотренные выше ошибки выборочных характеристик (или оценок) следуют из наличия только одной выборки (т. е. при бесповторном отборе). Однако возможны случаи, когда из одной генеральной совокупности производятся две выборки и необходимо оценить разность между средними выборок. Для больших выборок (с объемом п > 30), средняя ошибка разности двух выборочных средних может определяться по формуле
Мразн =У1М? + М1 . (8)
Для определения того, случайны или существенны расхождения между х1 и х2 выборочными средними, пользуются отношением
(х1 - х2)/ Мразн . (9)
Если отношение (9) меньше 3, то различия между х1 и х2 считают случайными.
Для малых выборок (п < 30) эти формулы нуждаются в уточнении.
В заключение приведем основные формулы для расчета предельной ошибки и численности случайных выборок [4] (см. таблицу).
Таблица
При определении доли При определении средней
Ошибки А Численность п Ошибки А Численность п
Случайная повторная выборка V п 12 • р • д А2 ( 12 •а2 А2
Случайная бесповторная выборка ^ - п ) V п У N) /2 • N • р • д (■ - N) N • /2•(
N •А2 + /2 • р • д N •А2 + /2 •(
где р - вероятность появления ошибки выборки (д = 1 - р); / - коэффициент (или уровень) доверия (0.9-0.99); а2 - дисперсия расчета ошибки выборки; п - численность выборки; N - объем генеральной совокупности.
В конкретных исследованиях, естественно, рассматривается большое число количественных и атрибутивных признаков, которые имеют разную дисперсию. Для определения необходимой численности выборки и в целях сохранения ее репрезентативности в формулы подставляется дисперсия признака, имеющего наибольшее значение. Но можно пойти и на увеличение
предельно допустимой ошибки, т. к. во многом объем выборки зависит и от величины финансовых средств, отпущенных на проведение выборочного исследования.
Полученные рекомендации позволяют вести постоянный мониторинг и получать прогнозируемые результаты при проведении комплексной оценки деятельности вуза, совмещающей процедуры лицензирования, аттестации и государственной аккредитации на базе утвержденного перечня показателей.
Так, если на факультете вуза имеется 56 студенческих групп очной формы обучения (общее число), а учебными планами каждой из 6 специальностей предусмотрено изучение в среднем 42 дисциплин федерального компонента (в том числе по циклам: ГСЭ - 8, ЕН - 7, ОПД -14, СД и ДС - 13 дисциплин), то каждый год (в течение пятилетнего периода после очередной аттестации) нужно контролировать качество обучения по 3 специальностям, 5 дисциплинам, 2 циклам. Межсерийная дисперсия равна 1.2.
В случае положительного прохождения в течение года всех испытаний с достоверностью 0.9^0.99 гарантирован успех. Если же часть испытаний не дает положительных результатов, то нужно принимать дополнительные меры, которые в данной статье не рассматриваются.
Литература
1. Артюшина Е. А., Бершадская Е. Г., Бершадский А. М. Использование статистических методов при планировании внутривузовского тестирования // Информационные технологии в науке, социологии, экономике и бизнесе: Труды международной конференции / Приложение к журналу «Открытое образование». - Украина, Крым, 2008. С. 26-28.
2. Шеннон Р. Имитационное моделирование систем - искусство и наука. - М.: Мир, 1978. - 418 с.
3. Соколов Г. А., Чистякова Н. А. Справочное пособие по теории вероятностей и математической статистике (законы распределения): Учебное пособие. - М.: Высшая школа, 2007. - 248 с.
4. Вентцель Е. С. Теория вероятностей: Учебник для вузов. - М.: Высшая школа, 2001. - 576 с.
УДК 65.011.56 + 372.8
ТИПОВАЯ ОБРАЗОВАТЕЛЬНАЯ ПРОГРАММА ПРОФЕССИОНАЛЬНОЙ ПОДГОТОВКИ В ОБЛАСТИ ИНФОРМАЦИОННОЙ
БИЗНЕС-АНАЛИТИКИ
Д. В. Исаев, к. э. н., доцент кафедры бизнес-аналитики
Тел.: (495) 772-95-90 *51-46, e-mail: [email protected] Н. И. Голов, преподаватель кафедры бизнес-аналитики Тел.: (495) 772-95-90 *51-46, e-mail: [email protected] Государственный университет - Высшая школа экономики
www.hse.ru
In the article the issues of personnel development in the field of information business analytics (within the frames of higher education and continued professional education) are considered. A typical educational program is proposed, the questions of participation of IT companies in a training process are discussed.
В статье рассматриваются вопросы организации подготовки специалистов (как в системе высшего, так дополнительного профессионального образования) по направлению «Информационная бизнес-аналитика». Приводится типовая образовательная программа, обсуждаются роль и формы участия ИТ-компаний в учебном процессе.
Ключевые слова: информационная бизнес-аналитика, образовательная программа, профессиональная подготовка, информационные системы.
Keywords: information business analytics, training program, professional development, information systems.
Введение
Информационная бизнес-аналитика представляет собой относительно новую, но в то же время чрезвычайно востребованную область знаний, охватывающую комплекс методологических, технологических и инструментальных средств, обеспечивающих информационную поддержку принятия решений для управления организацией.