ВЕСТНИК УДМУРТСКОГО УНИВЕРСИТЕТА 119
ФИЛОСОФИЯ. ПСИХОЛОГИЯ. ПЕДАГОГИКА 2009. Вып. 2
Методы и методики
УДК 303.5(045)
А.А. Чумичкин
МЕТОДИКА ПОСЛЕДОВАТЕЛЬНОЙ ОБРАБОТКИ РЕЗУЛЬТАТОВ АНКЕТИРОВАНИЯ СОВОКУПНОСТИ ОПРАШИВАЕМЫХ, РАЗБИТОЙ НА РАЗНОВЕЛИКИЕ ВЫБОРКИ
Предложена методика последовательной обработки данных анкетирования большой совокупности опрашиваемых. Показана распространенная ошибка расчета генеральной средней по выборочным средним. Рекомендованы формулы для расчета данной величины в общем (разновеликие выборки) и частном (равновеликие выборки) случаях.
Ключевые слова: методика обработки данных анкетирования, совокупность опрашиваемых, ошибка расчета генеральной средней, генеральная средняя, выборочная средняя, разновеликие выборки, равновеликие выборки.
Анкетирование является одним из широко известных экспериментальных методов педагогики и позволяет оценить мнение определенных групп учащихся по интересующим темам.
Чаще всего предлагаемые в анкетах вопросы бывают двух типов: 1) открытый вопрос, требующий конкретного ответа (например: «Оцените по пятибалльной шкале выступление команды КВН вашего факультета») и 2) вопрос с принятием решения, требующий ответа «да» или «нет» (например: «Работаете ли вы по специальности?»).
Совокупный ответ на вопрос первого типа выражают средним арифметическим ответов всех участников опроса, а ответ на вопрос второго типа представляют двумя числами, показывающими долю положительных и долю отрицательных ответов (выраженные в процентах) от общего числа опрашиваемых.
Если совокупность опрашиваемых для проведения анкетирования велика, то суммирование ответов (как для вычисления среднего арифметического, так и для подсчета доли положительных либо отрицательных ответов) является весьма трудоемкой задачей; кроме того, если значение очередного ответа будет пропущено или неправильно введено в калькулятор (ЭВМ), то ввод всех чисел придется начинать заново.
Поэтому при обработке большого массива статистических данных удобно разбить генеральную совокупность на выборки и вычислить искомые величины сначала для каждой выборки в отдельности, а затем найти общий для всей совокупности результат. Иногда такое разбиение необходимо не только для облегчения расчетов, но позволяет достичь некоторых особых целей. Например, если совокупность студентов разбить на выборки по принципу принадлежности к тому или иному курсу, то можно получить как статическую картину для всех студентов в целом, так и данные по каждому курсу, показывающие динамику состояния исследуемого вопроса. Кроме того, раз-
2009. Вып. 2 ФИЛОСОФИЯ. ПСИХОЛОГИЯ. ПЕДАГОГИКА
биение генеральной совокупности на выборки позволяет сравнивать данные по разным специальностям, бюджетным и внебюджетным группам, очному и заочному отделению, дневной и вечерней форме обучения и т. п.
Разбиение большого массива статистических данных на выборки - общепринятый метод математической статистики [2. С. 141]. Однако существует правило, согласно которому выборки должны быть равными (равновеликими) [1. С. 118; 4, С. 83]. Если совокупность разбита на равновеликие выборки, то вычисление общего результата не представляет никаких трудностей: его находят (в обоих случаях) как среднее арифметическое результатов, полученных для отдельных выборок.
Как правило, при разбиении совокупности по вышеназванным критериям равной численности выборок добиться невозможно. Даже при самом лояльном отношении преподавателей и наиболее толерантных педагогических подходах отсев отстающих студентов неизбежен, поэтому численность групп по мере перехода на старшие курсы постепенно снижается. Кроме того, анкетный опрос носит добровольный характер, и не все студенты изъявляют желание отвечать на предлагаемые вопросы. Наконец, определенное число анкет оказывается испорченным. В результате число анкет из разных групп опрошенных (курсов и т. п.) практически не бывает одинаковым.
Конечно, численность выборок возможно выровнять искусственно. Если мы оцениваем, например, качество изделий, то мы можем рассчитать для заданной погрешности представительность выборки, после чего отбирать из каждой партии необходимое число образцов. В данном случае предполагается, что все изделия идентичны (с учетом допусков) некоторому эталону, поэтому нет необходимости учитывать все изделия. Педагог же действует в совершенно иных условиях. Во-первых, он опрашивает всех учащихся из интересующей его группы, присутствующих на момент проведения опроса и желающих принимать в нем участие, поэтому численность опрашиваемых заранее неизвестна. Во-вторых, мнение каждого респондента индивидуально, и его желательно учитывать; если же мы выровняем численность выборок по объему минимальной из них (по разным причинам), то во всех остальных выборках придется отбросить «лишние» анкеты. В результате (особенно, если разница в численности групп велика) теряется объективность опроса, так как 1) не все ответы принимаются в расчет и 2) решение о том, какие анкеты признать «лишними», принимается субъективно (в лучшем случае можно рекомендовать случайное изъятие).
Итак, рассмотрим особенности расчета генеральных средних по выборочным средним при равно- и разновеликих выборках. Пусть L — число выборок, а i — номер выборки. Тогда i = 1, 2, ..., L; если мы опрашиваем студентов вуза и разбиваем их совокупность по курсам, то L = 5. Обозначим через nt число студентов i-го курса. Тогда общее число членов совокупности
(студентов) N = ^nt . Для удобства введем буквенные обозначения:
i
ni = a, b, c, d, e, где a — число студентов 1-го курса, ., e — число студентов 5-го курса. Разобьем совокупность на выборочные интервалы, обозначенные буквой j. Тогда ji = o, p, q, r, s. В результате генеральная совокупность (студентов) распределяется по отдельным выборкам следующим образом:
ФИЛОСОФИЯ. ПСИХОЛОГИЯ. ПЕДАГОГИКА 2009. Вып. 2
о = [1, 2, ..., а];р = [а + 1, а + 2, ..., а + Ь]; q = [а + Ь + 1, а + Ь + 2, ..., а + Ь + с]; г = [а + Ь + с + 1, а + Ь + с + 2, ..., а + Ь + с + А]; я = [а + Ь + с + а? + 1, а + Ь + + с + А + 2, ..., а + Ь + с + А + е]. Интервал генеральной совокупности к = [о +
+ р + q + г + я] = X = [1, 2, ..., Л].
г
Среднее арифметическое каждой выборки определяют по следующей формуле [1. С. 118; 3. С. 103; 4. С. 81; 5. С. 203; 6. С. 185]:
X = ^—. (1)
п
Тогда среднее арифметическое оценок всей совокупности
_ X хк
X = -к-----. (2)
N
Например, мы имеем совокупность из 27 человек (Л = 27), разбитую на
пять выборок (Ь = 5) по щ человек: щ = а = 10, п2 = Ь = 7, п3 = с = 5, п4 = А = 3, п5 =
е = 2. При ответе на вопрос первого типа были получены следующие оценки: х° = 3, 4, 2, 2,2, 3,6, 4,3, 3,1, 2, 3, 3; х, = 3,5, 4,6, 2,1, 3,8, 4,1, 3, 2,5; х9 = 2,1, 3,2, 3,7, 2,9, 4; хг = 2,2, 3,2, 2,7; х, = 2,2, 3,2.
В соответствии с предложенным подходом сначала мы вычислим по формуле (1) средние арифметические оценок по каждой выборке в отдельности:
X Хо
_ " ° 3 + 4 + 2 + 2,2 + 3,6 + 4,3 + 3,1 + 2 + 3 + 3 30,20 „
х = —----- =---------------------------------------------- =---- = 3,02;
1 а 10 10
X хв
_ рр 3,5 + 4,6 + 2,1 + 3,8 + 4,1 + 3 + 2,5 23,60 „
х2 =^----- = -------- --- ----- ---- --------------------— = —-— = 3,37;
2 Ь 7 7
X ха
_ , 4 2,1 + 3,2 + 3,7 + 2,9 + 4 15,90 „ 10
х3 = —---- =------------------------------------------ =- = 3,18;
3 с 5 5
X хг
_ " Г 2,2 + 3,2 + 2,7 8,10 „
х4 = —---- =---------------- =------------------- = 2,70;
4 А 3 3
X х,
х = ^ ‘ = 2,2 + 3,2 = 5,4 =
е 2 2
Теперь нам нужно определить среднее арифметическое оценок всей совокупности.
Если нам известны суммы оценок по каждой выборке, то их надо сложить между собой и полученный результат разделить на общее число оценок:
X х° +X х, +X х9 +X хг +X х,
X = -------,-----ч-------Г------,—. (3)
N
Если же нам известны только выборочные средние арифметические (либо мы их вычислили сразу и не записали суммы, либо мы обрабатываем
2009. Вып. 2 ФИЛОСОФИЯ. ПСИХОЛОГИЯ. ПЕДАГОГИКА
чужие данные и не располагаем исходными величинами) и численность выборок, то формулой (3) воспользоваться невозможно.
На первый взгляд кажется вполне правильным вычислить искомое среднее арифметическое оценок всей совокупности по формуле (2), подставив г вместо к, хг вместо хк и Ь вместо N в таком случае мы преобразуем формулу (2) в формулу (4)
_ I*
X =-*----------------------------------------, (4)
Ь
которая дает следующий результат:
3,02 + 3,37 + 3,18 + 2,70 + 2,70 = 14,97 = 2
5 5 , '
Для его проверки вычислим эту же величину по общепринятой формуле (2):
I хк
- ~ к 3 + 4 + 2 + 2,2 + 3,6 + 4,3 + 3,1 + 2 + 3 + 3
X =-к---- =-------------- ------ ----- - ---------- +
N 27
3,5 + 4,6 + 2,1 + 3,8 + 4,1 + 3 + 2,5 2,1 + 3,2 + 3,7 + 2,9 + 4
+ ^----------------!-!-!---------!-!_ + _!-!---!------!--- +
27 27
2,2 + 3,2 + 2,7 2,2 + 3,2 83,20
+ —-----------— + —-------— = —— = 3,08.
27 27 27
Как видим, результаты не совпадают; абсолютная разница составляет 3,08 - 2,99 = 0,09, а относительная — 0,09 / 3,08-100 % = 2,92 %. Значит, формулой (4) нельзя пользоваться для вычисления среднего арифметического совокупности по выборочным средним. Следует подчеркнуть, что использование формулы (4) в данном случае является весьма распространенной ошибкой; причем погрешность тем больше, чем больше разность в численности выборок и чем меньше число выборок, на которые разбивается совокупность.
Таким образом, в случае разновеликих выборок следует пользоваться специальной формулой. Очевидно, что I *к =11 *н , тогда из формулы (1)
к г 1
имеем I *1 = хгпг (здесь мы возвращаемся к неизвестным суммам из формул
лы (3)), откуда находим I *к =1 (*гПг ) и
к
X — ---------. (5)
N
Вычислим искомую величину по рекомендуемой нами формуле (5).
X (Хп)
г 1 3,02-10 + 3,37 • 7 + 3,18 • 5 + 2,70 • 3 + 2,70 • 2
X — -
N 27
30,20 + 23,59 +15,90 + 8,10 + 5,40 83,19
27 27
= 3,08.
ФИЛОСОФИЯ. ПСИХОЛОГИЯ. ПЕДАГОГИКА 2009. Вып. 2
В данном случае мы получили тот же результат, что и по формуле (2), а это подтверждает правильность формулы (5).
Рассмотрим второй случай (вопрос второго типа). При ответе на вопрос второго типа положительные ответы распределились по выборкам следующим образом (безусловно, при подобном расчете можно оценивать как положительные, так и отрицательные ответы, но достаточно будет найти долю (в процентах) положительных ответов, а процент отрицательных вычислить по разности от 100 %): х0 = 7; хр = 6; х9 = 3; хг = 2; хх = 1.
Процент положительных ответов по каждой выборке определяют по следующей формулеА
(6)
Пг
Процент по всей совокупности
Хр = *к 100 % (7)
N '
Рассчитаем по формуле (6) долю положительных ответов для каждой выборки:
„ 7 • 100 % р 6 • 100 % 0^-710/ » 3 ■ 100 %
=--------- = 70,00 %; =-------- = 85,71 %; хра =--------- = 60,00 %;
0 10 р 7 9 5
р 2•100 % р 1100 %
=--------- = 66,67 %; =----------- = 50,00 %.
г 3 * 2
Если мы попытаемся вычислить общий процент по всей совокупности в целом как среднее арифметическое процентов, определенных для выборок, то получим следующий результат:
70,00 % + 85,71 % + 60,00 % + 66,67 % + 50,00 %
5
332,38 %
= 66,48 %.
5
Для проверки результата вычислим по формуле (7) процент положительных ответов для всей группы:
(7 + 6 + 3 + 2 +1) • 100 % _ 19 • 100 % _ 1900 %
X =------------------------- = --------- = -------- = 70,37 /о.
27 27 27
Как и в предыдущем случае, результаты вычислений не совпадают; абсолютная разница ответов составляет 70,37 % - 66,48 % = 3,89 %, а относительная - 3,89 % / 70,37 %• 100 % = 5,53 %. Значит, общий процент совокупности нельзя вычислять как среднее арифметическое процентов, определенных для отдельных выборок.
Нормализуем значения, полученные для отдельных выборок, по общему числу совокупности:
*« = . (8)
г N
Тогда общий процент положительных ответов равен сумме нормализованных процентов положительных ответов:
2009. Вып. 2 ФИЛОСОФИЯ. ПСИХОЛОГИЯ. ПЕДАГОГИКА
хр = 2хП . (9)
г
Объединим формулы (8) и (9):
2(хЧ)
Хр = -*---------------------------------. (10)
N
Вычислим искомую величину по рекомендованной нами формуле (10): Хр =-
р_ 70,00 % -10 + 85,71 % • 7 + 60,00 % • 5 + 66,67 % • 3 + 50,00 % • 2
27
700,00 % + 599,97 % + 300,00 % + 200,01 % +100,00 %
27
1899,98 %
= 70,37 %.
27
В данном случае мы получили тот же результат, что и по формуле (7), а это подтверждает правильность формулы (10).
Сравнение формул (5) и (10) свидетельствует об их идентичности. В обоих случаях мы вычисляем среднее арифметическое величин, нормализованных по общему числу членов совокупности (где п / N — коэффициент нормализации); нетрудно убедиться, что если бы численность всех выборок была одинаковой, то числа п и как следствие коэффициенты п / N были бы равны между собой и нормализация не требовалась бы.
Таким образом, из известных в теории математической статистики формул (4) и (5) для определения генеральной средней по выборочным средним в общем случае (разновеликие выборки) следует использовать формулу (5), а в частном случае (равновеликие выборки) - формулу (4).
СПИСОК ЛИТЕРАТУРЫ
1. Борель Эм., Дельтейль Р., Юрон Р. Вероятности, ошибки / пер. с фр. Альб. Л. Вайнштейна и Н. С. Четверикова. М.: Статистика, 1972. 176 с.
2. Вентцель, Е.С. Теория вероятностей. 4-е изд., стер. М.: Наука, 1969. 576 с.
3. Мартин Фр.Ф. Моделирование на вычислительных машинах / пер. с англ. М.В. Воронова, Е.И. Шапиро; под ред. д-ра физ.-мат. наук И.Н. Коваленко. М.: Сов. радио, 1972. 288 с.
4. Салтыков С.А. Стереометрическая металлография. 3-е изд., перераб. и доп. М.: Металлургия, 1970. 376 с.
5. Смирнов Н.В., Дунин-Барковский И.В. Курс теории вероятностей и математической статистики для технических приложений. 3-е изд., стер. М.: Наука, 1969. 512 с.
6. Худсон Д. Статистика для физиков: лекции по теории вероятностей и элементарной статистике / пер. с англ. В.Ф. Грушина; под ред. Е.М. Лейкина. М.: Мир, 1967. 242 с.
Поступила в редакцию 19.02.09
ФИЛОСОФИЯ. ПСИХОЛОГИЯ. ПЕДАГОГИКА 2009. Вып. 2
А.А. Chumichkin, associate professor
Procedure of sequential processing of the data from questionnaire design of population divided in nonequal samples
The procedure of sequential processing of the data from questionnaire design of population divided in nonequal samples is offered. The widespread mistake of general mean calculation with sample means is shown. Formulae for calculation of this value in general (nonequal samples) and particular (equal samples) cases are recommended.
Чумичкин Андрей Александрович, доцент Ижевский государственный технический университет 426000, Россия, г. Ижевск, ул. Студенческая, 7 E-mail: [email protected]