Научная статья на тему 'ОСНОВЫ СТАТИСТИЧЕСКОГО АНАЛИЗА ДАННЫХ'

ОСНОВЫ СТАТИСТИЧЕСКОГО АНАЛИЗА ДАННЫХ Текст научной статьи по специальности «Экономика и бизнес»

CC BY
770
105
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СТАТИСТИКА / STATISTICS / ВЫБОРКА / SAMPLE / ДОВЕРИТЕЛЬНАЯ ВЕРОЯТНОСТЬ / CONFIDENCE PROBABILITY

Аннотация научной статьи по экономике и бизнесу, автор научной работы — Конюк А.О.

Введение статистических методов в экспериментальное исследование обычно происходит после получения результатов. Но это не есть хорошо, так как отсутствие заранее запланированного статистического плана может стать причиной ошибочных результатов. В статье рассматриваются некоторые основы статистики при планировании исследования.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «ОСНОВЫ СТАТИСТИЧЕСКОГО АНАЛИЗА ДАННЫХ»

ОСНОВЫ СТАТИСТИЧЕСКОГО АНАЛИЗА ДАННЫХ

Конюк А.О. ©

Магистрант, направление Инфокоммуникационные технологии и системы связи, Сибирский государственный университет телекоммуникации и информатики

Аннотация

Введение статистических методов в экспериментальное исследование обычно происходит после получения результатов. Но это не есть хорошо, так как отсутствие заранее запланированного статистического плана может стать причиной ошибочных результатов. В статье рассматриваются некоторые основы статистики при планировании исследования.

Ключевые слова: статистика, выборка, доверительная вероятность. Keywords: statistics, sample, confidence probability.

Прежде чем рассматривать основы статистического анализа, стоит прояснить значение термина «статистика». Есть очень много определений, однако более совершенным и лаконичным считается, на мой взгляд, определение статистики как «науки о сборе, представлении и анализе данных».[1,243]

Стоит заметить, что совсем нередко статистику сводят лишь к обработке экспериментальных данных, при этом, не обращая внимания на этап их получения. Однако статистические знания нужны уже во время планирования эксперимента, чтобы приобретенные в ходе него характеристики имели возможность дать исследователю достоверную информацию. Поэтому, можно заявить, что статистический анализ результатов эксперимента наступает еще до начала исследования.

На этапе разработки плана исследователь обязан отчетливо представлять себе, какого вида переменные станут в его работе. Все переменные разрешено поделить на два класса: качественные и количественные. То, какой диапазон имеет возможность воспринимать переменная, находится в зависимости от шкалы измерений.[2] Разрешено отметить четыре основных шкалы:

1. номинальную;

2. ординальную;

3. интервальную;

4. рациональную (шкалу отношений).

В номинальной шкале находятся только относительные обозначения для описания некоторых классов объектов. Номинальная шкала предполагает, будто переменная станет принимать значения, количественные взаимоотношения между которыми найти невозможно. Номинальная шкала считается качественной в чистом виде, отдельные группы в данной шкале выражают частотами (количество или доля наблюдений, проценты).

Ординальная (порядковая) шкала предугадывает, будто отдельные группы в ней имеют все шансы строиться сообразно по возрастанию или убыванию. Она относится к полуколичественным типам данных, и ее градации разрешено описывать как частотами (как в качественной шкале), так и мерами центральных значений.

Интервальная и рациональная шкалы относятся к чисто количественным типам данных. В интервальной шкале разрешено найти, насколько одно значение переменной различается от другого. У рациональной шкалы (шкалы отношений) есть одна точка отсчета и она имеет только положительные значения. Разрешено добавить, будто неважно какая количественная переменная имеет возможность быть непрерывной или же дискретной. Данные отличия имеют главный смысл для выбора способ статистического анализа

© Конюк А О., 2017 г.

результатов эксперимента. Так, для номинальных данных используют критерий «хи-квадрат», а более известный тест Стьюдента просит, чтобы переменная (интервальная либо рациональная) была постоянной.

После того как будет решен вопрос о виде переменной, надлежит заняться формированием выборки. Выборка - это маленькая категория объектов конкретного класса. Создание выборки регламентируется рядом обязательных требований, нарушение которых имеет возможность привести к ложным выводам из итогов изучения. К примеру, важен объем выборки. Объем выборки находится в зависимости от точности оценки исследуемых характеристик.

Сформировать выборки разрешено разными способами. Самый обычный из них -выбор с помощью генератора случайных чисел нужного количества объектов из выборочной рамки. Такой метод можно назвать «простой случайной выборкой».[3,129] Если случайным образом избрать исходную точку в выборочной рамке, а потом взять каждый второй, пятый или десятый объекты, то выйдет интервальная выборка. Интервальная выборка никак не считается случайной, так как никогда не исключает возможность появления вероятности периодических повторений данных в рамках выборочной рамки. Еще есть кластерная выборка. Она употребляется в случае, когда приобретение полнейшей информации о выборочной рамке затруднено из-за ее размеров.

Надлежит отметить, что объем выборки связан с вероятностью статистических ошибок первого и второго рода. Ошибочное отклонение нулевой гипотезы - это ошибка первого рода. При этом, нулевая гипотеза - это намерение о том, будто все изучаемые категории взяты из одной генеральной совокупности, это означает, что различия или взаимосвязи между ними случайны. Ошибка второго рода - это неверное отклонение альтернативной гипотезы, значение которой содержится в том, будто различия или взаимосвязи между группами обусловлены не случайным совпадением, а воздействием изучаемых факторов.

Если вернуться к самой процедуре анализа, то стоит обратить внимание на два основных типа статистических техник: описательные и доказательные (аналитические). Описательные техники включают в себя способы, которые позволяют представить данные в более компактном и легком для понимания виде. Сюда разрешено отнести таблицы, графики, частоты (абсолютные и относительные), меры разброса данных (дисперсия, стандартное отклонение) и меры центральной тенденции (средние, медиана, мода). Иными словами, описательные методы предоставляют характеристику изучаемым выборкам.

Более популярный метод описания имеющихся количественных данных заключается в определении следующих характеристик:

• численность наблюдений в выборке или ее объем;

• средняя величина (среднее арифметическое);

• стандартное отклонение - признак того, как широко меняются значения переменных.

Важно отметить, что среднее арифметическое и стандартное отклонение - это меры

центральной тенденции и разброса в довольно маленьком количестве выборок. В этих выборках значения у большинства объектов с одинаковой вероятностью отклонены от среднего, а их распределение формирует симметричный «колокол» (кривую Гаусса-Лапласа). Это распределение называются «нормальным», если же значения переменной распределены асимметрично относительно центра, то группы описываются с помощью медианы и квантилей.

Закончив рассмотрение групп, нужно ответить на вопрос об их взаимоотношениях и о способности обобщить итоги исследования. Для этого употребляются неопровержимые способы биостатистики. Конкретно о них в первую очередь упоминают исследователи, когда идет речь о статистической обработке данных. Традиционно данный шаг работы называют «тестированием статистических гипотез». Задачи испытания гипотез разрешено поделить на две группы. Первая группа дает ответ на вопрос, есть ли отличия между группами по уровню

некоторого признака, вторая группа позволяет обосновать присутствие взаимосвязи между двумя или более признаками.

Нужно учесть, что статистические способы значительно различаются для качественных и количественных данных. В ситуации, когда изучаемая переменная -качественная и сравниваются лишь две группы, разрешено применять аспект «хи-квадрат». Это довольно мощный и широкий аспект, но, он оказывается малодействительный в случае, если численность наблюдений не достаточно. Для решения представленной трудности, есть некоторое количество способов, например, как поправка Йейтса на непрерывность и более точный метод Фишера.

Если изучаемая переменная считается количественной, то разрешено применять один из двух видов статистических критериев. Критерии первого вида базируются на определенном виде распределения генеральной совокупности и оперируют параметрами данной совокупности. Эти критерии именуют «параметрическими», и они, основываются на предположении о нормальности распределения значений. Непараметрические критерии не основываются на предположении о виде распределения генеральной совокупности и не употребляют ее характеристики.

Есть два параметрических критерия используемых к данным, извлеченным из нормально распределенной совокупности: ^тест Стьюдента для сопоставления двух групп и F-тест Фишера, который позволяет осуществить проверку на равенство дисперсий (он же -дисперсионный анализ).[4,110] Непараметрических же критериев существенно больше. Разные критерии различаются друг от друга по допущениям, на которых они базируются, по сложности вычислений, по статистической мощности и т. д. Но более применимым в большинстве случаев числится критерий Вилкоксона (для связанных групп) и критерий Манна-Уитни, еще известный как критерий Вилкоксона для независимых выборок. Данные испытания комфортны тем, что не требуют предположения о характере распределения данных. Однако если выборки взяты из нормально распределенной генеральной совокупности, то их статистическая мощность будет совсем немного отличаться от таковой для теста Стьюдента.

Совершенное описание статистических методов разрешено найти в особой литературе, но, главным моментом считается то, что любой статистический анализ требует набора правил (допущений) и критерий для собственного использования, и механический перебор нескольких способов для поиска «подходящего» результата полностью неприемлем с научной точки зрения.

Для наиболее совершенного понимания вопроса точности статистического анализа нужно найти и проанализировать понятие «доверительной вероятности» Доверительная вероятность - это величина, принятая в качестве границы между вероятными и маловероятными событиями. Обычно, она классифицируется буквой <ф». Для многих исследователей единой целью исполнения статистического анализа считается расчет значения р. Максимально возможной доверительной вероятностью является величина 0,05. Надлежит помнить, что доверительная вероятность - это не вероятность некого действия, а вопрос доверия. Выставляя перед истоком разброса доверительную вероятность, можно тем самым определить степень доверия к результатам исследований. А, как известно, излишняя доверчивость и излишняя недоверчивость идентично плохо сказываются на результатах любой работы.

Уровень доверительной вероятности указывает, какую наибольшую вероятность появления ошибки первого рода исследователь считает возможной. Убавление значения доверительной вероятности, по-другому говоря, усиление критерий тестирования гипотез, усиливает вероятность ошибок второго рода. Следовательно, выбор уровня доверительной вероятности обязан исполняться с учетом вероятного ущерба от происхождения ошибок первого и второго рода. Есть мнение, что вместо уровня доверительной вероятности лучше было бы расценивать итоги изучение по величине доверительного интервала. Доверительный интервал - это диапазон значений, в котором с конкретной вероятностью

заключено подлинный популяционный смысл (для среднего, медианы или частоты).[5,205; 4,125] На практике комфортнее иметь оба эти значения, что позволяет с большей уверенностью судить о применимости приобретенных итогов в целом.

Следует сказать в заключение несколько слов об инструментах, которые используют специалисты по статистике, либо исследователи, когда самостоятельно проводят анализ данных. Имеющиеся на сегодняшний день статистические компьютерные программы разрешают проводить статистический анализ, совсем не имея математической подготовки. Эти массивные системы как SPSS, SAS, R и др. предоставляют возможность исследователю применять трудные и массивные статистические методы. Но далеко не всегда это считается благом. Не понимая о степени применимости применяемых статистических исследований к определенным данным эксперимента, исследователь имеет возможность вести подсчеты и получать некоторые числа на выходе, однако итог будет очень сомнительным. Поэтому, неотъемлемым условием для проведения статистической обработки результатов эксперимента обязано быть хорошее знание и умение математических основ статистики.

Литература

1. Елисеева И.И., Юзбашев М.Н. Общая теория статистики, 2003. С. 234-357.

2. Балинова В. С. Статистика в вопросах и ответах // Учебное пособие, 2004. С. 344.

3. Ефимова М. Р., Рябцев В. М. Общая теория статистики // Финансы и статистика, 1995. С. 121200.

4. Гинзбург А.И. Статистика, 2003. С. 98-128.

5. Ниворожкина Л.И., Морозова З.А., Герасимова И.А., Житников И.В. Основы статистики с элементами теории вероятностей для экономистов, 1999. С. 201-210.

i Надоели баннеры? Вы всегда можете отключить рекламу.