УДК 539.374
СТАТИСТИЧЕСКИ ОБОСНОВАННОЕ ПОСТРОЕНИЕ ДВУХМЕРНЫХ ГРАФИЧЕСКИХ ЗАВИСИМОСТЕЙ
Г.В. Панфилов, А.В. Черняев
Приведены методика и алгоритм статистически обоснованного построения двухмерных графических регрессионных зависимостей при простейшем парном анализе. Затронуты вопросы установления репрезентативного количества опытов в каждом одномерном массиве, аппроксимации полученных экспериментальных результатов с помощью компьютерной программы «TableCurve 2D» расчета необходимых количественных параметров и нахождения границ доверительных интервалов на различных участках установленной зависимости.
Ключевые слова: анализ одномерных массивов, аппроксимация экспериментальных зависимостей, расчет количественных параметров распределения, установление доверительных границ.
Статистически обоснованное построение указанных широко распространенных зависимостей представляет собой непростой алгоритм последовательно выполняемых действий и расчетов. В данной работе рассмотрен вопрос об экспериментальном исследовании регрессионных зависимостей, когда независимая неслучайная переменная величина xi фиксируется на принятом экспериментатором количестве уровней (i = 1,2, ... ,n)
и на каждом из них проводится обоснованное число опытов по определению соответствующих значений зависимой случайной переменной величины yjj. Таким образом, в результате проведения эксперимента каждому
значению xi по причине действия случайных факторов будет соответствовать одномерный массив yij , в большинстве случаев представляющий собой малую выборку. Каждая такая выборка должна быть репрезентативной (представительной), т.е. давать качественные выборочные оценки искомым генеральным характеристикам. Для этого и устанавливается минимально необходимое количество опытов и проверяется однородность дисперсий переменных yij в каждом одномерном массиве.
1. Установление минимального количества опытов для формирования и статистической обработки одномерных массивов зависимой случайной переменной
Для определения минимально обоснованного количества опытов при формировании одномерных массивов воспользуемся методом последовательных приближений [1]. Для этого вначале задаются некоторым
первоначальным количеством опытов (например, n1 = 6), проводят эксперименты при всех значениях xt и получают соответствующие значения yij. Далее статистически обрабатывают результаты первой серии опытов.
1.1. Среднее каждого одномерного массива (каждой малой выборки):
у=т V' (1)
-1 ~ . ~ где у{ - среднее переменной у для каждого г -го значения х^ в первой серии опытов; т1 - количество опытов в первой серии (одинаковое для каждого г -того значения хг); у = 1,2,..., т - переменная суммирования по результатам в каждом одномерном массиве (выборке); у1у - у -е значения переменной у в г -м одномерном массиве для первой серии опытов.
1.2. Смещенная дисперсия каждого одномерного массива (только для малых выборок):
В
л тх г Л
■ =—уу-у!)2 • (2>
уг т1 у=Д )
1.3. Среднеквадратическая (стандартная) ошибка одномерного массива (выборки) малого объема:
туг м.в.
В
уг
1 (3) п -1
1.4. Предельная ошибка среднего значения в каждом одномерном
массиве.
Известно, что величина предельной ошибки А- составляет поло-
у г
вину доверительного интервала, в котором гарантированно находится генеральное (теоретическое) среднее каждого одномерного массива (которое формально можно установить лишь при бесконечно большом числе опытов). Для оценки предельной ошибки необходимо предварительно задать уровень доверительной вероятности Ь (в зависимости от требуемой надежности конечных результатов исследования). Например, для общего машиностроения обычно принимают Ь = 0,95, возможны значения Ь = 0,90, 0,99, 0,999. Также предварительно рассчитывают число степеней
свободы к1 = т} -1 для каждого одномерного массива, в начале для первой
серии опытов. Последние два параметра (Ь и к1) являются входными в статистические таблицы предельных (критических) значений распределения Стьюдента (^распределения) и позволяют для исследуемого одномерного массива установить его значение. Тогда
а11 = '1 т1 _ ■ (4)
185
уг „В.
На этом расчеты результатов первой серии опытов заканчиваются.
1.5. Задание требуемой предельной ошибки.
Далее необходимо задать требуемую предельную ошибку,
У1
формирующую доверительный интервал, в котором гарантированно должно находиться генеральное среднее каждого одномерного массива. Его величина также определяет точность получаемых конечных результатов исследования. Она может составлять небольшое число или доли процента от размаха анализируемого одномерного массива (выборки). Очевидно, что
чем меньшую величину будет иметь
дпр
, тем большее количество опытов
У1
т придется провести.
1.6. Формирование последующих серий опытов и соответствующие расчеты.
Затем производится сопоставление величин предельных ошибок среднего - рассчитанного по результатам первой серии опытов и заданной требуемой. Если реализуется неравенство
Д11 >ДПр, (5)
У1 уI
то для формирования каждого одномерного массива добавляется несколько опытов Дт. Таким образом реализуется вторая серия опытов для всех п выборок объемом т2 = т1 + Дт, и для нее повторяются все расчеты по формулам (1) - (4). Указанные циклы повторяются до тех пор, пока после очередной к -й серии не реализуется необходимое неравенство
Дк_к < ДПр. (6)
У_ У1
1.7. Расчет несмещенной выборочной дисперсии в каждом одномерном массиве заключительной серии опытов.
Поскольку смещенная выборочная дисперсия, используемая в предыдущих расчетах, не может быть использована в качестве оценки генеральной дисперсии, проводится расчет несмещенной выборочной дисперсии по последней серии опытов
.2 1 т_ (_ -_ \ 2
*У_ =тгт£1>__-у г (7)
В результате установлено, что проведение к опытов для каждого I -го одномерного массива при фиксированных значениях от х до хп позволит получить искомые выборочные средние значения У1 необходимого качества, задаваемого уровнем доверительной вероятности и требуемой предельной ошибкой среднего переменной У .
186
1.8. Табличное представление полученных результатов.
Результаты, позволяющие оценить полученные одномерные массивы и используемые в дальнейших расчетах, целесообразно свести в следующую табл. 1. Поскольку все параметры, приведенные в этой таблице, рассчитываются по последней серии опытов, для упрощения записи индекс к в обозначениях этих параметров не проставлен.
Дальнейшее изложение материала рассмотрено на конкретной задаче о боковом выдавливании свинца в контейнере из мерной цилиндрической заготовки. Требуется установить зависимость необходимой относительной технологической силы Р от расстояния от верха контейнера до оси отверстия, через которое и осуществляется указанное боковое выдавливание. Для упрощения в табл. 1 приведены только цифровые данные, используемые в дальнейших расчетах. Последующий этап статистически обоснованного построения двухмерных зависимостей целесообразно использовать программный продукт «ТаЫеСигуе 2Б».
Таблица 1
Результаты обработки одномерных массивов
1 Задаваемые фиксированные значения переменной х, (расстояние от верха до оси Н, мм) Х1 Х2 Х3 Х4 Х5 Х6
10 12 14 16 18 20
2 Расчетные средние значения переменной у1 (относительная технологическая сила Р) У1 У2 Уз У4 У5 Уб
250 252 253,5 255 256 256,5
3 Смещенная выборочная дисперсия ЯУз ЯУ4 ЯУ6
4 Среднеквадратическая (стандартная) ошибка малых выборок т у,- т У1 т У 2 т У 3 ^ У4 т У5 т Уб
5 Предельная ошибка малых выборок А -у / А- У1 А- у 2 А- у з А" у 4 А- У5 А- Уб
0,34 0,32 0,31 0.31 0,33 0,35
6 Несмещенная выборочная дисперсия Я2 Я 2 у, Я 2 У, Я 2 У- Я 2 У- Я 2 У, Я 2 У,
2. Аппроксимация экспериментальных данных теоретической зависимостью
Программа «TableCurve 2D» предназначена для статистической обработки двумерного массива данных с последующей выдачей наиболее подходящего для него аппроксимирующего полинома и широкого спектра его статистических параметров. В базе данных программы находится свыше 8000 различных функций, начиная с простейших линейных и заканчивая сложнейшими нелинейными уравнениями. Входными параметрами могут являться как данные, непосредственно вводимые при запуске программы, так и импорт таблиц данных в различных форматах: ASCII различных типов, а также таблицы Lotus, Excel, Quattro, SigmaPlot и dBase. Программа предоставляет пользователю возможность работы либо с определенной категорией аппроксимирующих полиномов, либо со всеми полиномами, находящимися в базе данных программы. Возможна также работа и с функциями пользователя.
L ЖаЫеСигуе 2D
File Edit Calculate Jable View Process Review Help
! TableCurve Editor
m
XYB En 1
J J J J J J J J J J J J J J J J J J J
X
10,0 12,0 14,0 16,0 18,0 20,0
250,0 2570 253,5 255,0 256,0 256,5
Weights
Copy
W
DK
Help
AutoEntry X AutoEntry Y I/ AutoEntry W
Calculation
Oik:
Graph
litles
Sort Table
:X.Y
Рис. 1. Табличное введение исходных данных
После определенных начальных действий с компьютерной программой осуществляется ввод исходных данных (рис. 1). После занесения исходных данных в программу (расстояние до оси - столбец х относительная сила - у) на экране появляется следующее окно (рис. 2), в котором наотмасштабированной координатной плоскости нанесены 6 исходных точек.
Рис. 2. Изображение на экране введенных экспериментальных точек
Можно привести табл. 2 с параметрами переменных х и у (из данных рис. 2).
Таблица 2
Количественные параметры переменных
№ Переменная x
1 Минимальное значение 10,0
2 Максимальное значение 20,0
3 Диапазон изменения 10,0
4 Медиана 15,0
5 Среднее значение 15,0
6 Стандартная ошибка 3,7417
7 Значение при Ут{п 10,0
8 Значение при УтаХ 20,0
Переменная y
9 Минимальное значение 250,0
10 Максимальное значение 256,5
11 Диапазон изменения 6,5
12 Медиана 254,25
13 Среднее значение 253,83
14 Стандартная ошибка 2,5033
15 Значение при Хт;п 250,0
16 Значение при ХтаХ 256,5
Пропуская ряд действий, связанных с выбором аппроксимирующих полиномов (функций), при последующей работе с программой нажатием кнопки «GraphStart» в меню «Review» можно получить результат расчета
189
в виде аппроксимирующей кривой, показанной на координатной плоскости в окне «ReviewCurve-fit» (рис.3), а также соответствующий ей аппроксимирующий полином, расположенный в окне «Equations» (рис. 3). В окне «Equations» можно выбрать любой из 3303 подобранных полиномов, причем выбирая определенный полином, в окне «ReviewCurve-fit» автоматически появляется соответствующая ему кривая.
Review Curve-Fit
File Edit Graph Intervals Reference Scan List
Рис. 3. Экрансокнами «Review Curve-fit» и «Equations»
В окне «Equations» функции по умолчанию отсортированы по убыванию коэффициента детерминации, однако возможно иное упорядочивание функций по:
- уровню доверительной вероятности (byDOFadjustedrl);
- стандартной ошибке (byStdError);
- критерию Фишера (by F-statistic);
- скорости операций с плавающей точкой (SortbyFloating-PointSpeed).
В окне с графиком функции имеются несколько кнопок. Назначения каждой из них следующее:
- «LogX» - изменение пропорциональной оси Х на логарифмическую;
скую;
«LogY» - изменение пропорциональной оси Y на логарифмиче-
- «Residuals» - показ погрешностей для каждой точки;
- «List» - полный список подобранных функций;
- «Numeric» - числовые значения рассчитанных статистических параметров;
- «Data» - статистические параметры, рассчитанные для каждой
точки;
- «Precision» - точность вычисления;
- «Print» - вывод графика на печать;
- «Copy» - копирование изображения графика в буфер обмена. Вверху имеется также полоса горизонтальной прокрутки. Более
подробно следует остановиться на кнопках «Numeric» и «Data».После нажатия на кн. «Data» открывается окно со следующими характеристиками точек:
- «XY» - номер точки;
- «XValue» - значение x данной точки;
- «YValue» - значение у данной точки;
- «YPredict» - прогнозируемое значение у относительно его натурального значения;
- «Residual»- погрешность у в натуральных значениях;
- «Residual%»- погрешность у в процентах;
- «95% ConfidenceLimits»- значение доверительной границы с вероятностью 95%;
- «Weights»- значимость точки, указанная при вводе данных.
При нажатии на «Numeric» открывается окно со следующими характеристиками кривой:
- Rank- номер уравнения в списке;
- Eqn - номер уравнения в базе данных программы, а также его вид;
- rA2 CoefDet-коэффициент детерминации уравнения;
- DFAdjrA2 - уровень доверительной вероятности;
- FitStdErr - значение стандартной ошибки;
- F-value - значение критерия Фишера;
- Parm- список используемых в уравнении переменных;
- Value- значение выбранной переменной;
- StdError - стандартная ошибка выбранной переменной;
- t-value - значение критерия Стьюдента для переменной;
- 95% ConfidenceLimits - значение доверительных границ с вероятностью 95%;
- AreaXmin-Xmax - размах аргумента;
- AreaPrecision - точность размаха
- Functionmin - значение минимума функции;
- Functionmax - значение максимума функции;
- 1-stDerivmin- минимум первой производной;
- 1-stDerivmax - максимум первой производной;
- 2-ndDerivmin - минимум второй производной;
- 2-ndDerivmax - максимум второй производной.
В исследуемой зависимости наиболее подходящим (с наибольшим коэффициентом детерминации) для исходных данных полиномом является линейный стандартный четырехчлен вида
191
3
у = а + Ь • х + с • х + d / 1п х + е • х . (8)
Затем следует построить результирующий график искомой двухмерной зависимости (аналогичный представленной в окне рис. 3) с нанесенными границами доверительных интервалов (предельная ошибка из табл. 1), при каждой точке среднего значения переменной у (рис. 4).
249 --------
10 12,5 15 17,5 ММ 20
Ь-►
Рис. 4. Установленная двухмерная зависимость с нанесенными 95 % доверительными интервалами в точках проведения опытов (см. табл. 1)
В заключительную табл. 3 расчетных количественных параметров установленной зависимости можно вносить данные, наиболее значимые, по мнению исследователя.
Таблица 3
Количественные параметры установленной зависимости
№ Обозначение параметра Величина параметра
Вид полинома 3 у = а + Ь • x + c • x + d /1п x + e • x
1 Коэффициент детерминации 0,9999972
2 Уровень доверительной вероятности 0,9999680
3 Значение стандартной ошибки 0,0090618
4 Значение критерия Фишера 89077,0
5 Параметры коэффициентов аппроксимирующего полинома а ь е d е
16278,88 89,205 0,014 58209,57 101205,88
6 Стандартная ошибка 836,42 4,26 0,0009 2144,07 7564,28
7 Значение критерия Стьюдента 32,59 7,28 7.54 41,35 51,11
8 95% доверительные границы 15733,04-17433,64 82,341-94,867 0,011-0,038 57134,35-61429,73 112384,12-96507,33
При более сложных зависимостях следует из представленного перечня (рис. 3, внизу) выбирать не проходящую через все точки, а сглаженную кривую (полином) с несколько меньшим коэффициентом детерминации, но более простую и удобную для практического использования.
Все материалы статьи, за исключением фрагментов, описывающих обозначения работу программы и расшифровывающих обозначения окон и опций, целесообразно привести в отчете о проведенном исследовании.
Список литературы
1. Ефимова М.Р., Петрова Е.В., Румянцев В.Н. Общая теория статистики: учебник. М.: ИНФРА-М, 2009. 416 с.
2. Агаянц И.М. Азы статистики в мире химии; Обработка экспериментальных данных. СПб.: НОТ, 2015. 614 с.
Панфилов Геннадий Васильевич, д-р техн. наук, проф., [email protected], Россия, Тула, Тульский государственный университет,
Черняев Алексей Владимирович, д-р техн. наук, проф., mpf-tula aramhler.ru, Россия, Тула, Тульский государственный университет
STATISTICALLY BASED CONSTRUCTION OF TWO-DIMENSIONAL GRAPHIC
DEPENDENCIES
G. V. Panfilov, A. V. Chernyaev
The technique and algorithm of statistically based construction of two-dimensional graphical regression dependences are presented for the simplest pair analysis. The questions of establishing a representative number of experiments in each one-dimensional array, approximation of the obtained experimental results with the help of a computer program «Table Curve 2D», calculating the necessary quantitative parameters and finding the boundaries of the confidence intervals at various sections of the established dependence are touched upon.
Key words: analysis of one-dimensional arrays, approximation of experimental dependences, calculation of quantitative distribution parameters, establishment of confidence boundaries.
Panfilov Gennady Vasilyevich, doctor of technical sciences, professor, [email protected], Russia, Tula, Tula State Uuniversity,
Chernyaev Aleksey Vladimirovich, doctor of technical sciences, docent, mpf-tula@rambler. ru, Russia, Tula, Tula State University