ISSN 2782-2001 Системы анализа и обработки данных том 94, № 2, 2024, с. 55-68
http://journals.nstu.ru/vestnik Analysis and data processing systems Vol. 94, No. 2, 2024, pp. 55-68
ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ И ТЕЛЕКОММУНИКАЦИИ
INFORMATION
TECHNOLOGIES
AND TELECOMMUNICATIONS
УДК 519.242 Б01: 10.17212/2782-2001-2024-2-55-68
Алгоритмы построения дискретных приближенно ^-оптимальных планов эксперимента при активной идентификации регрессионных моделей многофакторных систем*
А. А. ПОПОВ
630073, РФ, г. Новосибирск, пр. Карла Маркса, 20, Новосибирский государственный технический университет
а.ророу@еогр. nstu.ru
В теории оптимального эксперимента имеется группа критериев оптимальности (например, Б-, Л-, Е-критерии), отражающих точность оценивания параметров модели. Существует также группа критериев, связанных с точностью прогноза по модели, которая может характеризоваться дисперсией оценок математических ожиданий откликов. Например, использование критерия в-оптимальности позволяет получать планы, на которых построенные модели будут обеспечивать минимизацию максимальной дисперсии прогноза. К числу подобных относится и критерий ^-оптимальности, предполагающий минимизацию средней по области планирования дисперсии прогноза по регрессионной модели.
В прикладных исследованиях, связанных с построением планов экспериментов, часто используется критерий Б-оптимальности. Это объясняется еще и тем, что критерии Б- и в-опти-мальности связаны между собой. В то же время необходимо отметить, что минимизация максимальной дисперсии в общем случае может не приводить к снижению средней по области дисперсии прогноза. Поэтому использование ^-оптимальных планов в практических задачах регрессионного моделирования актуально. Для широкого внедрения в практику активной идентификации регрессионных моделей концепции ^-оптимальности планов эксперимента необходим арсенал эффективных алгоритмов их построения.
В работе предлагаются и описываются алгоритмы построения дискретных приближенно 2-оптимальных планов. Предлагаемые алгоритмы построены на базе развиваемого подхода последовательного наращивания числа точек в плане, а также процедур замены точек в плане. Полученные такими алгоритмами планы рекомендуются к использованию на практике, когда требуется в среднем хорошая точность прогноза по модели на всей области действия входных факторов.
Ключевые слова: регрессионная модель, план эксперимента, критерии оптимальности, дисперсия прогноза по модели, ^-оптимальные планы, дискретные планы, алгоритм добавления, алгоритм добавления-удаления
*
Статья получена 30 января 2024 г.
ВВЕДЕНИЕ
При проведении активной идентификации регрессионных моделей важное значение имеет выбор критерия оптимальности планов эксперимента. Их предложено много [1]. Для ряда критериев эллипсоид рассеяния оценок параметров имеет особенности: минимальный объем, минимальные габаритные размеры. В начальный период развития теории оптимального планирования эксперимента основное внимание уделялось критерию Б-оптималь-ности [2-5]. Для Б- оптимальных планов часто случается так, что эллипсоид рассеивания оценок параметров оказывается вытянутым по какой-либо главной оси. В теории планирования эксперимента отмечается эквивалентность Б- и С-оптимальных непрерывных планов эксперимента. Однако при этом точность предсказания математического ожидания отклика в различных частях области планирования может существенно различаться. Сгладить эти различия можно при использовании ^-оптимальных планов. Публикаций по вопросам построения и использования 2-оптимальных планов немного. Здесь особо нужно отметить работу [6], в которой рассмотрены вопросы аналитического построения таких планов для некоторых типов регрессионных моделей.
1. ПРИБЛИЖЕННО ^-ОПТИМАЛЬНЫЕ ПЛАНЫ ДЛЯ ОДНОФАКТОРНОЙ РЕГРЕССИИ
Предположим, что заданная модель исследуемого объекта имеет вид
Л(х, 6) = Гт(х)0 = £//(х)0,, (1)
I=1
т ~
где факторы х = (Х1,..., х^) могут изменяться в области X. Предполагается, что на исследуемом объекте можно проводить так называемые активные эксперименты по заранее построенному плану. Оговорим здесь, что будем использовать в одних случаях обозначение х/ как /-ю координату вектора переменных х, а в других случаях - как /-ю точку наблюдений. Смысл обозначений будет ясен из контекста. Непрерывный нормированный план е задается совокупностью точек Х1, Х2,..., хп с весами Р1, Р2,..., Рп. Плану е соответствует информационная матрица
М (е) = (х)/т (х).
г=1
Качество плана эксперимента оценивают по значению некоторого функционала от информационной матрицы. Точность прогноза по модели может
2 л л Т л
характеризоваться дисперсией а (у(х)) оценки у(х) = / (х)0 математического ожидания отклика, которая вычисляется так:
а2(у(х)) = а(х, е) = /т (х)М-1(е)/(х).
Оценки 9 будем находить по методу наименьших квадратов. В частности, отметим, что план £* называется G-оптимальным, если
e* = Argminmax d(x, e).
e xeX
И, наконец, план e* называется Q-оптимальным, если
e* = Arg min { d (x, e)dx . (2)
e X
Q-оптимальные планы минимизируют среднюю по области X дисперсию оценки поверхности отклика. Исторически так сложилось, что оптимальные по .D-критерию планы часто применяют на практике. В работе [7] нами рассмотрены вопросы сравнения A-оптимальных планов с другими известными. Очень часто робастным критерием оказывался критерий A-оптималь-ности, поскольку получаемый по нему план был близок к оптимальным планам по другим критериям. В то же время найти публикации по теме построения Q-оптимальных планов крайне сложно. В отмеченной работе [6] Q-опти-мальные планы для полиномиальной регрессии на отрезке строились аналитически с привлечением символьных вычислений, что ограничивает применение данного подхода на практике.
Продолжая исследования работы [7], добавим в число сравниваемых критерий Q-оптимальности. В табл. 1 приведен ряд построенных приближенно Q-оптимальных планов для полиномиальной регрессии на отрезке. Построение приближенно Q-оптимальных планов проводилось с использованием в качестве функционала средней дисперсии оценки отклика, вычисленной на отрезке [—1, +1] по равномерной сетке X# с числом узлов в ней N# . Число узлов N# выбиралось равным N# = 161. В данном случае мы при конструировании функционала Q-оптимальности не используем аналитическое выражение для интеграла в (2), а заменяем его на приближенное выражение в виде средней дисперсии на сетке X# . Характеристики приближенно Q-оптимальных планов незначительно отличаются от точных аналитических, представленных, например, в работе [6]. Однако данный подход существенно проще использовать на практике при исследовании многофакторных систем и процессов. Для полноты в табл. 2 приведены характеристики оптимальных планов для полиномиальной степени q регрессии на отрезке.
Построение приближенно Q-оптимальных планов проводилось численными методами до выполнения условий оптимальности. В нашем случае
тахф(x, e*) = ^ d(x', e*), (3)
x'eX#
где ф(x, e*) = ^ d2(x, x', e*), d(x, x', e) = fT(x)M_1(e)f(x'), d(x, e) = x'eX #
= fT (x')M "1(e) f (x%
Выполнение условий (3) в численных методах построения оптимальных планов осуществляется до достижения заданной точности. В рассматриваемых примерах точность выполнения условий (3) была равна 0,001. Поиск максимума функции ф (х, в) осуществлялся на сетке с шагом 0,025.
Анализ числовых характеристик, приведенных в табл. 2, позволяет сделать вывод, что приближенно ^-оптимальные планы близки по степени ро-бастности к A-оптимальным планам. Таким образом, список робастных критериев оптимальности можно расширить, добавив в него критерий ^-опти-мальности.
Таблица 1 Table 1
Приближенно g-оптимальные планы для полиномиальной регрессии степени q
на отрезке
Approximately ^-optimal designs for polynomial degree q regression on the interval
План q n X1 x2 x3 X4 x5
P1 P2 P3 P4 P5
* eß 2 3 -1 0 +1 - -
0,2514 0,4972 0,2514 - -
* eß 3 4 -1 -0,4338 0,4338 +1 -
0,1573 0,3427 0,3427 0,1573 -
* eß 4 5 -1 -0,642 0 0,642 + 1
0,1106 0,2482 0,2824 0,2482 0,1106
Таблица 2 Table 2
Характеристики оптимальных планов для полиномиальной регрессии степени q
на отрезке
Characteristics of optimal designs for polynomial degree q regression on the interval
q План M (e>l trM _1(e) A max(M "!(£)) ß(M -1(E)) max d (x, e) xzX
* e D 0,148 9,00 6,842 2,403 3,0
2 * e A 0,125 8,00 5,236 2,145 4,0
* e E 0,096 8,333 5,000 2,239 5,0
* eß 0,1257 8,0 5,249 2,145 3,97
* e D 0,512 -10"2 44,00 33,58 3,432 4,0
3 * e A 0,363 -10"2 37,52 25,77 3,032 6,61
* e E 0,285 -10"2 38,68 25,00 3,142 7,85
* eß 0,380-10"2 37,94 27,143 3,011 6,35
Окончание табл. 2
End of the Tab. 2
q План \M (е)| trM _1(е) A max(M "1(е)) Q(M _1(е)) max d (x, е) xzX
* е D 0,429 -10"4 224,87 174,42 4,449 5,0
4 * е A 0,265 -10"4 188,72 132,75 3,949 9,47
* е E 0,211-10"4 194,52 129,00 4,084 10,75
* eQ 0,285 -10"4 193,48 144,04 3,901 9,04
В то же время следует отметить несколько неожиданный момент. Несмотря на то что критерий ^-оптимальности предполагает минимизацию средней дисперсии прогноза на области планирования, можно видеть, что максимальная дисперсия прогноза значительно выше, чем у ^-оптимальных планов. Например, если для полиномиальной регрессии 4-й степени для ^-опти-мального плана она равна пяти, то для приближенно ^-оптимального плана она уже равна 9,04. Справедливости ради необходимо отметить, что для ^-оптимальных планов она еще выше и достигает значения 10,75. Для Л-опти-мальных планов она также велика. На рис. 1 и 2 представлены графики функции й (х, е) соответственно для приближенно ^-оптимального и D-опти-мального плана для полинома 4-й степени. Можно видеть, что для приближенно ^-оптимального плана на практически 80...90 % ширины отрезка действия фактора дисперсия оценки функции отклика близка или меньше 4,0. И наоборот: для D-оптимального плана на большей части отрезка она больше 4,0.
1 i I i I i I i ■ 1 II 1 ll 1 ll 1 ll 1 11 1 11 1 1 1 1 1 1 1 1 \ 1 i i i 1 i I i 1 i ■ i li i li i li i li i 11 i 11 i ( i i f i i / i
! \ | - скх.е) | / |
i \ I i \ i i ь>. i i \ i i X ----- i / i i / i -и—i ______ I i ---^ ^— I i
i i --- i i i i i i i i i i i i i i i i --- I i I i i i i i i i i i i i i i I I
1.00 -0.75 -0.50 -0.25 0.00 0.25 0.50 0.75 1.00
х
Рис. 1. График функции d (x, е) приближенно Q-оптималь-ного плана для полинома 4-й степени на отрезке
Fig. 1. Graph of the function d(x, е) for the approximately Q-opti-mal design for a polynomial of degree 4 on the interval
Для приближенно ^-оптимального плана дисперсия оценки функции отклика начинает расти ближе к границам отрезка, оставаясь почти постоянной в других частях и в середине отрезка. Такое поведение дисперсии оценки функции отклика характерно для так называемых униформных планов. На практике это означает, что поскольку на большей части области определения факторов вокруг центра эксперимента точность предсказания по модели примерно одинакова, то мы можем уверенно решать задачу поиска оптимальных режимов протекания исследуемого процесса.
5.0 -4.5 -4.0 -3.5 -3.0 -2.5 -2.0 -1.5 -1.0 -
-1.00 -0.'75 -0 50 -0 25 ООО 0.25 0.50 0.75 1 00
X
Рис. 2. График функции d(х, e) D-оптимального плана для полинома 4 степени на отрезке
Fig. 2. Graph of the function d(х, e) for the D-optimal design for a polynomial of degree 4 on the interval
Непрерывные ^-оптимальные планы на практике не применяются, а используются так называемые дискретные планы.
2. АЛГОРИТМЫ ПОСТРОЕНИЯ ДИСКРЕТНЫХ ПРИБЛИЖЕННО Q- ОПТИМАЛЬНЫХ ПЛАНОВ
Дискретные оптимальные планы можно строить, используя известные алгоритмы из теории нелинейной оптимизации [8]. Однако это будет малоэффективно. Учитывая большую размерность решаемых задач, важно иметь набор алгоритмов специализированного типа [9].
2.1. ПОСЛЕДОВАТЕЛЬНЫЙ АЛГОРИТМ ПОСТРОЕНИЯ ПРИБЛИЖЕННО Q-ОПТИМАЛЬНЫХ ПЛАНОВ (АЛГОРИТМ SEQ-ADD-Q)
Алгоритм предполагает наращивание числа наблюдений в плане до необходимого и хорошо себя зарекомендовал при решении задачи синтеза дискретных D-оптимальных планов произвольного объема [1G, 11]. На каждом шаге в план es идет добавление новой точки xs+1 с весом а = 1/(s +1).
Добавление еще одного наблюдения в план изменяет расчет информационной матрицы, в результате чего получается новое значение, которое вычисляется по формуле
М (е 5+1) = (1 - а)М (е 5) + а/ (х5+1)/т (х5+1) = = (1 -а)
а т
М (е5) +-/(х5+1)/т (х5+1)
1 -а
Обратная к ней вычисляется как
М-1 (е5+1) = (1 - а)М (е 5) + а/ (х5+1)/т (х5+1)
= (1 -а)-1
а —1 т
1ш +-М Че5)/(х5+1)/т (х5+1)
1 -а
М _1( е 5).
Будем использовать свойство обращения матриц из работы В.В. Федорова [5]: (1р + АВ)-1 = 1р - А( 1Ч + ВА)-1 В, (4)
где А - р X д, В - д х р - матрицы.
а -1 т
Полагая в (4) А =-М (ед)/(хд+1) и В = / (х^), получим
1 -а
1п +
аМ 1(е 5) / (х5+1)/т (х5+1)
-1
1ш
а
■М "1(е 5) / (х5+1)
1 -а
И окончательно получим
1-а
1 + /т (х5+1)-М "1(е 5) / (х5+1)
1 -а
-1
/т (х*+1).
М "1(е 5+1) = (1 -а)-1
1ш
М -1(е д ) / ( хд +1)/т ( хд +1) 1 -а + а/ (хд+1, ед)
М _1(ед).
Учитывая, что /(х, х', е) = /т (х)М 1(е)/(х') = КМ 1(е)/(х')/т (х), выпишем критерий Q-оптимальности:
0(е,+1) = (1 -а)-'0(е,)- Е (1 -а)1ттаВ(е'ХГ(^^(^°(е')М(х".) =
х'#
= (1 -а)ед)- Е (1 -а)
х)&Х #
1 -а + а-/ (хд+1, ед)
-1 а/ (х . , хд +1, е д )
1 -а + а/ (хд+1, ед)
где В (е) = М _1(е).
При добавлении точки в план вес а = 1/(5 +1), и изменение критерия ^-оптимальности окончательно можно выразить как
й (Х ] , Х5+1, е 5 )
Q (е 5+i) = —
s +1
Q(es+1)" Z
xjeX# s + d(Xs+i, еs)
(5)
Чтобы достичь последовательного увеличения плана до необходимого объема, мы добавляем дополнительную точку в текущий план на каждом этапе в соответствии с решением
. ф (х, е s)
xs+1 = Arg max——-, (6)
xeX 5 + d(x, еs)
где ф(x, es) = X d2(x, x', es).
x eX #
На начальных шагах при s < m информационная матрица будет неполного ранга. Применим известный прием, связанный с регуляризацией:
M (е s) = M (е s) + У Im, где у - малый положительный параметр регуляризации. На первом шаге в качестве M(еs) будем рассматривать M(еs) = yIm . Зафиксируем у = 1. Необходимо найти выражение, обратное (l + f (xs+i)fT (xs+1)). Применим формулу Вудбери [12-14]:
(A + UCV)-1 = A"1 - A_1U (C _1 + VA~lU)-1 VA"1.
Для нашего случая, когда матрица А - единичная размерности т х т, а С - единичная размерности 1 х 1, имеем
(Im + f(xs+1)fT (xs+1) ) = 1m - f(xs+1) ( + f (xs+1)f(xs+1) ) f (xs+1) . Вычисляем ß(£1):
/ T \ ( (xj)f(x1)
ß(^) = I (fT (xj)f(xj))- X j- J
xjeX# x jeX# (1
+ /Т ( Х1) / ( Х1)
Следовательно, выбирать первую точку необходимо, решая задачу
\2
(fT (xj) f ( X)
Xi = Arg max Z -T-•
x^ xjeX# 1 + fT (x) f (x)
Необходимость регуляризации информационной матрицы на первых шагах отпадает, если работать с информационной матрицей в виде матрицы Грамма [11].
2.2. АЛГОРИТМ ДОБАВЛЕНИЯ-УДАЛЕНИЯ ТОЧЕК СИНТЕЗА ДИСКРЕТНЫХ ПРИБЛИЖЕННО ^-ОПТИМАЛЬНЫХ ПЛАНОВ (АЛГОРИТМ АББ-БЕЬ-О)
Основной принцип алгоритма заключается в выполнении повторного процесса добавления точки к плану и удаления точки из плана. Впервые он был предложен в работе [15]. Нами в работе [7] данная идея была использована для построения дискретных А-оптимальных планов с заданным числом наблюдений N. Адаптируем данный алгоритм для построения дискретных приближенно Q-оптимальных планов N.
Шаг добавления точки в план. Начальный невырожденный план еN . При добавлении ^ + 1)-й точки с весом а = 1/^ + 1) критерий Q-опти-мальности в соответствии с (5) изменится:
Q(eN+l) - N+1
Q(e,)- X d2(X'J' £N)
xjeX# N + d(Xn+1, £n)
Максимальное уменьшение Q-критерия при Xn+t будет соответствовать
ф (x, £ N)
xn+i - Arg max-^-,
xsX N + d(x, eN)
где ф (x, en ) взято из формулы (6). После добавления точки получаем план en+t .
Шаг исключения точки из плана. Если из плана en+1 исключить некоторую точку xj , то Q-критерий изменится следующим образом:
d 2( x j, x -, e N+1)
Q(£ n ) - ntq(£n+i) + x
xjsX# N +1 - d(xj, eN+1)
где £ n - план из N точек, полученный из е n+1 •
Минимальное увеличение Q-критерия будет достигаться, если х- будет соответствовать
xу = Arg min-feiN+i)-.
хеХ n +1 - d (x, е n+i)
По результату шагов по добавлению и исключению точки из плана получим, что Q(en ) ^ Q(£n) • Равенство будет, например, тогда, когда исключается та точка, которая была включена на предыдущем шаге.
Этот алгоритм можно эффективно задействовать в ранее рассмотренном алгоритме Seq-Add-Q. Идея состоит в том, чтобы использовать алгоритм Add-Del-Q на первом этапе для построения насыщенного дискретного плана с числом наблюдений N = m. Видим, что в этом случае нам не приходится прибегать к процедуре регуляризации информационной матрицы.
3. ИССЛЕДОВАНИЯ
В вычислительном эксперименте в качестве области планирования будем рассматривать квадрат [—1, +1] X [—1, +1]. Полином третьей степени от двух факторов будет регрессионной моделью. Построение приближенно 2~опти-мальных планов проводилось с использованием в качестве функционала средней дисперсии оценки отклика, вычисленной на квадрате [—1, +1] X [—1, +1]
по равномерной сетке X # с числом узлов в ней = 16 х16 = 256. Сравнивать работу алгоритмов будем со случайно сгенерированным планом. На рис. 3 приведены графики изменения функционала Q при увеличении числа наблюдений. Видим, что случайно выбранный план проигрывает планам, построенным по предложенным алгоритмам, примерно в два раза, т. е. требуется в два раза больше числа наблюдений для достижения необходимой величины средней дисперсии оценки функции отклика. Например, если использовать приближенно Q-оптимальный план из 20 наблюдений, то для достижения такой же эффективности потребуется случайный план из 40 наблюдений.
Add-Del-Q И Случайный
Seq-Add-Q
Число точек в плане
Рис. 3. Значения функционала Q-оптимальности для кубической модели от двух факторов в зависимости от числа наблюдений
Fig. 3. The values of the Q-optimality functional for the cubic model from two factors depending on the number of observations
При рассмотрении полиномиальной регрессии на отрезке мы отмечали тот момент, что применение критериев Q- и A-оптимальности давало близкие результаты с точки зрения достижения различных показателей эффективности планов. На рис. 4 представлены графики изменения величины следа ненорми-
рованной дисперсионной матрицы от числа точек в планах, построенных алгоритмами Add-Del-Q и Add-Del-A.
Add-Del-Q
Add-Del-A
14 16 18 20 22 24 26 28 30 32 34 36 38 40 42 44 46 48 50 Число точек в плане Рис. 4. След дисперсионной матрицы в зависимости от числа наблюдений Fig. 4. Trace of the dispersion matrix depending on the number of observations
Видим, что использование критерия Q-оптимальности позволяет получать планы, близкие к A -оптимальным. Ранее мы отмечали, что для приближенно Q-оптимальных планов функция d(x, s) внутри области планирования меняется более плавно, нежели для D-оптимальных, что важно, когда построенная модель используется для поиска оптимальных режимов моделируемого процесса. При этом для конкретной прикладной задачи область X# может подбираться индивидуально. Отмеченные моменты говорят в пользу того, что при активной идентификации многофакторных регрессионных моделей критерию Q-оптимальности следует отводить, возможно, больше внимания, чем это было ранее.
ЗАКЛЮЧЕНИЕ
В работе предложены построенные численно приближенно ^-опти-мальные планов для регрессии на отрезке. Отмечается, что использование ^-критерия позволяет получать планы, близкие по характеристикам к Л-опти-мальным. Для построения дискретных ^-оптимальных планов предлагаются два алгоритма. Эффективность предлагаемых алгоритмов продемонстрирована на примере построения приближенно ^-оптимальных планов для двух-факторного полинома третьей степени. Для достижения необходимой величины средней дисперсии оценки функции отклика оптимальные планы требуют существенно меньшего числа экспериментов по сравнению со случайными планоми.
СПИСОК ЛИТЕРАТУРЫ
1. Налимов В.В., Голикова Т.И. Логические основания планирования эксперимента. -М.: Металлургия, 1981. - 151 с.
2. Голикова Т.И., Панченко Л.А., Фридман М.З. Каталог планов второго порядка. Ч. 2. -М.: Изд-во МГУ, 1974. - 384 с.
3. Голикова Т.И., Панченко Л.А. Систематизация планов для оценки полиномиальных моделей второго порядка // Планирование оптимальных экспериментов. - М.: Изд-во МГУ, 1975. - С. 106-149.
4. Дубова И. С. Федоров В.В. Таблицы оптимальных планов II (Насыщенные D-оптималь-ные планы на кубе). - М.: Изд-во МГУ, 1972. - 39 с. - (Межфакультетская лаборатория статистических методов; вып. 40).
5. Федоров В.В. Теория оптимального планирования эксперимента. - М.: Наука, 1971. -
312 с.
6. Григорьев Ю.Д. ß-оптимальные и близкие к ним планы эксперимента для полиномиальной регрессии на отрезке // Заводская лаборатория. Диагностика материалов. - 2020. - Т. 86, № 5. - С. 65-72. - DOI: 10.26896/1028-6861-2020-86-5-65-72.
7. Попов А.А. Алгоритмы построения дискретных Л-оптимальных планов эксперимента при активной идентификации регрессионных моделей многофакторных систем // Системы анализа и обработки данных. - 2022. - № 2 (86). - С. 39-54. - DOI: 10.17212/2782-2001-2022-2-39-54.
8. Денисов В.И., Попов А.А. А-, Е-оптимальные и ортогональные планы регрессионных экспериментов для полиномиальных моделей / Научный совет по комплексной проблеме «Кибернетика». - Препринт. - М., 1976. - 44 с.
9. Попов А.А. Оптимальное планирование эксперимента в задачах структурной и параметрической идентификации моделей многофакторных систем: монография. - Новосибирск: Изд-во НГТУ, 2013. - 296 с.
10. Попов А.А. Последовательные схемы построения оптимальных планов эксперимента // Сборник научных трудов НГТУ. - 1995. - Вып. 1. - С. 39-44.
11. Попов А. А. Последовательные схемы синтеза оптимальных планов эксперимента // Доклады Академии наук высшей школы Российской Федерации. - 2008. - № 1 (10). - С. 45-55.
12. Беллман Р. Введение в теорию матриц. - М.: Наука, 1969. - 367 с.
13. Рао С.Р. Линейные статистические методы и их применения. - М.: Наука, 1968. - 548 с.
14. Searle S.R. Matrix algebra useful for statistics. - 2nd ed. - Wiley, 2017. - 479 p.
15. Mitchell T.J. An algorithm for the construction of D-optimal experimental designs // Technometrics. - 1974. - Vol. 16 (2). - P. 203-210.
Попов Александр Александрович, доктор технических наук, профессор кафедры теоретической и прикладной информатики Новосибирского государственного технического университета. Основное направление научных исследований - статистические методы анализа данных, оптимальное планирование экспериментов, методы машинного обучения. Имеет более 250 публикаций, в том числе 3 монографии. E-mail: [email protected]
Popov Alexander Alexandrovich, D.Sc. (Eng.), Professor, Department of Theoretical and Applied Computer Science, Novosibirsk State Technical University. The main area of his research is statistical methods of data analysis, optimal design of experiments, methods of machine learning. He has more than 250 publications, including 3 monographs. E-mail: a.popov@ corp.nstu.ru
DOI: 10.17212/2782-2001-2024-2-55-68
Algorithms for constructing discrete approximate Q-optimal experimental designs with active identification of regression models of multifactor systems*
A.A. POPOV
Novosibirsk State Technical University, 20, K. Marx Prospekt, Novosibirsk, 630073, Russian Federation
a.popov@corp. nstu.ru Abstract
In the theory of optimal experiment, there is a group of optimality criteria, for example, such as D-, A-, ¿-criteria, reflecting the accuracy of estimating model parameters. There is also a group of criteria related to the accuracy of the forecast based on the model, which can be characterized by the variance of estimates of mathematical expectations of responses. For example, using the G-optimality criterion allows you to obtain designs on which the constructed models will minimize the maximum variance of the forecast. Among these is the g-optimality criterion, which assumes minimizing the average variance of the forecast for the regression model over the planning area.
Most of the theoretical and applied research is related to the use of the D-optimality criterion. This is also explained by the fact that the criteria of D- and G-optimality are interconnected. At the same time, it should be noted that minimizing the maximum variance in the general case may not lead to a decrease in the average variance of the forecast area. In this regard, the use of g-optimal designs in practical regression modeling tasks is relevant. For the widespread introduction into practice of the active identification of regression models of the concept of g-opti-mality of experimental designs, an arsenal of effective algorithms for their construction is needed.
The paper proposes and describes algorithms for constructing discrete approximate g-op-timal designs. The proposed algorithms are based on the developed approach of consistently increasing the number of points in the designs, as well as procedures for replacing points in the design. The designs obtained by such algorithms are recommended for use in practice when, on average, good prediction accuracy is required for the model over the entire range of input factors.
Keywords: regression model, experimental design, optimality criteria, model forecast variance, g-optimal designs, discrete designs, addition algorithm, addition-removal algorithm
REFERENCES
1. Nalimov V.V., Golikova T.I. Logicheskie osnovaniya planirovaniya eksperimenta [Logical foundations for design an experiment]. Moscow, Metallurgiya Publ., 1981. 151 p.
2. Golikova T.I., Panchenko L.A., Fridman M.Z. Katalogplanov vtorogoporyadka. Ch. 2 [Catalog of plans of the second order. Pt. 2]. Moscow, MSU Publ., 1974. 384 p.
3. Golikova T.I., Panchenko L.A. Sistematizatsiya planov dlya otsenki polinomial'nykh modelei vtorogo poryadka [Systematization of designs for evaluating second order polynomial models]. Plani-rovanie optimal'nykh eksperimentov [Design of optimal experiments]. Moscow, MSU Publ., 1975, pp. 106-149.
4. Dubova I.S. Fedorov V.V. Tablitsy optimal'nykh planov II (Nasyshchennye D-optimal'nye plany na kube) [Tables of optimal designs II. (Saturated D-optimal designs on a cube)]. Moscow, MSU Publ., 1972. 39 p.
5. Fedorov V.V. Teoriya optimal'nogo planirovaniya eksperimenta [Theory of optimal experiment design]. Moscow, Nauka Publ., 1971. 312 p.
*
Received 30 January 2024.
6. Grigoriev Yu.D. Q-optimal'nye i blizkie k nim plany eksperimenta dlya polinomial'noi re-gressii na otrezke [Q-optimal experimental designs and close to them experimental designs for polynomial regression on the interval]. Zavodskaya laboratoriya. Diagnostika materialov = Industrial laboratory. Diagnostics of materials, 2020, vol. 86 (5), pp. 65-72. DOI: 10.26896/1028-6861-2020-86-565-72.
7. Popov A.A. Algoritmy postroeniya diskretnykh A-optimal'nykh planov eksperimentov pri ak-tivnoi identifikatsii regressionnykh modelei mnogofaktornykh sistem [Algorithms for constructing discrete A-optimal experiment designs in active identification of regression models of multifactor systems] . Sistemy analiza i obrabotki dannykh = Analysis and Data Processing Systems, 2022, no. 2 (86), pp. 39-54. DOI: 10.17212/2782-2001-2022-2-39-54.
8. Denisov V.I., Popov A.A. A-, E-optimal'nye i ortogonal'nye plany regressionnykh eksperimentov dlya polinomial'nykh modelei [A-, E-optimal and orthogonal regression experiment designs for polynomial models]. Scientific Council for the Complex Problem "Cybernetics". Moscow, 1976. 44 p.
9. Popov A.A. Optimal'noe planirovanie eksperimenta v zadachakh strukturnoi i parametrich-eskoi identifikatsii modelei mnogofaktornykh sistem [The optimal experiment planning in problems of structural and parametric identification of multifactor systems models]. Novosibirsk, NSTU Publ., 2013. 296 p.
10. Popov A.A. Posledovatel'nye skhemy postroeniya optimal'nykh planov eksperimenta [The sequential schemes constructing of the optimal experiment designs]. Sbornik nauchnykh trudov Novo-sibirskogo gosudarstvennogo tekhnicheskogo universiteta = Transaction of scientific papers of the Novosibirsk state technical university, 1995, iss. 1, pp. 39-44.
11. Popov A.A. Posledovatel'nye skhemy sinteza optimal'nykh planov eksperimenta [Sequential schemes of synthesis of optimum plans of experiment]. Doklady Akademii nauk vysshei shkoly Rossi-iskoi Federatsii = Proceedings of the Russian higher school Academy of sciences, 2008, no. 1 (10), pp. 45-55.
12. Bellman R. Vvedenie v teoriyu matrits [Introduction to matrix analysis]. Moscow, Nauka Publ., 1969. 367 p. (In Russian).
13. Rao C.R. Lineinye statisticheskie metody i ikh primeneniya [Linear statistical inference and its applications]. Moscow, Nauka Publ., 1968. 548 p. (In Russian).
14. Searle S.R. Matrix algebra useful for statistics. 2nd ed. Wiley, 2017. 479 p.
15. Mitchell T.J. An algorithm for the construction of D-optimal experimental designs. Techno-metrics, 1974, vol. 16 (2), pp. 203-210.
Для цитирования:
Попов А.А. Алгоритмы построения дискретных приближенно Q-оптимальных планов эксперимента при активной идентификации регрессионных моделей многофакторных систем // Системы анализа и обработки данных. - 2024. - № 2 (94). - С. 55-68. - DOI: 10.17212/2782-20012024-2-55-68.
For citation:
Popov A.A. Algoritmy postroeniya diskretnykh priblizhenno Q-optimal'nykh planov eksperimenta pri aktivnoi identifikatsii regressionnykh modelei mnogofaktornykh sistem [Algorithms for constructing discrete approximate Q-optimal experimental designs with active identification of regression models of multifactor systems]. Sistemy analiza i obrabotki dannykh = Analysis and Data Processing Systems, 2024, no. 2 (94), pp. 55-68. DOI: 10.17212/2782-2001-2024-2-55-68.
ISSN2782-2001, http://journals.nstu.ru/vestnik Analysis and data processing systems Vol. 94, No 2, 2024, pp. 55-68