Научная статья на тему 'О ВЫБОРЕ БАЗИСНЫХ ФУНКЦИЙ РЕГРЕССИИ И МАШИННОМ ОБУЧЕНИИ'

О ВЫБОРЕ БАЗИСНЫХ ФУНКЦИЙ РЕГРЕССИИ И МАШИННОМ ОБУЧЕНИИ Текст научной статьи по специальности «Математика»

CC BY
182
42
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РЕГРЕССИОННЫЙ АНАЛИЗ / АППРОКСИМАЦИЯ / БАЗИСНЫЕ ФУНКЦИИ / ОПЕРАТОРНЫЙ МЕТОД / МАШИННОЕ ОБУЧЕНИЕ

Аннотация научной статьи по математике, автор научной работы — Ермаков Сергей Михайлович, Леора Светлана Николаевна

Как известно, в задачах машинного обучения широко используются средства регрессионного анализа, которые позволяют устанавливать связь между наблюдаемыми переменными и компактно хранить информацию. Наиболее распространенным является случай, когда функция регрессии описывается линейной комбинацией некоторых заданных функций fj (X), j = 1, . . . , m, X ∈ D ⊂ Rs. Если наблюдаемые данные содержат случайную ошибку, то восстановленная по наблюдениям функция регрессии содержит случайную ошибку и систематическую ошибку, зависящую от выбора функций fj . В данной работе указана возможность оптимального, в смысле заданной функциональной метрики, выбора fj , если известно, что истинная зависимость подчиняется некоторому функциональному уравнению. В ряде случаев (правильная сетка, s ≤ 2) близкие результаты могут быть получены с помощью техники анализа случайных процессов. Численные примеры, приведенные в данной работе, иллюстрируют существенно более широкие возможности предполагаемого подхода к задачам регрессии.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ON THE CHOICE OF BASIC REGRESSION FUNCTIONS AND MACHINE LEARNING

As is known, the regression analysis task is widely used in machine learning problems, which allows to establish relationship between observed data and compactly store of information. Most often, a regression function is described by a linear combination of some of the selected functions fj (X), j = 1, . . . ,m, X 2 D ⊂ Rs. If the observed data contains a random error, then the regression function restored from the observed data contains a random error and a systematic error depending on the selected functions fj . The article indicates the possibility of optimal selection of functions fj in the sense of a given functional metric, if it is known that the true dependence is consistent with some functional equation. In some cases (regular grids, s ≤ 2), similar results can be obtained using the random process analysis method. The numerical examples given in this article illustrate much more opportunities for the task of constructing the regression function.

Текст научной работы на тему «О ВЫБОРЕ БАЗИСНЫХ ФУНКЦИЙ РЕГРЕССИИ И МАШИННОМ ОБУЧЕНИИ»

УДК 519.245 Вестник СПбГУ. Математика. Механика. Астрономия. 2022. Т. 9 (67). Вып. 1 МБС 65С05

0 выборе базисных функций регрессии и машинном обучении

С. М. Ермаков1, С. Н. Леора2

1 Санкт-Петербургский государственный университет,

Российская Федерация, 199034, Санкт-Петербург, Университетская наб., 7—9

2 Санкт-Петербургский государственный экономический университет, Российская Федерация, 191023, Санкт-Петербург, наб. канала Грибоедова, 30—32

Для цитирования: Ермаков С.М., Леора С. Н. О выборе базисных функций регрессии и машинном обучении // Вестник Санкт-Петербургского университета. Математика. Механика. Астрономия. 2022. Т. 9 (67). Вып. 1. С. 11-22. https://doi.org/10.21638/spbu01.2022.102

Как известно, в задачах машинного обучения широко используются средства регрессионного анализа, которые позволяют устанавливать связь между наблюдаемыми переменными и компактно хранить информацию. Наиболее распространенным является случай, когда функция регрессии описывается линейной комбинацией некоторых заданных функций / (X), ] = 1,... ,т, X £ Б С Если наблюдаемые данные содержат случайную ошибку, то восстановленная по наблюдениям функция регрессии содержит случайную ошибку и систематическую ошибку, зависящую от выбора функций /. В данной работе указана возможность оптимального, в смысле заданной функциональной метрики, выбора /, если известно, что истинная зависимость подчиняется некоторому функциональному уравнению. В ряде случаев (правильная сетка, в < 2) близкие результаты могут быть получены с помощью техники анализа случайных процессов. Численные примеры, приведенные в данной работе, иллюстрируют существенно более широкие возможности предполагаемого подхода к задачам регрессии.

Ключевые слова: регрессионный анализ, аппроксимация, базисные функции, операторный метод, машинное обучение.

1. Введение. Пусть функция /(X), X £ В С Дя, в каждой точке области В может быть вычислена или измерена с помощью некоторого прибора. Во многих случаях представляет интерес следующая задача. В предположении того, что / (X) принадлежит некоторому линейному нормированному пространству Г, требуется приблизить ее с помощью обобщенного многочлена Рт(Х) = ^"=1 с3 /] (X), где е3- — константы, а fj — заданные функции из Г. Если / (X) измеряется с ошибкой в заданных точках XI,..., Xn, п > т, то при заданных / (X) имеем задачу линейной по параметрам регрессии:

т

У^г) = ^^ ] / (X,), УШ= / (Xi)+ £,, г =1 ,...,п,

3 = 1

где — случайная ошибка, с3- — константы.

(¡5 Санкт-Петербургский государственный университет, 2022

Наиболее изученным является случай, когда функция

/ (X ) = Е ъ ¡з (X) (1)

3=1

известна с точностью до параметров е3-, и Ее^ = 0,

Е = / , г = к,

Ее ^ ек = \ 0, г = к,

«г? — константы, известные или определяемые в процессе эксперимента.

Задача нахождения (оценки) констант е3- представляет собой параметрическую задачу математической статистики. Наиболее распространенным методом ее решения является метод наименьших квадратов, с помощью которого параметры е3- определяются из условия

Е I y(Xi) - Е C fj(Xi) I ■ (1/^2) = min,

¿=i V j=i j

Cj — это случайные величины такие, что ECj = Cj и дисперсия их минимальна [1].

Выбор функций fj(X), называемых базисными функциями регрессии, осуществляется с учетом сведений о функции f.

В действительности условие (1) обычно выполняется приближенно. Существует систематическая погрешность, которую нужно сделать минимальной. Если f (X) — достаточно гладкая функция, то часто считают, что для малых областей D приближение с помощью алгебраического многочлена может быть приемлемым, Cj являются его коэффициентами.

Ниже мы рассмотрим новый (операторный) метод выбора базисных функций fj и проиллюстрируем некоторые его преимущества и особенности.

2. Операторный метод. Суть операторного метода проще всего объяснить следующим образом. Если подлежащая аппроксимации функция удовлетворяет условию Af = 0, то в качестве базисных функций fj можно выбрать собственные функции оператора A или близкого к нему в операторной норме оператора A. Если оператор A самосопряженный, то известны экстремальные свойства таких приближений. В случае несамосопряженного оператора следует использовать разложение Фишера, на котором мы далее остановимся подробнее.

Пусть f принадлежит подпространству F гильбертова пространства и A — несамосопряженный оператор такой, что Af G F. Размерностью r(A) оператора A называют размерность подпространства Af. Обозначим через H оператор AAT, через w (j = 1,..., r(A)) — ортонормированную систему собственных функций оператора H. Имеет место представление [2, с. 47]

r(A)

A = Е sj (A)(-^ )U w, j=i

где Sj — соответствующие собственные числа оператора Н5, а |J Н — полярное представление A, У w = ^j.

2

Далее, если

Ат = У2 в] (А)( )фз , т < г (А),

/ , лз

3=1

то среди всех т-мерных операторов А оператор Ат доставляет наименьшее значение У А — Ат|| равномерной норме разности А — Ат.

Если К = I — А оператор такой, что верно равенство К/ = 0, и мы заменим в этом равенстве А его аппроксимацией Ат, то получим приближение / в виде

/ = Л, вк(/, ^к)Фк.

(2)

к=1

Аналогично поступаем, если оператор К является приближением к I — А.

Описанный алгоритм может быть частью процедуры машинного обучения [3]. Идея обучения состоит в следующем. Пусть К(©) — параметрическое семейство операторов. Используя аналитические выражения для функции / или ее численные значения, найдем оператор К0 = К(в0), в0 = а^тт0е0||К(в)/1|, если функция / задана без ошибки, или в0 = а^тт0е0Е||К(в)/1|, если имеется случайная погрешность. Полагая А = I — К о, найдем соответствующие ^к и фк и построим для некоторого подходящего т приближение / . Для обучения можно рассмотреть несколько параметрических семейств операторов и несколько значений т.

Таким образом, описанная методика может применяться для выбора оптимального полинома Т3)=1 сз/з (X) в задачах аппроксимации и регрессии.

Рассмотрим простейший пример. Пусть Г есть подпространство дважды дифференцируемых функций на промежутке (а, Ь) и при т = 2 оператор А равен

А

а2

а

с1х2 ^ ^ Ах ^

(3)

Считаем функцию / заданной аналитически, а оценку параметров р и ц произведем с помощью метода наименьших квадратов. Тогда р и ц найдем из условия

о

/(/'' + р/' + ц/)2 = т1п .

Нужно решить систему

о о о

р ! /'(х)/'(х)дх + ^ /(х)/'(х)дх = — ! /'(х)/''(х)Ах,

а а а

о о о

р ! /(х)/' (х)Ах + ^У /2(х)ёх = — ^ /(х)/"(х)д.х.

Составим характеристическое уравнение

к2 + рк + ц = 0.

Если его корни к\ и различны (мы не рассматриваем вырожденный случай), то Д(ж) = ехр(к!ж) и /2(ж) = ехр(к2ж).

Оператор (3), однако, не является самосопряженным (первая производная меняет знак). И в этом случае мы имеем

тт ¿(4) , ^ ¿(2) 2

Впрочем, из выполненных численных примеров следует, что использование только собственных функций оператора А даже в несамосопряженном случае обеспечивает значительное преимущество по сравнению с полиномиальной регрессией.

Не представляет труда провести обобщение приведенных примеров на случай дифференциальных операторов с постоянными коэффициентами и других более высоких порядков.

Наличие случайной ошибки у / не позволяет, вообще говоря, использовать дифференциальный оператор. В этом случае самым простым является применение разностного оператора. Такая методика рассматривалась в многочисленных работах по анализу временных рядов [4], где измерения / (£) проводились в равноотстоящих по времени точках с шагом Результаты этих работ, с одной стороны, выходят за рамки регрессионной постановки, но, с другой, не позволяют рассматривать случай для неравноотстоящих точек и случай зависимости от многих переменных, хотя некоторые результаты для правильных сеток имеются, например в [5].

Сформулированный же нами подход является весьма общим применительно к регрессионным задачам и задачам аппроксимации, но не к задачам анализа случайных процессов и полей. Его пользу мы постараемся также проиллюстрировать рядом численных примеров.

3. Численный эксперимент. Далее приводятся численные результаты эксперимента для функции одной переменной, а в следующих разделах — для функции с двумя переменными. Эксперимент проводился в простейшем случае разностного оператора. Этого достаточно, чтобы судить о пользе предлагаемого подхода.

Как уже отмечалось, ряд результатов, полученных в работах [4, 5], позволяет выбирать базисные функции регрессии на правильной решетке и с обучающим разностным оператором. Приводимые ниже численные примеры свидетельствуют о возможностях некоторых обобщений на базе изложенной в предыдущих разделах теории.

3.1. Численный эксперимент с одной переменной. Отметим прежде всего возможность применения теоретических результатов в одномерном случае. Обсуждаются задача восстановления пропущенных наблюдений на равномерной сетке и аппроксимация в случае сетки с неравноотстоящими узлами с использованием операторного метода.

В качестве базисных функций /3 рассматриваются собственные функции линейных разностных операторов порядка ] = 1,..., т, с помощью которых аппроксимируются функции

51(ж) = ж5 - 4.8 ж4 + 8.24 ж3 - 6.082 ж2 + 1.7655 ж - 0.1235,

#2 (ж) = 5 эт ж2.

3.1.1. Равномерная сетка. Рассмотрим задачу восстановления пропущенных значений функции, заданной на равномерной сетке. Результаты расчетов для функции 01 (полином 5-го порядка, х € [0, 2]) приведены в табл. 1. Шаг сетки Н = 0.01, т — количество базисных функций, Жт — количество пропущенных точек в процентах от общего количества точек. Для оценки регрессионной модели рассчитываются средняя квадратическая ошибка (МБЕ) и средняя абсолютная ошибка (МАЕ).

Таблица 1. Аппроксимация функции дх с пропущенными значениями

т мт МЭЕ МАЕ т мт МЭЕ МАЕ

4 90% 0.0008 0.011 5 85% 0.0008 0.010

4 57% 0.0004 0.011 5 45% 0.0001 0.008

4 0.5% 0.0002 0.009 5 0.5% 0.0001 0.009

Как показывают расчеты для функции $1, даже при 85% пропущенных значений аппроксимация операторным методом дает сравнительно невысокое значение МБЕ. Так как пропущенные значения формируются случайным образом, аппроксимирующие функции могут иметь различные аналитические выражения, но это существенно не влияет на оценки модели. Для генерации последовательности случайных чисел из заданного диапазона используется встроенная функция пакета И.

Вторая рассматриваемая функция 02 является быстро осциллирующей; для повышения точности аппроксимации рассмотрим ее на интервале [0,4]. Приведем результаты расчетов для функции 02 в табл. 2 при различных значениях т и Жт. Погрешность аппроксимации уменьшается при увеличении числа базисных функций.

Таблица 2. Аппроксимация функции д2 с пропущенными значениями

т мт МЭЕ МАЕ т мт МЭЕ МАЕ

4 90% 17.64 3.21 6 80% 11.806 2.65

4 55% 4.59 1.63 6 45% 2.56 1.17

4 0.5% 4.34 1.7 6 0.5% 2.51 1.26

3.1.2. Неравномерная сетка. Аппроксимирующие функции находятся операторным методом. Узлы на заданном отрезке выбираются некоторым упорядоченным образом, например так: [0.1, 0.15, 0.25, 0.3, 0.4, 0.45, 0.55,0.6, 0.7,..., 1.75, 1.85,1.9]. Приведем ниже базисные функции для 01,02 соответственно:

/ 1.13х сов0.42х \ -1.13х вш0.42х 0.91х соэ0.68х 0.91х вт0.68х 1.29х соэ0.42х V 1.29х вт0.42х

/ 1.04х соэ0.33х \ -1.04х вт0.33х 1.11х соэ0.59х 1.11х вт0.59х 1.01х сов0.32х \ 1.01хвт0.32х /

На рис. 1 изображены тестовые 01,02 (сплошная линия) и аппроксимирующие функции 01,02 (пунктир), количество базисных функций т равно 6. Точками обозначены значения исходных функций в узлах.

Рис. 1. Аппроксимация функций g 1 (а) и g2 (б) на неравномерной сетке.

Оценки аппроксимации для функций д1,д2 таковы: МБЕх = 1.2 • 10 6, МБЕ2 = 1.2. Графики функций д\,д\ на рис. 1 практически совпадают.

3.1.3. Случайные узлы. В данном случае узлы на заданном отрезке выбираются случайным образом. На рис. 2 приведены результаты аппроксимации двух функций, рассмотренных выше. Количество базисных функций т = 6. Число точек для первого набора N = 18, для второго набора — N = 25. Оценки аппроксимации: МБЕ1 = 1.3 • 10-5, МЛЕ1 = 1.0 • 10-3 и МБЕ2 = 1.3, МАЕ2 = 0.99 для функций дь д2 соответственно.

Рис. 2. Аппроксимация функций gi (а) и g2 (б) на случайных узлах.

Посмотрим, как выбор параметров влияет на качество аппроксимации. Полиномиальная функция хорошо аппроксимируется, поэтому проведем эксперимент для g2. На рис. 3 приведены результаты расчетов при m = 8 для различных наборов случайных узлов. Оценки аппроксимации следующие: MSE = 0.15, MAE = 0.32 (рис. 3, а); MSE = 0.10, MAE = 0.24 (рис. 3, б). Для функции д2 лучшей оказалась модель аппроксимации, построенная на случайных узлах.

Таким образом, используя операторный метод, можно управлять двумя параметрами в целях улучшения качества аппроксимации: количеством базисных функций и количеством узлов.

3.2. Аппроксимация функций двух переменных. Качество аппроксимации зависит от вида исходной функции. Рассмотрим несколько тестовых функций двух переменных — алгебраический полином, тригонометрическую функцию и су-

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

а б

Рис. 3. Аппроксимация функции g2 на случайных узлах.

перпозицию тригонометрических функций и многочленов:

zi(x,y) = —x2 + 2y2 - 4xy + 6x + 1, x G [0, 3], y G [0, 3],

z2(x, y) = sin(x + 2y), x G [0, n], y G [0, n], z3(x, y) = —x sin y cos x, x G [0, 6], y G [0, 6], z4(x,y) = 2 sin(x2 + y2), x G [0, 3], y G [0, 3].

3.2.1. Аппроксимация на правильной сетке. Для задач аппроксимации на правильной сетке реализованы два метода: операторный (ОМ), где в качестве аппроксимирующих операторов выбраны линейные разностные операторы, и метод, использующий алгебраические полиномы в качестве базовых функций (ПМ).

Результаты расчетов для функции zi приведены в табл. 3, где h — шаг сетки, m — количество базисных функций. Уменьшение шага не оказывает существенного влияния на оценку точности операторного метода. Базисные функции для ОМ при h = 0.01 и h = 0.006 практически совпадают:

{0.36y cos 0.71x, 2.75y cos 0.71x, 0.36y sin 0.71x, 2.75y sin 0.71x}, h = 0.01,

{0.36y cos 0.70x, 2.72y cos 0.70x, 0.36y sin 0.70x, 2.72y sin 0.7x}, h = 0.006.

Таблица 3. Аппроксимация функции zi

Метод h т MSE МАЕ h т MSE МАЕ

ОМ 0.01 4 0.71 0.58 0.006 4 0.7 0.57

ПМ 0.01 6 0 0 0.006 6 0 0

Таким образом, для достижения сравнимой точности методу ОМ потребуется значительно большее количество базисных функций.

Для тригонометрической функции Z2 базисные функции, найденные методом ОМ при m = 4, имеют вид {sin x sin 2y, sin 2y cos x, cos x cos 2y, sin x cos 2y}. Оценки аппроксимации для ОМ: MSE = 0, MAE = 4.8 • 10-9.

Базисные функции для ПМ — полиномы до шестой степени включительно, количество базисных функций m = 20. Оценки аппроксимации для ПМ: MSE = 8.9 • 10-5, MAE = 6.9 • 10-3.

о • • о

о • • о

0 5 10 15 20

Рис. 4. Расчетные точки: • — случайные точки, о — пограничные точки.

Таким образом, тригонометрические функции типа Х2 хорошо аппроксимируются операторным методом.

Рассмотрим функции общего вида хз и 24. Результаты расчетов приведены в табл. 4. Уменьшение шага сетки не оказывает существенного влияния на оценку точности операторного метода для функции хз. Оценки ошибок для методов ОМ и ПМ практически совпадают. Однако при сравнимых оценках для ПМ потребуется 15 базовых функций, а для МО — только 4.

Таблица 4- Аппроксимация функций 23,24

Метод h т MSE МАЕ h т MSE МАЕ

Аппроксимация функции z3

ОМ 0.01 4 0.87 0.68 0.006 4 0.87 0.68

ПМ 0.01 15 0.89 0.74 0.006 15 0.89 0.73

Аппроксимация функции Z4

ОМ 0.01 4 1.94 1.25 0.05 4 1.94 1.25

ПМ 0.01 6 1.79 1.18 0.05 6 1.79 1.18

3.2.2. Аппроксимация с пропущенными значениями. На основе исходного набора данных формируется случайная выборка значений функции. Так как при численной реализации используется четырехточечный шаблон [6], к случайным точкам добавляются граничные точки. Все остальные точки считаются пропущенными. Пример формирования точек показан на рис. 4.

Пропущенные значения восстанавливаются по аппроксимирующей функции, которая является линейной комбинацией базисных функций.

Результаты расчетов для функций zi и для функций z2, Z3, Z4 приведены в табл. 5 и 6 соответственно. Шаг сетки h = 0.01, количество базисных функций m = 4, Nm — количество пропущенных точек в процентах от N. Метрики MSE и MAE рассчитываются по восстановленной функции. Для сравнения приводятся расчеты при Nm = 0%, то есть при отсутствии пропущенных значений.

Приведем для примера аналитический вид аппроксимирующей функции для zi:

sin 0.7x (8.84 • 0.37y - 0.12 • 2.69y) + cos 0.7x (2.69y - 0.03 • 0.37y).

Таблица 5. Аппроксимация функции х\ с пропущенными значениями

Метод Н N мт МЭЕ МАЕ

ОМ 0.01 90 601 0% 0.71 0.58

ОМ 0.01 90 601 44% 0.70 0.57

ОМ 0.01 90 601 76% 0.67 0.56

ОМ 0.01 90 601 95% 0.68 0.55

ОМ 0.01 90 601 99% 0.75 0.61

Таблица 6. Аппроксимация функций Х2, хз, Х4 с пропущенными значениями

Метод И N мт МЭЕ МАЕ

Аппроксимация функции Х2

ОМ 0.01 90 601 0% 0 4.8 • 10-у

ОМ 0.01 90 601 50% 0 5.5 • 10~и

Аппроксимация функции гз

ОМ 0.01 361201 0% 0.87 0.68

ОМ 0.01 361201 15% 0.87 0.68

ОМ 0.01 361201 30% 0.87 0.67

Аппроксимация функции 2:4

ОМ 0.01 90 601 0% 1.94 1.25

ОМ 0.01 90 601 25% 1.94 1.25

ОМ 0.01 90 601 50% 1.94 1.25

ОМ 0.01 90 601 75% 1.95 1.25

ОМ 0.01 90 601 99% 2.03 1.25

Таким образом, при аппроксимации методом ОМ значение ошибки определяется на полном наборе данных без пропущенных значений. При увеличении количества пропущенных значений до некоторого предела базисные функции отличаются незначительно.

3.2.3. Аппроксимация со случайной погрешностью. Рассмотрим влияние случайной ошибки на качество аппроксимации. Добавим к исходным данным аддитивный белый шум с дисперсией а2. Расчеты проводились при различных значениях шага сетки Н и дисперсии а2. В табл. 7 приведены расчеты при различных уровнях зашумленности, а = 0 соответствует данным без случайной погрешности. Очевидно, что при увеличении а2 ошибка аппроксимации возрастает.

Таблица 7. Аппроксимация функции х\ со случайной ошибкой

Метод Н а МЭЕ МАЕ Н а МЭЕ МАЕ

ОМ 0.01 0.001 34.07 4.89 0.03 0.001 5.13 1.54

ОМ 0.01 0.0001 3.76 1.34 0.03 0.0001 0.75 0.59

ОМ 0.01 0 0.71 0.58 0.03 0 0.74 0.59

Представляет интерес сравнение числа параметров аппроксимации для рассмотренных методов при одинаковом уровне ошибки для функции х3. В табл. 8 приведены результаты расчетов, где т — число базисных функций, Н = 0.01. Заметим, что число параметров, требуемых для метода ПМ, больше, чем для ОМ. И эта разница возрастает с уменьшением уровня шума.

Метод а т MSE МАЕ а т MSE МАЕ

ОМ 0.001 4 2.83 1.19 0.0001 4 2.80 1.20

ПМ 0.001 6 2.64 1.26 0.0001 6 2.63 1.26

ОМ 0.00001 4 0.88 0.69 0 4 0.87 0.68

ПМ 0.00001 14 0.92 0.74 0 15 0.89 0.73

Для быстроменяющейся функции г^ качество аппроксимации методами ОМ и ПМ сравнимо при различных уровнях зашумленности (см. табл. 9).

Таблица 9. Аппроксимация функции Х4 со случайной погрешностью

Метод а т MSE МАЕ а т MSE МАЕ

ОМ 0.001 4 1.99 1.27 0.0001 4 1.94 1.25

ПМ 0.001 6 1.78 1.18 0.0001 6 1.79 1.18

4. Выводы. В данной работе продемонстрированы возможности применения операторного метода к задачам регрессионного анализа. В качестве аппроксимирующих операторов выбраны линейные разностные операторы с постоянными коэффициентами. Однако возможны обобщения: операторный метод позволяет применять линейные разностные операторы с переменными коэффициентами, линейные дифференциальные операторы, операторы осреднения.

Отметим ряд преимуществ данного метода. Предложенный метод дает возможность использовать меньшее число параметров (базисных функций) по сравнению, например, с полиномиальной регрессией. Кроме того, метод позволяет выбирать разные метрики, а не только метод наименьших квадратов.

При этом операторный метод имеет некоторые ограничения. Не исследованы возможности его применения для моделирования случайных процессов и построения прогнозных моделей. Сузив задачу, мы получили некоторые преимущества. В частности, в отличие от метода ББЛ-Гусеница, дающего близкие результаты на правильной сетке [7], операторный метод дает возможность строить регрессионные модели на неравномерных сетках для любого количества измерений.

Литература

1. Дрейпер Н., Смит Г. Прикладной регрессионный анализ, пер. с англ. 3-е изд. Киев, Диалектика (2016).

2. Гохберг И.Ц., Крейн М. Г. Введение в теорию линейных несамосопряженных операторов, пер. с англ. Москва, Наука (1965).

3. Донской В. И. Машинное обучение и обучаемость: сравнительный обзор. Intellectual Archive, №933, 1-19 (2012).

4. Усевич К. Д. Разложение функций в двумерном варианте метода «Гусеница^-SSA и связанные с ним системы уравнений в частных производных. Вестник Санкт-Петербургского университета. Прикладная математика. Информатика. Процессы управления, вып.3, 151-160 (2009).

5. Ермаков С. М., Котова Л. Ю. О выборе базисных функций в регрессионном анализе. В: Сб. работ кафедры статистического моделирования СПбГУ, 3-43 (1999).

6. Самарский А. А. Теория разностных схем. Москва, Наука (1989).

7. Голяндина Н.Э., Усевич К.Д. Метод 2D-SSA для анализа двумерных полей. В: Труды VII Международной конференции «Идентификация систем и задачи управления» SICPRO'08, Москва, 1657-1727 (2008).

Статья поступила в редакцию 16 июля 2021 г.;

доработана 25 августа 2021 г.; рекомендована к печати 2 сентября 2021 г.

Контактная информация:

Ермаков Сергей Михайлович — д-р физ.-мат. наук, проф.; sergej.ermakov@gmail.com Леора Светлана Николаевна — канд. физ.-мат. наук, доц.; leora2008@mail.ru

On the choice of basic regression functions and machine learning

S. M. Ermakov1, S. N. Leora2

1 St Petersburg State University, 7-9, Universitetskaya nab., St Petersburg, 199034, Russian Federation

2 St Petersburg State University of Economics,

30-32, nab. kanala Griboedova, St Petersburg, 191023, Russian Federation

For citation: Ermakov S.M., Leora S.N. On the choice of basic regression functions and machine learning. Vestnik of Saint Petersburg University. Mathematics. Mechanics. Astronomy, 2022, vol. 9(67), issue 1, pp. 11-22. https://doi.org/10.21638/spbu01.2022.102 (In Russian)

As is known, the regression analysis task is widely used in machine learning problems, which allows to establish relationship between observed data and compactly store of information. Most often, a regression function is described by a linear combination of some of the selected functions fj (X), j = 1,... ,m, X e D С Rs. If the observed data contains a random error, then the regression function restored from the observed data contains a random error and a systematic error depending on the selected functions f j. The article indicates the possibility of optimal selection of functions fj in the sense of a given functional metric, if it is known that the true dependence is consistent with some functional equation. In some cases (regular grids, s < 2), similar results can be obtained using the random process analysis method. The numerical examples given in this article illustrate much more opportunities for the task of constructing the regression function.

Keywords: regression analysis, approximation, basis functions, operator method, machine learning.

References

1. Draper N., Smith H. Prikladnoi regressionnyi analiz. 3rd ed. Kiev, Dialertica Publ. (2016). (In Russian) [Eng. transl.: Draper N., Smith H. Applied Regression Analysis. 3rd ed. New York, Wiley (1998)].

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

2. Gokhberg I.Ts., Kreyn M.G. Vvedenie v teoriiu lineinykh nesamosopriazhennykh operatorov. Moscow, Nauka Publ. (1965). (In Russian) [Eng. transl.: Gokhberg I.Ts., Kreyn M.G. Introduction to the theory of linear non-self-adjoint operators in a Hilbert space. In Ser.: Translations of Mathematical Monographs, vol.18, AMS (1969)].

3. Donskoy V. I. Machine Learning and Learnability: Comparative Survey. Intellectual Archive, no. 933, 1-19 (2012). (In Russian)

4. Usevich K. D. Decomposition of functions in 2D-extension of SSA and related partial differential systems of equations. Vestnik of Saint Petersburg University. Applied Mathematics. Computer Science. Control Processes, iss.3, 151-160 (2009). (In Russian)

5. Ermakov S. M., Kotova L. Yu. On the choice of basic functions in regression analysis. In: Collection of works of the Department of ¡Statistical Modeling of St Petersburg State University, 3-43 (1999). (In Russian)

6. Samarskiy A. A. The theory of difference schemes. Moscow, Nauka Publ. (1989). (In Russian)

7. Golyandina N. E., Usevich K. D. 2D-SSA Method for analysis of two-dimensional fields. In: Proceedings of the VII International Conference "System Identification and Control Problems" SICPRO'08, Moscow, 1657-1727 (2008). (In Russian)

Received: July 16, 2021 Revised: August 25, 2021 Accepted: September 2, 2021

Authors' information:

Sergey M. Ermakov — sergej.ermakov@gmail.com Svetlana N. Leora — leora2008@mail.ru

i Надоели баннеры? Вы всегда можете отключить рекламу.