Научная статья на тему 'О свойствах М-оценок, оптимизирующих весовую L2-норму функции влияния'

О свойствах М-оценок, оптимизирующих весовую L2-норму функции влияния Текст научной статьи по специальности «Математика»

CC BY
1
0
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
М-оценки / робастная статистика / функция влияния / устойчивые оценки / сниженные оценки / условно оптимальные оценки / M-estimators / robust statistics / influence function / stable estimates / redescending estimators / conditionally optimal estimators

Аннотация научной статьи по математике, автор научной работы — Даниил Валерьевич Лисицин, Константин Викторович Гаврилов

Введение. В работе развивается теория устойчивых M-оценок, относящихся к классу сниженных оценок, обладающих свойством устойчивости к асимметричному засорению. Многие известные сниженные оценки могут быть получены в рамках двух подходов д.т.н. А.М. Шурыгина: локально устойчивого подхода, основанного на анализе показателя неустойчивости оценки (L2-нормы функции влияния), или подхода, основанного на модели серии выборок со случайным точечным засорением (модели байесовского точечного засорения). Эти подходы удобны для построения различных устойчивых М-оценок и, по сравнению с классическими робастными процедурами, предоставляют более широкие возможности. Предложенное А.М. Шурыгиным в рамках первого из перечисленных подходов семейство условно оптимальных оценок может определяться как оптимизирующее асимптотическую дисперсию при ограничении на величину неустойчивости. Соответствующая задача допускает представление в форме оптимизации весовой L2-нормы функции влияния. Во втором подходе рассматривается специальным образом сформированная непараметрическая окрестность модельного распределения, и он тоже может быть сведен к анализу весовой L2-нормы функции влияния. Таким образом, данный критерий качества оценивания является достаточно общим и полезным для конструирования робастных оценок. Метод. Теория оценок, оптимальных с точки зрения весовой L2-нормы функции влияния, в настоящее время недостаточно развита. Так, для соответствующих семейств оценок остается нерешенным вопрос единственности членов семейства. Вопрос сводится к исследованию выпуклости (вогнутости) оптимизируемого функционала в зависимости от параметра, задающего семейство. Основные результаты. В работе в общем виде получено выражение для производной по параметру функционала качества оптимальной оценки. Получены неравенства для второй производной, необходимые для установления его выпуклости (вогнутости) по параметру. Полученные результаты применены для описания свойств условно оптимального семейства. Построены функции влияния ряда условно оптимальных оценок для параметров сдвига и масштаба нормальной модели. Исследованы характеристики этих оценок. Обсуждение. Показана устойчивость большинства рассмотренных оценок, что важно для их практического применения. Теоретические результаты могут быть полезны при исследовании свойств компромиссных оценок на базе двух критериев, а также при изучении минимаксных уровней засорения в рамках подхода А.М. Шурыгина на основе модели байесовского точечного засорения. Результаты работы могут найти применение в ситуациях целенаправленного искажения данных противником, в том числе в задачах, связанных с вредоносным машинным обучением.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

On the properties of M-estimators optimizing weighted L2-norm of the influence function

The work develops the theory of stable M-estimators belonging to the class of redescending estimators, having the property of resistance to asymmetric contamination. Many well-known redescending estimators can be obtained within the framework of the locally stable approach of A.M. Shurygin, based on the analysis of the estimator instability functional (L2-norm of the influence function), or his approach based on the model of a series of samples with random point contamination (point Bayesian contamination model). These approaches are convenient for constructing various stable M-estimators and, in comparison with classical robust procedures, provide wider opportunities. The family of conditionally optimal estimators proposed by A.M. Shurygin within the framework of the first of the listed approaches can be defined as optimizing the asymptotic dispersion under a constraint on the value of instability. The corresponding problem can be represented in the form of optimization of the weighted L2-norm of the influence function. The second approach considers a specially formed nonparametric neighborhood of the model distribution, and it can also be reduced to the analysis of the weighted L2-norm of the influence function. Thus, this estimation quality criterion is quite general and useful for constructing robust estimators. The theory of estimators that are optimal in terms of weighted L2-norm of the influence function is currently underdeveloped. Specifically, for the corresponding families of estimators, the question of the uniqueness of family members remains unresolved. The question comes down to studying the convexity (concavity) of the optimized functional depending on the parameter defining the family. In the presented work, an expression is obtained in general form for the derivative with respect to the parameter of the quality functional of the optimal estimator. Inequalities are obtained for the second derivative necessary to establish its convexity (concavity) with respect to the parameter. Corollaries from these results are applied to describe the properties of a conditionally optimal family. The influence functions of a number of conditionally optimal estimators for the shift and scale parameters of the normal model are constructed. The characteristics of these estimators are studied. The stability of most of the considered estimators is shown, which is important for their practical application. The theoretical results obtained can be useful in studying the properties of compromise estimators based on two criteria as well as in studying minimax contamination levels within the framework of A.M. Shurygin’s point Bayesian contamination model. The results of the work can be used in situations of purposed data corruption by an adversary including the problems related to adversarial machine learning.

Текст научной работы на тему «О свойствах М-оценок, оптимизирующих весовую L2-норму функции влияния»

НАУЧНО-ТЕХНИЧЕСКИЙ ВЕСТНИК ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ, МЕХАНИКИ И ОПТИКИ март-апрель 2024 Том 24 № 2 http://ntv.ifmo.ru/

I/ITMO SCIENTIFIC AND TECHNICAL JOURNAL OF INFORMATION TECHNOLOGIES, MECHANICS AND OPTICS ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ, МЕХАНИКИ И ОПТИКИ

March-April 2024 Vol. 24 No 2 http://ntv.ifmo.ru/en/

ISSN 2226-1494 (print) ISSN 2500-0373 (online)

МАТЕМАТИЧЕСКОЕ И КОМПЬЮТЕРНОЕ МОДЕЛИРОВАНИЕ MODELING AND SIMULATION

doi: 10.17586/2226-1494-2024-24-2-267-275 УДК 519.233.22

О свойствах М-оценок, оптимизирующих весовую ^-норму функции

влияния

Даниил Валерьевич Лисицин1, Константин Викторович Гаврилов2®

Новосибирский государственный технический университет, Новосибирск, 630073, Российская Федерация

1 lisitsin@ami.nstu.ru, https://orcid.org/0009-0007-0723-6285

2 ае^та77@таП.ти, https://orcid.org/0009-0001-9252-9942

Аннотация

Введение. В работе развивается теория устойчивых М-оценок, относящихся к классу сниженных оценок, обладающих свойством устойчивости к асимметричному засорению. Многие известные сниженные оценки могут быть получены в рамках двух подходов д.т.н. А.М. Шурыгина: локально устойчивого подхода, основанного на анализе показателя неустойчивости оценки (£2-нормы функции влияния), или подхода, основанного на модели серии выборок со случайным точечным засорением (модели байесовского точечного засорения). Эти подходы удобны для построения различных устойчивых М-оценок и, по сравнению с классическими робастными процедурами, предоставляют более широкие возможности. Предложенное А.М. Шурыгиным в рамках первого из перечисленных подходов семейство условно оптимальных оценок может определяться как оптимизирующее асимптотическую дисперсию при ограничении на величину неустойчивости. Соответствующая задача допускает представление в форме оптимизации весовой £2-нормы функции влияния. Во втором подходе рассматривается специальным образом сформированная непараметрическая окрестность модельного распределения, и он тоже может быть сведен к анализу весовой £2-нормы функции влияния. Таким образом, данный критерий качества оценивания является достаточно общим и полезным для конструирования робастных оценок. Метод. Теория оценок, оптимальных с точки зрения весовой £2-нормы функции влияния, в настоящее время недостаточно развита. Так, для соответствующих семейств оценок остается нерешенным вопрос единственности членов семейства. Вопрос сводится к исследованию выпуклости (вогнутости) оптимизируемого функционала в зависимости от параметра, задающего семейство. Основные результаты. В работе в общем виде получено выражение для производной по параметру функционала качества оптимальной оценки. Получены неравенства для второй производной, необходимые для установления его выпуклости (вогнутости) по параметру. Полученные результаты применены для описания свойств условно оптимального семейства. Построены функции влияния ряда условно оптимальных оценок для параметров сдвига и масштаба нормальной модели. Исследованы характеристики этих оценок. Обсуждение. Показана устойчивость большинства рассмотренных оценок, что важно для их практического применения. Теоретические результаты могут быть полезны при исследовании свойств компромиссных оценок на базе двух критериев, а также при изучении минимаксных уровней засорения в рамках подхода А.М. Шурыгина на основе модели байесовского точечного засорения. Результаты работы могут найти применение в ситуациях целенаправленного искажения данных противником, в том числе в задачах, связанных с вредоносным машинным обучением. Ключевые слова

М-оценки, робастная статистика, функция влияния, устойчивые оценки, сниженные оценки, условно оптимальные оценки

Ссылка для цитирования: Лисицин Д.В., Гаврилов К.В. О свойствах М-оценок, оптимизирующих весовую ¿2-норму функции влияния // Научно-технический вестник информационных технологий, механики и оптики. 2024. Т. 24, № 2. С. 267-275. doi: 10.17586/2226-1494-2024-24-2-267-275

© Лисицин Д.В., Гаврилов К.В., 2024

On the properties of M-estimators optimizing weighted L2-norm of the influence function Daniil V. Lisitsin1, Konstantin V. Gavrilov2®

Novosibirsk State Technical University, Novosibirsk, 630073, Russian Federation

1 lisitsin@ami.nstu.ru, https://orcid.org/0009-0007-0723-6285

2 aenigma77@mail.ru®, https://orcid.org/0009-0001-9252-9942

Abstract

The work develops the theory of stable M-estimators belonging to the class of redescending estimators, having the property of resistance to asymmetric contamination. Many well-known redescending estimators can be obtained within the framework of the locally stable approach of A.M. Shurygin, based on the analysis of the estimator instability functional (L2-norm of the influence function), or his approach based on the model of a series of samples with random point contamination (point Bayesian contamination model). These approaches are convenient for constructing various stable M-estimators and, in comparison with classical robust procedures, provide wider opportunities. The family of conditionally optimal estimators proposed by A.M. Shurygin within the framework of the first of the listed approaches can be defined as optimizing the asymptotic dispersion under a constraint on the value of instability. The corresponding problem can be represented in the form of optimization of the weighted L2-norm of the influence function. The second approach considers a specially formed nonparametric neighborhood of the model distribution, and it can also be reduced to the analysis of the weighted L2-norm of the influence function. Thus, this estimation quality criterion is quite general and useful for constructing robust estimators. The theory of estimators that are optimal in terms of weighted L2-norm of the influence function is currently underdeveloped. Specifically, for the corresponding families of estimators, the question of the uniqueness of family members remains unresolved. The question comes down to studying the convexity (concavity) of the optimized functional depending on the parameter defining the family. In the presented work, an expression is obtained in general form for the derivative with respect to the parameter of the quality functional of the optimal estimator. Inequalities are obtained for the second derivative necessary to establish its convexity (concavity) with respect to the parameter. Corollaries from these results are applied to describe the properties of a conditionally optimal family. The influence functions of a number of conditionally optimal estimators for the shift and scale parameters of the normal model are constructed. The characteristics of these estimators are studied. The stability of most of the considered estimators is shown, which is important for their practical application. The theoretical results obtained can be useful in studying the properties of compromise estimators based on two criteria as well as in studying minimax contamination levels within the framework of A.M. Shurygin's point Bayesian contamination model. The results of the work can be used in situations of purposed data corruption by an adversary including the problems related to adversarial machine learning. Keywords

M-estimators, robust statistics, influence function, stable estimates, redescending estimators, conditionally optimal estimators

For citation: Lisitsin D.V., Gavrilov K.V. On the properties of M-estimators optimizing weighted L2-norm of the influence function. Scientific and Technical Journal of Information Technologies, Mechanics and Optics, 2024, vol. 24, no. 2, pp. 267-275 (in Russian). doi: 10.17586/2226-1494-2024-24-2-267-275

Введение

Современные подходы к решению задачи оценивания параметров статистических моделей [1] направлены на обеспечение устойчивости получаемых решений к возможным отклонениям реальной ситуации от принятых в модели предположений [2-4]. Одним из наиболее трудных для формализации являлось асимметричное засорение симметрично распределенных данных, поскольку априорная информация о возможном искажении, как правило, отсутствует, а классические робастные подходы в этой ситуации не обладают достаточной устойчивостью. Для решения этой проблемы были предложены сниженные оценки [3, 4], в которых влияние периферийных наблюдений значительно снижено по сравнению с классическими робастными решениями. Однако эти решения оставались, по существу, эвристическими.

Важным шагом к получению теоретически обоснованных решений стала предложенная д.т.н. Александром Михайловичем Шурыгиным [2, 5] достаточно универсальная модель байесовского точечного засорения (БТЗ), которая позволяет описывать воздействие асимметричного засорения на набор данных.

Модель предполагает наличие серии выборок, каждая из которых имеет засорение в виде распределения, сосредоточенного в одной точке. Эта точка является фиксированной в пределах одной выборки, но имеет некоторое распределение по серии выборок. Каждому распределению засоряющей точки соответствует наилучшая оценка, полученная в результате минимизации ее асимптотического квадратичного отклонения [2]. Получающиеся оценки часто оказываются сниженными. В рамках модели БТЗ оптимальными являются многие известные сниженные оценки параметра сдвига, среди них бивес-оценка Тьюки, оценки Эндрюса, Бернулли, Смита, Мешалкина, оценка Хьюбера типа урезанного среднего, обобщенные оценки Шарбонье [2, 6, 7].

Еще один — локально устойчивый — подход А.М. Шурыгина [2] основан на показателе неустойчивости оценки (¿2-норме функции влияния). Оптимизация неустойчивости при ограничении на асимптотическую дисперсию (или, что тоже, оптимизация асимптотической дисперсии при ограничении на величину неустойчивости) приводит к семейству условно оптимальных оценок [2, 8], которые, как правило, тоже являются сниженными.

Характерно, что и условно оптимальное семейство, и решения, получаемые в подходе на основе модели БТЗ, могут быть сведены к оптимизации весовой ¿2-нормы функции влияния [4]. Таким образом, данный подход является достаточно общим и востребованным: он может служить теоретической основой для конструирования широкого спектра оптимальных устойчивых оценок. Однако к настоящему времени оставался неизученным ряд свойств оптимальных оценок, в частности, открытым оставался вопрос единственности членов их семейств, который связан с вопросом выпуклости (вогнутости) оптимизируемого функционала в зависимости от параметра.

В настоящей работе в общем виде исследуются свойства оценок, оптимизирующих весовую ¿2-норму функции влияния при условии, что весовая функция зависит от скалярного параметра. Основные результаты — получение выражения для производной по параметру функционала качества и неравенства для второй его производной, необходимые для установления его выпуклости (вогнутости). В частности, для условно оптимального семейства [2, 8, 9] показана монотонность функций асимптотической дисперсии и неустойчивости оценки, что обеспечивает единственность элементов семейства [8]. В качестве применения теории рассмотрен ряд условно оптимальных оценок параметров сдвига и масштаба нормальной модели, исследованы устойчивость и другие характеристики этих оценок.

Элементы теории устойчивого оценивания

Пусть x1, ..., xm — независимые наблюдения случайной величины 4, распределенной с плотностью 9), где x 6 X £ я и параметр 9 6 0 £ я. Здесь X и 0 — множества значений переменной x и параметра 9 соответственно, Я — множество вещественных чисел. М-оценка 9 неизвестного параметра может определяться как решение оценочного уравнения [1, 3]

т л Х^, 9) = 0, ;=1

где у^, 9) — оценочная функция параметра 9. Оценка должна удовлетворять условию асимптотической несмещенности вида [1, 10]

Ey(Ç, 0) = Jy(x, 0)fx, 0)dx = 0,

X

(1)

где Е — оператор математического ожидания.

Дифференцируя (1) по 9 и допуская возможность изменения порядка дифференцирования и интегрирования, можно записать следующие равенства [3, 10]:

# д 8 N(9) = -Иш-Еу(4, Г) = -Е—9) = ^е дг 50

= jy(x, 0)—fx, 0)dx, X Sö

(2)

где функция N(9) имеет смысл нормировочной характеристики оценочной функции.

Потребуем, чтобы в окрестности истинного значения параметра 9 выполнялось условие асимптотической

несмещенности (1), были справедливы равенства (2), функция N(9) была непрерывной и не равной нулю [11]. Более полный набор условий регулярности, обеспечивающий также ^т-состоятельность и асимптотическую нормальность оценок [1, 12, 13], приведен, например, в работе [5].

Рассмотрим в качестве показателя качества оценивания квадрат весовой ^-нормы функции влияния с весом s(x, 9)

и(у, 5) = —г— {у2^, 9)s(x, 9)dx = {Ш2^, 9)s(x, 9^, (3) ЩЩх X

где 9) = 9)^(9), № — функция влияния Хампеля [4]. Функционал (3) возникает, например, как асимптотическое квадратичное отклонение оценки в модели БТЗ [2, 5, 14], где весовая функция 9) представляет собой плотность распределения засоряющей точки. В частности, асимптотическая дисперсия [1] М-оценки 9 определяется как ¥(у) = П(у, /), а неустойчивость оценки [2, 14, 15] — Щ(у) = и(у, 1). Минимизация функционала У(у) приводит к оценке максимального правдоподобия (ОМП) [1], а минимизация Щ(у) — к оценке максимальной устойчивости (ОМУ) [2]. Соответствующие значения оптимизируемых функционалов обозначим УОМП и ЩОМУ. Также используем относительные характеристики оценки — эффективность [1, 2] ейу = ^мп^(у) и устойчивость [2].

В [2] показано, что функционал (3) достигает минимума по у на функции

y(x, 0) = с(0)

—lnfx, 0) + ß(0)

se

Äx, 9)

s(x, 0)"

(4)

где с(9) — произвольная непрерывная функция, не равная нулю для всех 9 6 0; функция Р(9) определяется из условия (1). Оценочную функцию (4) назовем оптимальной для заданной весовой функции 9).

Функция (4) является также решением задачи максимизации функционала (3) для функции 9) < 0. Таким образом, весовая функция 9) в (4) может быть неотрицательной или неположительной, что расширяет исходное определение функционала (3) как квадрата весовой ¿2-нормы. Соответственно функционалу (3) при этом доставляется минимум либо максимум.

Далее для краткости, как правило, будем опускать аргументы функций. Например, (4) запишем в виде у = с(д//д9 + в/)/5.

Введем следующее соглашение. Когда функционал

(3) или его частный случай (V или Щ) используется без указания аргументов, подразумевается, что в качестве оценочной функции в него подставляется выражение

(4), зависящее от 5. Если при этом весовая функция 5 является членом параметрического семейства, то функционал представляет собой функцию параметра, задающего это семейство. Штрихом будем обозначать производную функций по данному параметру.

Так, семейству условно оптимальных оценок [2, 8, 9, 11, 16] в зависимости от способа параметризации соответствуют функции 5 = 1 + /или 5 = X + / где у, X — параметры, задающие семейство. Данное семей-

ство оценок может определяться как минимизирующее неустойчивость при ограничении на асимптотическую дисперсию (или минимизирующее асимптотическую дисперсию при ограничении на неустойчивость). Причем в задаче минимизации возможны два вида ограничений: ограничения-неравенства и ограничения-равенства. Последние приводят к более широким диапазонам параметров, задающих семейство, и потому оно названо расширенным условно оптимальным семейством [8].

Для обеспечения корректности приводимых далее рассуждений дополнительно потребуем, чтобы все полученные производные и интегралы существовали и были непрерывными функциями параметра, задающего семейство; для выписанных интегралов было допустимо, где это необходимо, внесение операции дифференцирования под знак интеграла.

Свойства оптимальных оценочных функций

Изучим свойства оптимальных оценочных функций, определяемых выражением (4). В работе [11] показано, что для величины (3) справедливо:

с

U = — = с2/{ w2sdx, N х

где функция N определена в выражении (2), а с — в (4).

Перепишем равенства в виде [5]:

— = — = —jy2sdx = jp2sdx, U с с1 x X

(5)

где ф = у/с = (5/50 + в/)/5.

Пусть функция 5 представляет собой параметрическое семейство, зависящее от некоторого скалярного параметра, от которого не зависит /. Тогда получим:

Ф' = (ßf - <pS)/s

(6)

Теорема 1. Для оценочной функции (4) справедливо

и = — \у2s'dx = \W2s'dx. Ьр-х х

Доказательство. Действительно, используя равенства (5), (6) и (1), найдем

/лЛ'

I — I = 2в'¡фfdx - |ф25Ух = jфф'sdx = -|ф25Ух; (7)

\с) X X X X

и=- (£)2 ("У=

1 . . = —jy2s'dx = jIFVdx.

Л^х x

(8)

Теорема доказана.

Функционал и в зависимости от вида 5 и способа ее параметризации может иметь различный смысл. Рассмотрим некоторые частные случаи теоремы 1.

Следствие 1 из теоремы 1. Пусть 5 = / + к, где у — параметр, задающий семейство; к — независящая от

у функция. Тогда для оптимальной оценочной функции (4) справедливо

и = = и(у, / = V.

Лгу

Следствие 2 из теоремы 1. Пусть 5 = / + Хк, где X — параметр, задающий семейство; к — независящая от X функция. Тогда для оптимальной оценочной функции (4) справедливо

и = —\y4dx = \lF4dx = и(у, к).

X

Отметим, что следствия из теоремы 1 при к = 1 описывают свойства условно оптимальных оценок, доказанные в [8] (теорема 1).

Следующий результат позволяет получить достаточные условия вогнутости (выпуклости) величины (3) как функции параметра, задающего семейство.

Теорема 2. Для оптимальной оценочной функции (4) справедливо одно из следующих неравенств:

и" < ¡1¥25'^, если и > 0; и" > ¡W2s"dx, если и< 0.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

X X

Причем равенство в них достигается, только если 5 не зависит от х.

Доказательство. В следующих преобразованиях воспользуемся первым равенством в (7), не отбрасывая в нем нулевое слагаемое, а также равенствами (6) и (1):

( — ) = 2f>"\фfdx + 2(Р')2|—dx - 2в'\—s'dx -

\с) X X« X я

гФ

- 2ß'j—s'dx + 2 j—(s')2dx - jpVdx =

X s X s X

2

= Hßf - <s')2dx - jpVdx =

X

= 2 j(p')2sdx - jp2s" dx.

XX

Отсюда, используя (5), (7) и (8), находим:

Y-Y v=i *

2\ с I 2 с

. х с / \ с 2 nînY

2с\с )

2

N ( \2

= —\ф2s"dx + I jфф'sdx] - jф2sdxj(ф')2sdx.

2cх V 'XX

Последние два слагаемых в полученном выражении есть неположительная величина в силу неравенства Коши-Буняковского. Равенство в нем достигается, только когда функции ф и ф' коллинеарны либо одна из них тождественно равна нулю, т. е. 5 не зависит соответственно от x либо от параметра, задающего семейство (в обоих случаях величина в' = 0). Случай, когда параметр отсутствует, не допускается по условию.

Таким образом, приходим к неравенству

1/лЛ3 N. „ 1/лЛ3, „

-(— ) и" < —¡ф2s"dx = -( — ) \IF2s"dx.

2\с 2cх 2\с X

3

Домножим полученное выражение на величину 2U3 = 2c3/N3, знак которой соответствует знаку U. В результате получим неравенства в утверждении теоремы. Теорема доказана.

Следствие 1 из теоремы 2. Пусть s = / + h > 0, где s Ф const; у — параметр, задающий семейство; h — независящая от у функция. Тогда для оптимальной оценочной функции (4) U" < 0.

Доказательство. Данное неравенство следует из теоремы 2, поскольку s" = 0 и U > 0 в силу представления (3), кроме того, s зависит от x. Следствие доказано.

Следствие 2 из теоремы 2. Пусть s = / + Xh, где s Ф const; X — параметр, задающий семейство; h — независящая от X функция. Тогда для оптимальной оценочной функции (4) справедливо:

U" < 0, если s > 0; U" > 0, если s < 0.

Доказательство. Данные неравенства следуют из теоремы 2, поскольку s" = 0, U > 0 при s > 0, U < 0 при s < 0, кроме того, s зависит от x. Следствие доказано.

Единственность членов условно оптимального семейства

Применим следствия 1 и 2 из теоремы 2 к условно оптимальному семейству, расширенному за счет отрицательных значений параметра [8]. В этом случае h = 1, а параметры, задающие семейство, удовлетворяют условиям

Y > -1/max/

xex

X > 0 или X < -max/.

хех

Последние два неравенства соответствуют разным знакам U, поэтому исходную задачу минимизации величины (3) в данном случае следует понимать как j IF2|s|dx ^ min. х V

Согласно следствиям из теорем 1 и 2 справедливо

неравенство

&U 8V

—- = — < 0

df dy

для всех допустимых значений у > -1/max/;

кроме того, &U ÔW

x£X

dW

■ = — < 0, если X > 0; — > 0, если X < -max/ дк дк 8к xeX

Отсюда следует единственность решения вариационных задач, определяющих семейство. Сформулируем это в виде следующих утверждений [8].

Утверждение 1. Задача с ограничениями-неравенствами. Пусть задана верхняя граница W0 неустойчивости W или верхняя граница Vq асимптотической дисперсии V оценки, так что соответственно Wqmy < W < Wq или VOMn < V < V0. Тогда каждое такое ограничение однозначно определяет условно оптимальную оценку, которой соответствуют некоторые неотрицательные значения параметров X и у.

Утверждение 2. Задача с ограничениями-равенствами. Пусть решается задача минимизации неустойчивости W при условии, что асимптотическая дисперсия °ценКИ V = ^ где VOMn < V0 < Vmax, Vmax — предел

асимптотической дисперсии оценки при у ^ -1/max/"

xex

или X ^ -max/. Тогда решением задачи является расши-

xex

ренное условно оптимальное семейство оценок, причем каждое значение V0 однозначно определяет оценку из данного семейства.

Оценивание параметров нормальной модели

На практике в качестве модельного распределения ошибок наблюдений часто выступает нормальное распределение [1] с плотностью

fx, д, с) =

1

aV2ÜeXP

С*-и)2

2а2

x £ R,

(9)

где д — параметр сдвига; с — параметр масштаба. Потому для исследователя важно иметь в своем арсенале набор устойчивых оценок параметров данной модели.

В табл. 1 перечислены некоторые условно оптимальные оценки, соответствующие значениям параметра X (задающего элемент семейства), а также оптимизационные задачи, приводящие к данным оценкам.

Присутствующая в таблице ОММ — наилучшая 5-робастная оценка [4] в условно оптимальном семействе.

Рассмотрим семейство условно оптимальных оценок параметра сдвига д в модели (9). Соответствующие оценочные функции, совпадающие с функциями влияния, определяются выражением (4) при 5 = X + / и в = 0, т. е. имеют вид

х-ц

^ д = -V (10)

1 + Л/Дх, ц, о)

где С = с/с2 — безразмерная константа, определяемая условием N(9) = 1 (она несущественна с точки зрения решения оценочного уравнения). Стандартное отклонение с предполагается известным. Если оно неизвестно, может использоваться одна из его оценок (табл. 2) [2]. Для оценки параметра сдвига справедливы равенства ^МП = с2, Щому = 4^пс3 [2].

В табл. 2 для условно оптимальных оценок параметра сдвига д приведено значение Хс (поскольку X обратно пропорционально с), значение С и значения относительных характеристик эффективности и устойчивости. Кроме перечисленных в табл. 1 оценок, рассмотрена также одна безымянная оценка, относящаяся к расширению семейства в область X < 0.

Для ОМУ общая формула (10) приводит к неопределенности, поэтому запишем отдельно выражение для данной функции влияния:

IFomy(x, Д) = ^8(x - д)ехр

(х-lif

2с2

На рис. 1 показаны графики функций влияния рассмотренных в табл. 2 оценок при д = 0 и с = 1, за

Таблица 1. Некоторые условно оптимальные оценки Table 1. Some conditionally optimal estimators

Название Сокращенное название Уравнение для определения X Оптимизационная формулировка

Оценка максимального правдоподобия [1, 2] ОМП X = 0 V(v) ^ min v

Равнооптимальная оценка [11] ОРО effy = stby mm{effy, stby} ^ max v

Компромиссная оценка [2] ОК X = ^ОМП^ОМУ eff-1v + stb-1v ^ min v

Равновесная оценка [17] ОРВ X = V/W > 0 V(y)W(y) ^ min v

Оценка максимальной устойчивости [2] ОМУ X = œ W(v) ^ min v

Минимаксная оценка ОММ max|IF| ^ min x X —

Таблица 2. Характеристики некоторых оценок параметра сдвига Table 2. Characteristics of some estimators of the shift parameter

XG C effy, % stby, % Название

0 1 100 0 ОМП

0,08304988 1,868355 85,04 85,04 ОРО

0,1410474 2,334381 81,15 90,74 ОК

0,1618861 2,496072 80,13 91,96 ОРВ

0,2916770 3,471798 75,93 95,97 ОММ

œ œ 64,95 100 ОМУ

-0,5 -1,755425 42,51 86,30 —

исключением ОК и ОММ (чтобы линии графиков не располагались слишком плотно). ОК довольно близка к ОРВ, а ОММ занимает промежуточное положение между ОМУ и ОРВ.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Все рассмотренные оценки, кроме ОМП, являются сниженными (их функции влияния имеют асимптотой ось абсцисс), а следовательно, обладают свойством устойчивости к асимметричному засорению. Оценкам с большим значением X (при X > 0) соответствует большее значение характеристики БЛу; соответствующие

IF(x, ц)

Рис. 1. Графики некоторых функций влияния параметра сдвига

Fig. 1. Graphs of some influence functions of the shift parameter

функции влияния быстрее сходятся к нулю при увеличении 1x1, а также их |ГР^, д)| достигает максимума при меньшем значении 1x1. Оценка, которой соответствует X = -0,5/с, с описанной точки зрения имеет наибольшую среди исследуемых оценок устойчивость (хотя показатель БЛу при X < 0 не способен это отразить количественно, поскольку его максимум достигается на ОМУ), однако она имеет невысокую эффективность и сравнительно большое значение тах|№^, д)|, что не

x

очень хорошо [4], но может быть оправдано при значительном засорении наблюдений.

Построим условно оптимальные оценки параметра масштаба с в модели (9). Согласно (4) соответствующие оценочные функции, совпадающие с функциями влияния, могут быть записаны в виде

„ (х-цУ/о'-Р

У(х, с) = CG--—--

1 + Щх, ц, а)

(11)

где в = 1 - вс — безразмерная константа, определяемая из условия (1); С имеет тот же смысл, что и в (10). Для оценки параметра масштаба справедливы равенства ¥ОМп = с2/2, №0му = 4^пс3 [2].

В табл. 3 приведены характеристики условно оптимальных оценок параметра масштаба с.

Для ОМУ общая формула (11) приводит к неопределенности, поэтому запишем отдельно выражение для данной функции влияния:

Таблица 3. Характеристики некоторых оценок параметра масштаба Table 3. Characteristics of some estimators of the scale parameter

Xa P c e%, % stby, % Название

0 1 0,5 100 0 ОМП

0,04348800 0,7904612 1,101824 73,36 73,36 ОРО

0,07052370 0,7452787 1,349195 68,34 80,97 ОК

0,09066582 0,7211837 1,521623 65,72 84,49 ОРВ

œ 0,5 œ 43,30 100 ОМУ

-1,315140 0,4512637 -8,106702 38,68 99,20 ОММ

-0,5 0,2993957 -2,125707 24,90 85,75 —

IFomy(x, a) =

(х-Ii)2'

exp

2a2 '

На рис. 2 приведены графики функций влияния, перечисленных в табл. 3 оценок параметра масштаба при д = 0 и с = 1, кроме ОК и ОММ.

ОК занимает промежуточное положение между ОРО и ОРВ, а ОММ довольно близка к ОМУ. Для изображенных на рис. 2 графиков, в целом, справедливы те же закономерности, что и для графиков на рис. 1.

IF(x, а)

Рис. 2. Графики некоторых функций влияния параметра масштаба

Fig. 2. Graphs of some influence functions of the scale parameter

Если неизвестны оба параметра модели (9), тогда решается система оценочных уравнений для каждого из параметров.

Обсуждение

В работе получены следующие результаты о свойствах оценок, оптимизирующих весовую ^-норму функции влияния:

— доказаны две теоремы, согласно которым найдены выражение для производной по параметру функци-

онала качества оптимальной оценки и неравенства, необходимые для установления его выпуклости (вогнутости) по параметру;

— сформулированы следствия из теорем, относящиеся к условно оптимальному семейству оценок;

— в частности, для условно оптимального семейства установлены свойства монотонности функций неустойчивости и асимптотической дисперсии в зависимости от параметров, задающих семейство, откуда следует единственность элементов семейства;

— построены функции влияния ряда оптимальных оценок параметров сдвига и масштаба нормальной модели, исследованы характеристики этих оценок. Доказанные теоремы оказались полезными при

исследовании свойств компромиссных оценок на базе двух критериев, а также при изучении минимаксных уровней засорения в рамках модели БТЗ для задач, аналогичных исследованным в работе [18]. Соответствующие материалы готовятся к опубликованию. Можно считать перспективным использование полученных результатов в условиях, когда искажение данных производится целенаправленно действующим противником — в постановках задач, близких к используемым во вредоносном машинном обучении [19].

Заключение

Полученные в работе теоретические результаты служат инструментом для анализа однопараметриче-ских семейств оценок, обладающих оптимальностью в смысле минимума весовой ^-нормы функции влияния. В первую очередь, данный инструмент позволяет ответить на вопрос о единственности членов семейства.

При подходящем выборе весовой функции оптимальные оценки оказываются сниженными, т. е. обладают устойчивостью к асимметричному засорению наблюдений. Это важно для практического применения данных оценок.

Теоретические результаты работы проиллюстрированы на примере ряда условно оптимальных оценок А.М. Шурыгина, для которых приведены все необходимые характеристики.

Литература

1. Borovkov A.A. Mathematical Statistics. Amsterdam: Gordon and Breach, 1998. 570 p. https://doi.org/10.1201/9780203749326

2. Шурыгин А.М. Прикладная стохастика: робастность, оценивание, прогноз. М.: Финансы и статистика, 2000. 224 с.

3. Huber P., Ronchetti E. Robust Statistics. 2nd ed. John Wiley & Sons, 2009. 354 p. https://doi.org/10.1002/9780470434697

4. Hampel F., Ronchetti E., Rousseeuw P., Stahel W. Robust Statistics: The Approach Based on Influence Functions. John Wiley & Sons, 2005. 536 p. https://doi.org/10.1002/9781118186435

5. Лисицин Д.В., Гаврилов К.В. Максиминная задача оценивания параметров в условиях байесовского точечного засорения // Вестник Томского государственного университета. Управление, вычислительная техника и информатика. 2023. № 62. С. 56-64. https://doi.org/10.17223/19988605/62Z6

6. Лисицин Д.В., Гаврилов К.В. Оценивание параметров распределения ограниченной случайной величины, робастное к нарушению границ // Научный вестник Новосибирского государственного технического университета. 2016. № 2(63). С. 70-89. https:// doi.org/10.17212/1814-1196-2016-2-70-89

7. Lisitsin D.V., Usol'tsev A.G. Minimum gamma-divergence estimation for non-homogeneous data with application to ordered probit model // Applied methods of statistical analysis. Statistical computation and simulation: proceedings of the International Workshop. Novosibirsk, 18-20 Sept. 2019. Novosibirsk: NSTU, 2019. P. 227-234.

8. Лисицин Д.В., Гаврилов К.В. О свойствах условно оптимальных оценок // Научный вестник Новосибирского государственного технического университета. 2015. № 1(58). С. 76-93. https://doi. org/10.17212/1814-1196-2015-1-76-93

9. Лисицин Д.В. Устойчивое оценивание параметров модели по многомерным неоднородным неполным данным // Научный вестник Новосибирского государственного технического университета. 2013. № 1(50). С. 17-30.

10. Смоляк С.А., Титаренко Б.П. Устойчивые методы оценивания: статистическая обработка неоднородных совокупностей. М.: Статистика, 1980. 210 с.

11. Лисицин Д.В., Гаврилов К.В. Об устойчивом оценивании параметров модели при асимметричном засорении данных // Научный вестник Новосибирского государственного технического университета. 2008. № 1(30). С. 33-40.

12. DasGupta A. Asymptotic Theory of Statistics and Probability. New York: Springer, 2008. 722 p. https://doi.org/10.1007/978-0-387-75971-5

13. Van der Vaart A.W. Asymptotic Statistics. Cambridge: Cambridge University Press, 1998. 443 p. https://doi.org/10.1017/ CB09780511802256

14. Shurygin A.M. New approach to optimization of stable estimation // Proc. of the First US/Japan Conference on the Frontiers of Statistical Modeling: An Informational Approach. V. 3. Engineering and Scientific Applications. Springer, Dordrecht, 1994. P. 315-340. https://doi.org/10.1007/978-94-011-0854-6_15

15. Shevlyakov G., Morgenthaler S., Shurygin A. Redescending M-estimators // Journal of Statistical Planning and Inference. 2008. V. 138. N 10. P. 2906-2917. https://doi.org/10.1016/J. JSPI.2007.11.008

16. Shevlyakov G.L., Oja H. Robust Correlation: Theory and Applications. John Wiley & Sons, 2016. 319 p. https://doi. org/10.1002/9781119264507

17. Гаврилов К.В., Веретельникова Е.Л. Об одном способе выбора компромисса в семействе условно оптимальных оценок // Вестник Томского государственного университета. Управление, вычислительная техника и информатика. 2024. № 67. в печати.

18. Rieder H., Kohl M., Ruckdeschel P. The cost of not knowing the radius // Statistical Methods and Applications. 2008. V. 17. N 1. P. 13-40. https://doi.org/10.1007/s10260-007-0047-7

19. Есипов Д.А., Бучаев А.Я., Керимбай А., Пузикова Я.В., Сайдумаров С.К., Сулименко Н.С., Попов И.Ю., Карманов-ский Н.С. Атаки на основе вредоносных возмущений на системы обработки изображений и методы защиты от них // Научно-технический вестник информационных технологий, механики и оптики. 2023. № 4(23). С. 720-733. https://doi.org/10.17586/2226-1494-2023-23-4-720-733

References

1. Borovkov A.A. Mathematical Statistics. Amsterdam, Gordon and Breach, 1998, 570 p. https://doi.org/10.1201/9780203749326

2. Shurygin A.M. Applied stochastics: robustness, estimation, prediction. Moscow, Finansy i statistika Publ., 2000, 224 p. (in Russian)

3. Huber P., Ronchetti E. Robust Statistics. 2nd ed. John Wiley & Sons, 2009, 354 p. https://doi.org/10.1002/9780470434697

4. Hampel F., Ronchetti E., Rousseeuw P., Stahel W. Robust Statistics: The Approach Based on Influence Functions. John Wiley & Sons, 2005, 536 p. https://doi.org/10.1002/9781118186435

5. Lisitsin D.V., Gavrilov K.V. Maximin problem of parameter estimation in conditions of point Bayesian contamination. Tomsk State University Journal of Control and Computer Science, 2023, no. 62, pp. 56-64. (in Russian). https://doi.org/10.17223/19988605/62/6

6. Lisitsin D.V., Gavrilov K.V. Estimation of distribution parameters of a bounded random variable robust to bound disturbance. Scientific Bulletin of NSTU, 2016, no. 2(63), pp. 70-89. (in Russian) https://doi. org/10.17212/1814-1196-2016-2-70-89

7. Lisitsin D.V., Usol'tsev A.G. Minimum gamma-divergence estimation for non-homogeneous data with application to ordered probit model. Applied methods of statistical analysis. Statistical computation and simulation. Proceedings of the International Workshop. Novosibirsk, 18-20 Sept. 2019. Novosibirsk, NSTU, 2019, pp. 227-234.

8. Lisitsin D.V., Gavrilov K.V. On properties of conditionally optimal estimates. Scientific Bulletin of NSTU, 2015, no. 1(58), pp. 76-93. (in Russian). https://doi.org/10.17212/1814-1196-2015-1-76-93

9. Lisitsin D.V. Robust estimation of model parameters in presence of multivariate nonhomogeneous incomplete data. Scientific Bulletin of NSTU, 2013, no. 1(50), pp. 17-30. (in Russian)

10. Smolyak S.A., Titarenko B.P. Stable estimation methods: statistical processing of heterogeneous aggregates. Moscow, Statistika Publ., 1980, 210 p. (in Russian)

11. Lisitsin D.V., Gavrilov K.V. On stable estimation of models parameters in presence of asymmetric data contamination. Scientific Bulletin of NSTU, 2008, no. 1(30), pp. 33-40. (in Russian)

12. DasGupta A. Asymptotic Theory of Statistics and Probability. New York, Springer, 2008, 722 p. https://doi.org/10.1007/978-0-387-75971-5

13. Van der Vaart A.W. Asymptotic Statistics. Cambridge, Cambridge University Press, 1998, 443 p. https://doi.org/10.1017/ CB09780511802256

14. Shurygin A.M. New approach to optimization of stable estimation. Proc. of the First US/Japan Conference on the Frontiers of Statistical Modeling: An Informational Approach. V. 3. Engineering and Scientific Applications. Springer, Dordrecht, 1994, pp. 315-340. https://doi.org/10.1007/978-94-011-0854-6_15

15. Shevlyakov G., Morgenthaler S., Shurygin A. Redescending M-estimators. Journal of Statistical Planning and Inference, 2008, vol. 138, no. 10, pp. 2906-2917. https://doi.org/10.1016/J. JSPI.2007.11.008

16. Shevlyakov G.L., Oja H. Robust Correlation: Theory and Applications. John Wiley & Sons, 2016, 319 p. https://doi. org/10.1002/9781119264507

17. Gavrilov K.V., Veretel'nikova E.L. On one way to choose a compromise in a family of conditionally optimal estimators. Tomsk State University Journal of Control and Computer Science, 2024, no. 67, in press. (in Russian)

18. Rieder H., Kohl M., Ruckdeschel P. The cost of not knowing the radius. Statistical Methods and Applications, 2008, vol. 17, no. 1, pp. 13-40. https://doi.org/10.1007/s10260-007-0047-7

19. Esipov D.A., Buchaev A.Y., Kerimbay A., Puzikova Ya.V., Saidumarov S.K., Sulimenko N.S., Popov I.Yu., Karmanovskiy N.S. Attacks based on malicious perturbations on image processing systems and defense methods against them. Scientific and Technical Journal of Information Technologies, Mechanics and Optics, 2023, vol. 23, no. 4, pp. 720-733. (in Russian). https://doi. org/10.17586/2226-1494-2023-23-4-720-733

Авторы

Лисицин Даниил Валерьевич — доктор технических наук, профессор, профессор, Новосибирский государственный технический университет, Новосибирск, 630073, Российская Федерация, sc 57199594779, https://orcid.org/0009-0007-0723-6285, nstu.ru

Гаврилов Константин Викторович — кандидат технических наук, доцент, Новосибирский государственный технический университет, Новосибирск, 630073, Российская Федерация, https://orcid.org/0009-0001-9252-9942, aenigma77@mail.ru

Authors

Daniil V. Lisitsin — D.Sc., Full Professor, Novosibirsk State Technical University, Novosibirsk, 630073, Russian Federation, sc 57199594779, https://orcid.org/0009-0007-0723-6285, lisitsin@ami.nstu.ru

Konstantin V. Gavrilov — PhD, Associate Professor, Novosibirsk State Technical University, Novosibirsk, 630073, Russian Federation, https:// orcid.org/0009-0001-9252-9942, aenigma77@mail.ru

Статья поступила в редакцию 04.12.2023 Одобрена после рецензирования 18.02.2024 Принята к печати 17.03.2024

Received 04.12.2023

Approved after reviewing 18.02.2024

Accepted 17.03.2024

Работа доступна по лицензии Creative Commons «Attribution-NonCommercial»

i Надоели баннеры? Вы всегда можете отключить рекламу.