Научная статья на тему 'КОРРЕКЦИЯ ОБУЧАЮЩИХ ВЫБОРОК С УЧЕТОМ ПОГРЕШНОСТЕЙ ИЗМЕРЕНИЯ ХАРАКТЕРИСТИК ОБЪЕКТОВ ПРИ ПОСТРОЕНИИ КЛАССИФИКАТОРОВ ПО МЕТОДОЛОГИИ ОБУЧЕНИЯ С УЧИТЕЛЕМ'

КОРРЕКЦИЯ ОБУЧАЮЩИХ ВЫБОРОК С УЧЕТОМ ПОГРЕШНОСТЕЙ ИЗМЕРЕНИЯ ХАРАКТЕРИСТИК ОБЪЕКТОВ ПРИ ПОСТРОЕНИИ КЛАССИФИКАТОРОВ ПО МЕТОДОЛОГИИ ОБУЧЕНИЯ С УЧИТЕЛЕМ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
83
13
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ЗАДАЧА КЛАССИФИКАЦИИ / КЛАССИФИКАТОР / РЕШАЮЩАЯ ФУНКЦИЯ / ОБУЧАЮЩАЯ ВЫБОРКА / ПРЕЦЕДЕНТ / ОШИБОЧНЫЕ ДАННЫЕ / АНАЛИЗ / КОРРЕКЦИЯ / ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ / ГИПОТЕЗА КОМПАКТНОСТИ / НОВИЗНА / ОБУЧЕНИЕ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Гданский Н. И., Крашенинников А. М.

Рассмотрен шум в обучающих выборках, основную часть которого составляют выбросы и новизна. Дан анализ основных причин возникновения выбросов в обучающих выборках. Рассмотрена сущность основных существующих подходов к определению выбросов в обучающих выборках. На основе использования метода ближайших соседей предложена модифицированная методика сравнения обобщенных расстояний от объектов до классов. Для основных видов метрик, применяемых в пространствах значений признаков, найдены обоснованные значения коэффициентов запаса, используемые в данной методике. Для программной оценки качества обучающей выборки и обоснованного выбора способа коррекции выбросов в ней предложено применение допустимых долей корректируемых и удаляемых выбросов. Дан алгоритм анализа наличия выбросов в наборе обучающей примеров. Приведена оценка сложности алгоритма по длине входа задачи. Разработан алгоритм оценки и коррекции обучающих выборок.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

CORRECTION OF TRAINING SAMPLES TAKING INTO ACCOUNT ERRORS IN MEASURING THE CHARACTERISTICS OF OBJECTS WHEN CONSTRUCTING CLASSIFIERS ACCORDING TO THE METHODOLOGY OF TEACHING WITH A TEACHER

Noise in training samples, the main part of which is made up of outliers and novelty, is considered. The analysis of the main causes of outliers in training samples is given. The essence of the main existing approaches to determining outliers in training samples is considered. Based on the use of the nearest neighbors method, a modified method for comparing generalized distances from objects to classes is proposed. For the main types of metrics used in the spaces of feature values, the justified values of the safety factors used in this technique are found. For a programmatic assessment of the quality of the training sample and a reasonable choice of the method for correcting outliers, it is proposed to use the permissible fractions of corrected and removed outliers in it. An algorithm for analyzing the presence of outliers in a set of training examples is given. An estimate of the complexity of the algorithm by the length of the input of the problem is given. An algorithm for evaluating and correcting training samples has been developed.

Текст научной работы на тему «КОРРЕКЦИЯ ОБУЧАЮЩИХ ВЫБОРОК С УЧЕТОМ ПОГРЕШНОСТЕЙ ИЗМЕРЕНИЯ ХАРАКТЕРИСТИК ОБЪЕКТОВ ПРИ ПОСТРОЕНИИ КЛАССИФИКАТОРОВ ПО МЕТОДОЛОГИИ ОБУЧЕНИЯ С УЧИТЕЛЕМ»

М Инженерный вестник Дона, №8 (2021) ivdon.ru/ru/magazine/arcliive/n8y2021/7166

Коррекция обучающих выборок

Н.И. Гданский, А.М. Крашенинников

Московский государственный университет пищевых производств, Москва

Аннотация: Рассмотрен шум в обучающих выборках, основную часть которого составляют выбросы и новизна. Дан анализ основных причин возникновения выбросов в обучающих выборках, применяемых при построении классификаторов при обучении с учителем. Изложен характер их влияния на качество разрабатываемых решающих функций. Рассмотрена сущность основных существующих подходов к определению выбросов в обучающих выборках. В качестве самых распространенных рассмотрены измерительные ошибки, возникающие при определении численных значений свойств объектов исследуемой предметной области. На основе использования метода ближайших соседей предложена модифицированная методика сравнения обобщенных расстояний от объектов до классов, которая дает возможность учесть влияние ошибок измерений в пространстве значений признаков объектов на принятие решений о включении объекта в тот или иной класс. Для основных видов метрик, применяемых в пространствах значений признаков, найдены обоснованные значения коэффициентов запаса, используемые в данной методике. Для программной оценки качества обучающей выборки и обоснованного выбора способа коррекции выбросов в ней предложено применение допустимых долей корректируемых и удаляемых выбросов. Дан алгоритм анализа наличия выбросов в наборе обучающих примеров, в котором при помощи дополнительного коэффициента учтены возможные погрешности численных измерений свойств примеров. Приведена оценка сложности алгоритма по длине входа задачи. Разработан алгоритм оценки и коррекции обучающих выборок, позволяющий по данным анализа давать общую оценку обучающей выборки, автоматически выбирать оптимальный способ коррекции и реализовывать его. Для учета возможного косвенного влияния выбросов на результаты процесса их коррекции предложено повторное применение данной методики. Оно позволяет устранить последствия такого влияния. Приведен пример использования предложенной методики для анализа и коррекции обучающей выборки.

Ключевые слова: задача классификации, классификатор, решающая функция, обучающая выборка, прецедент, ошибочные данные, анализ, коррекция, искусственный интеллект, гипотеза компактности, новизна, обучение.

Введение

При использовании методов искусственного интеллекта для распознавания объектов некоторой предметной области Q, как правило, данные объекты характеризуются при помощи численных значений их свойств { х } = {х1ух2,...,хи}. Величины данных свойств {a1,a2,.,an}, дают возможность адекватно выделить конкретный объект в области Q среди аналогичных ему.

Использование набора свойств {аьа2,...,ап} позволяют дать их удобную геометрическую интерпретацию в виде точки с соответствующими координатами в п-мерном пространстве значений признаков рассматриваемых объектов U = 0х\х2...хп.

Проблема автоматического распознавания (классификации) объекта по набору значений его признаков а = {а1,а2,...,ап} решается при помощи классификатора - специальной решающей функции или алгоритма ц, которые практически реализуют отображение вектора а на множество заданных классов {А} = {А^г^ -Дя} (ц : ( а) ^ {А}), представляющим собой группы аналогичных объектов с близкими свойствами. За счет такой близости для обработки их можно применять аналогичные методы. Данная методология лежит в основе функционирования интеллектуальных систем самого различного рода.

В случае сложных объектов области О классификатор ц, решающий проблему распознавания, имеет также достаточно сложную структуру. Для его автоматического построения по методике обучения с учителем применяется набор обучающих примеров ТЕ = { } = {( а5, пеГ')}. Каждый обучающий пример = ( а5, пеГ) состоит из конкретного объекта а = {а1,а2,.,ап} предметной области О, который уже сопоставлен своему классу из набора {А}, заданному своим номером пеТ. Структура классификатора и алгоритм его построения определяются конкретным используемым методом (нейросети, геометрические методы, статистические методы и др.) Для количественной оценки качества построенного классификатора ц, как правило, применяется тестовый набор примеров, аналогичных обучающим.

Успешное построение качественного классификатора определяется в основном качеством используемых обучающих примеров ТЕ.

Основной предпосылкой хорошей разделимости рассматриваемого набора обучающих примеров ТЕ является выполнение гипотезы

компактности [1-3] для объектов, составляющих рассмотренные классы {А1Д2,---Ат}. По данной гипотезе точки, соответствующие этим классам, должны задавать в пространстве значений свойств объектов и отдельные кластеры, представляющие собой компактно расположенные множества точек пространства, которые можно достаточно просто отделить друг от друга при помощи специальных гиперповерхностей. Данные гиперповерхности используются затем классификаторами для определения принадлежности новых предъявляемых объектов к тому или иному классу из набора ^^1,А2,.,Ат}. Выполнение гипотезы компактности дает возможность относительно легко построить правильный классификатор.

Соответственно, нарушение данной гипотезы создает существенные сложности, как для построения удовлетворительного классификатора, так и для его последующего успешного применения при распознавании новых объектов.

Нарушение гипотезы компактности в обучающих примерах ТЕ относительно выделяемых ими классов ^^1,А2,.,Ат}, называемое шумом, не только существенно усложняет построение классификатора по такой совокупности. В итоге классификаторы, все же построенные таких обучающих данных, при последующем их применении для распознавания новых объектов повторяют ошибки, заложенные в них. [4,5]. Т.е. происходит, как бы, заранее прогнозируемое снижение качества классификатора.

Шум в обучающих примерах с нарушением гипотезы компактности может быть обусловлен действием целого ряда причин - как человеческих, так и методических, ошибок измерений и др. Подробный их перечень дан, например, в работе [6].

Общие методы устранения шума в наборах примеров, используемых при построении классификаторов, можно разделить на следующие 3 основные группы:

1) статистические, основанные, как правило, на предположении о нормальном распределении данных [6],

2) геометрические, например, DBSCAN, в которых применяется метрика в пространстве и [7-9] и

3) структурные, например, изолирующий лес, в котором для выявления шума применяются бинарные деревья [10-12].

Одним из направлений является обработка зашумленных обучающих данных по особым алгоритмам (алгоритмы надежного обучения нейронных сетей), которые учитывают наличие шума. [13-15]

В то же время практика показывает предпочтительность препроцессорных методов выявление и удаление шума из обучающих данных.

Шум в обучающих данных в основном обусловлен наличием следующих нарушений.

1. Выбросы. Это такие обучающие примеры е = ( а*, псГ), для которых неверно указаны их классы псГ и они по своим свойствам существенно отличаются от свойств основной группы элементов класса с номером псТ

2. Новизна. Под новизной понимают такие объекты из обучающей выборки, которые по своим свойствам значительно отличаются от характерных объектов всех рассмотренных классов {Л1:,А2,---Ат}.

На практике, как обнаружение, так и коррекция обоих видов нарушений могут осуществляться как одновременно (они рассматриваются совместно, как аномалии, подлежащие удалению из обучающих данных), так и поочередно. Однако в силу того, что данные нарушения имеют разную природу, свои существенные особенности и по-разному проявляют себя, представляется, что для более полного учета данных особенностей обработка выбросов и новизны должна производиться последовательно - вначале

должны быть обнаружены и скорректированы все выбросы, после чего из скорректированных обучающих данных должна быть выявлена и уделена новизна.

Рассмотрим первую фазу данного процесса - выявление и коррекцию выбросов в обучающих данных.

Неучет выбросов в обучающих данных, во-первых, дает искаженную картину моделируемой предметной области О, а также приводит к ряду негативных последствий. В частности, таких, как практическая невозможность полного разделения всех обучающих примеров по заданным классам {А}. Такие ситуации характерны, в первую очередь, для нейросетевых методов построения классификаторов. Варьирование весов синаптических связей не дает возможности полностью разделить классы {А}, а только изменяет наборы неправильно классифицируемых примеров из ТЕ. В случае использования методов, позволяющих все же выполнить полное разделение зашумленных данных по классам {А}, построенный классификатор не только получается громоздким, но и повторяет все ошибки из обучающих данных.

На основе геометрического подхода к анализу данных в статье предложен препроцессорный алгоритм анализа и коррекции набора обучающих примеров ТЕ, состоящий из примеров - объектов с уже выделенными для них классами, который учитывает различную природу и характер влияния разных погрешностей на качество обучающих данных, а также позволяет заранее наложить общие требования к методам их коррекции и качеству исправленных данных. Для оценки обобщенного расстояния от объекта до класса использован подход метода ближайших соседей. [16-18].

В п.1. дан краткий анализ причин появления шумов и их влияния на качество обучающих примеров ТЕ, предложен способ их количественного учета.

В п.2 на основе метода ближайших соседей дано модифицированное условие включения объекта в класс, который учитывает погрешности измерения характеристик рассматриваемых объектов. Для основных видов метрик дано обоснование величины коэффициента запаса, обеспечивающее выполнение данного условия.

В п.3 сформулирована общая задача удаления выбросов. Рассмотрен специальный алгоритм выявления выбросов в обучающих данных, позволяющий за счет применения модифицированного условия включения объекта в класс практически учесть погрешности измерений характеристик объектов.

В п.4. приведена оценка сложности для алгоритма анализа выбросов.

В п.5 дан алгоритм общей оценки выбросов и определения оптимального метода коррекции обучающих данных.

1. Причины появления шума и выбросов в обучающих данных, их

численный учет

С точки зрения причин возникновения и влияния на качество обучающей выборки все многообразие причин возникновения шумов можно разделить на две основные группы.

1. Измерительные ошибки, обусловленные погрешностями применяемых приборов, а также погрешностями, вносимыми в данные при их последующем преобразовании к машинному виду. Величины таких ошибок невелики. Поскольку они являются следствием применения для измерений того или иного оборудования, их величины можно довольно точно предсказать. Существенно особенностью их является то, что получаемые данные всегда содержат ошибки такого рода. Обобщенно

назовем их ошибками измерений. Хотя такие ошибки относительно невелики, они могут привести к неправильному отнесению объекта а5 к соответствующему классу А5 с {А} - особенно для объектов с пограничным положением в классах. Это приводит к появлению выбросов и снижает общее качество обучаемых данных и построенных на них классификаторов. Ошибки измерений, как малые и трудно определяемые, трудно исправлять, однако учитывать их наличие при анализе обучающей выборки необходимо.

2. Ошибки-промахи. Это грубые ошибки, обусловленные человеческим фактором, некорректными методиками получения данных или неправильными алгоритмами их обработки. Ошибки такого рода обычно достаточно велики по сравнению с ошибками измерений, поскольку они не являются характерными, их сложно предсказать заранее. Однако число ошибок-промахов может быть достаточно велико, они могут существенно исказить обучающие данные. При небольшом числе обучающих примеров существенно исказить общую картину могут и единичные ошибки-промахи. Поскольку грубые ошибки существенно снижают качество обучающей выборки, они недопустимы и подлежат устранению.

Такой принципиально отличный характер двух рассмотренных групп ошибок дает основание для применения к ним различных видов учета:

1) ошибки измерений относительно невелики и несущественно искажают истинные свойства примеров обучающей выборки ТЕ и классифицируемых новых объектов, поэтому нет необходимости устранять их в процессе коррекции ТЕ, но необходимо учитывать в процессе анализа выборки, поскольку они могут стать причиной появления выбросов,

2) ошибки-промахи, как грубо искажающие истинные свойства объектов, недопустимы в обучающих выборках ТЕ и должны исключаться из них, поскольку само их присутствие искажает данные анализа выборки, при

наличии ошибок-промахов анализ и коррекция должны выполняться повторно.

Рассмотрим численные характеристики выбросов в обучающих выборках, по которым можно оценить качество выборки и методы и коррекции. Обозначим общий объем обучающих данных ей выборки ТЕ = { } = { ( а* = (а* 1,а*п),с/*)} через Ы, а числа объектов в классах из {Л} -через N 1, N2,..., Nт, (Ы 1+Ы 2+...+Ы т = Ы).

1. Предельно допустимая доля удаляемых выбросов, при которой можно без ущерба для общей информативности ТЕ удалить из нее все выбросы Sdel.

2. Предельно допустимая доля корректируемых выбросов, при превышении которой обучающие данные ТЕ уже нельзя считать достаточно информативными для построения классификатора 8сог.

Поскольку задачи классификации для разных предметных областей О имеют существенные отличия, разные объемы N и особенности методов построения классификаторов, то при назначение пороговых величин Sdel и 8сог необходимо учитывать специфику данных областей, решаемых задач и методов решения.

2. Проверка правильности включения объекта в класс с учетом погрешностей измерений. Усиленное условие включения

В обучающих данных для всех объектов а* в примерах Гв1* уже заданы номера пс/ соответствующих им классов из набора {Л}. При проверке наличия выбросов необходимо выяснить правильность данного отображения а* А}.

В основе геометрического метода анализа обучающих данных ТЕ лежит использование некоторой базовой метрики р( а\ аи) в пространстве V,

Г и

которая задает для точек пространства а и а метод расчета расстояния.

С использованием базовой метрики р( d, au) пространстве U вводится производная от нее мера близости R( d, Aq) объекта aseU к произвольному классу объектов Aq с {A}. В качестве такой обобщенной меры принята модель KNN (K-nearest neighbors) [16-18], в которой близость объекта d к классу Aq определяется по к самым ближним точкам класса:

R( <?, Aq) = min{ р( ds, an) + р( ds, aj2) + ...+ р( as, ajp) }, (1)

где 1 < j1< j2< ... < jk < Nq; ajr ф as; (r = 1,.,k) . При отсуствии погрешностей определения характеристик объектов и точных расстояниях Rp( as, Af) геометрически условие включения объекта as в класс Af имеет вид:

R р ( a, Af) < Rp ( И, Ag), (2 а)

где Ag - любой класс из {A}, отличный от Af (Ag e {A}, Ag ф Af). Однако величины характеристик объектов всегда включают погрешности измерений. Для пограничных объектов это может привести к ошибочному включению объекта не в ближайший к нем класс из {A}. Такое неправомерное отображение объекта as e Af в другой класс Ag возникает в том случае, когда в случае точных значений характеристик выполняется соотношение: Rp ( a, Af) < Rp ( as, Ag), а для приближенных: R ( af, Af) > R

( a, Ag).

Поскольку для первоначального включения объекта as в класс Af, как правило, существуют некоторые весомые аргументы, то предложено дать этому классу некоторое преимущество перед всеми остальными за счет искусственного уменьшения величины расстояния R ( as, Af), которое рассчитано на основании реальных значений характеристик объектов, содержащих погрешности измерения. Для обеспечения преимущества

использован безразмерный коэффициент запаса s>0. Усиленное условие включения объекта d в класс Af имеет вид:

(1-s)R ( as, Af) < R ( ?, Ag), где Ag e{A}, AgфAf. (2 б)

Таким образом, замена в формуле (2а) точных расстояний {R р ( as, Af), Rp ( ds, Ag)} приближенными { R ( as, Af), R( as, Ag)}, рассчитанными по реальным величинам характеристик объектов, учтена при помощи коэффициента запаса s>0. Его величина, с одной стороны, должна обеспечивать компенсацию влияния погрешности измерений. Однако коэффициент не должен принимать слишком большое значение, поскольку в этом слоучае могут быть пропущены грубые ошибки (ошибки-промахи).

Рассмотрим коэффициент е. Он представляет собой некоторую малую величину, которая зависит в общем случае от двух основных факторов: 1) погрешностей измерений характеристик ({8г-}, 1 < i < n) и 2) базовой метрики р, принятой в пространстве U. Таким образом, е = e(p,{Si}).

Для обоснованного выбора коэффициента запаса е рассмотрим влияние на него обоих фактов - погрешностей {Si} и метрики р пространства U.

I. Погрешности {Si}(1 < i < n). При заданной метрике р в пространстве U расстояние р( as, a г) задает длину вектора ( d - a 1 ), соединяющего точки as и a 1 пространства. Максимальное относительное изменение (увеличение или уменьшение) всех компонент вектора ( as - a г) ограничено величиной:

Smax = max Si, 1 < i < n. (3)

II. Рассмотрим метрики p пространства U. Поскольку они по-разному влияют на погрешности векторов, рассмотрим их отдельно.

1. р: 1) "манхеттенское расстояние" и 2) "евклидово расстояние".

и

В них длины векторов ( О - а1) пропорциональны их линейным размерам. Вследствие этого, при одновременном увеличении всех компонент вектора в q раз, длина всего вектора ( О - а1) также увеличится в q раз.

Допустим, объект О входит в класс Л/ и не входит в класс Лё ( О е Л/ , а £ Лё). Примем максимальное относительное изменение компонент вектора ( О - а г) равным Ътах (3).

В метриках 1) и 2) из пропорциональности изменения отдельных компонент вектора ( О - а г) и всего расстояния р( О, а г) следует, что в худшем случае можно ожидать следующее:

- точные расстояния в Яр ( а5, Л/) ( О е Л/) из-за возникновения погрешностей увеличатся в (1+8тах),

- точные расстояния в Яр ( а5, Лё) ( О £ Лё) изменятся в (1- 6тах) раз, т.е. уменьшатся.

Таким образом, в результате подстановки в расчётные формулы приближенных измеренных значений характеристик полученное приближенное значение расстояния Я ( О, Лр) может стать меньше аналогичного приближенного расстояния Я ( а\ Л/). В резуотате этого и будет принято неправильное решение о включении О в класс Лр.

Математически такую ошибку, возникающую из-за погрешностей измерений характеристик объектов, можно компенсировать следующим образом:

- полученное приближенное расстояние Я ( О„ Л/) разделить на (1 +

^тах):,

- все остальные приближенные расстояния Я ( О, ЛД включая Я ( О, Лё), разделить на (1-8тах).

и

Относительное изменение всех расстояний будет сохранено, если приближенное значение расстояния Я ( а*, Л/) умножить на общий коэффициент (1-8тах)/(1+8тах), не изменяя все остальные расстояния.

Преобразование такого общего коэффициента с точностью до малых

первого порядка по Ътах дает для коэффициента следующий результат:

2 2 (1-8тах)/(1+8тах) = (1-^тах) /[(1+§тах) (1-§тах)] = (1-25тах+§тах ) /(1-

тах ")]~ (1-2§тох).

Отсюда получаем, что в метриках "манхеттенское расстояние" и "евклидово расстояние" искомый коэффициент запаса, компенсирующий возможные ошибки измерений характеристик объектов, равен:

е(р,{8/}) = 2Ътах. (4а)

2. В метрике р "квадрат евклидова расстояния" величина коэффициента запаса может быть получена сходным образом. Отличие заключается в том, что в данной метрике пропорциональное увеличение компонент вектора в д раз приводит к увеличению всего расстояния р( а*, а Г) в д раз.

Из данной зависимости вытекает, что в этой метрике из-за наличия погрешностей измерений в худшем случае все расстояния, входящие в сумму Я ( а*, Л/) ( а* еЛ/) изменятся в (1+8тах) 2 раз, а все расстояния, входящие в Я ( а*, Лё) ( а* £ Лё), изменятся в (1- 8тах)2 раз.

Как и в первом случае, для компенсации таких предельных изменений размеров для объекта а*, расстояние Я ( а*, Л/) можно разделить на (1+§т«х)2, а все остальные расстояния, включая Я ( а*, Лё), разделить на (1-§т«х)2. Также по аналогии, требуемое относительное изменение всех

расстояний можно получить за счет умножения расстояния Я ( а*, Л/) на

2 2

приведенный коэффициент (1-8тах) /(1+8тах) и не изменять при этом все другие расстояния.

и

После эквивалентных преобразований данного приведенного множителя с точностью до малых первого порядка по Ътах получим его следующее выражение:

(1 §тах) /(1+§тах) (1 ^тах) /[(1+§тах) (1 §тах) ] (1 4§тах+6§тах 4§тах +§тах ) /(1 &тах ) ]~ (1 4&тах).

Из полученного выражение вытекает, что в метрике р: "квадрат евклидова расстояния" в качестве коэффициента запаса должна быть принята величина:

е(р,{8/}) = 45тах. (4б)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Таким образом, для исключения влияния погрешностей измерения характеристик объектов на а принятие решения: оставить объект а в его исходном классе Л/ или переместить его в другой класс из {Л}, предложено:

1) использовать усиленное условие преимущественного включения объекта а в класс Л/ (2 б) и

2) для базовых метрик р в пространстве и использовать соответствующие им коэффициенты запаса е(р,{8/}) (4а) - (4б).

3. Общая постановка задачи корректировки выбросов в

обучающей выборке. Алгоритм анализа выбросов в выборке

Предложено разбить общую задачу на два последовательных этапа. Это позволяет более гибко оценивать результаты исследования.

1. Анализ наличия и положения выбросов в обучающей выборке с учетом относительных погрешностей измерения.

Для заданной обучающей выборки ТЕ с учетом относительных погрешностей измерения характеристических признаков {8г} по условию (2б) включения объекта в класс при конкретной метрике р на обучающих данных ТЕ требуется выяснить наличие выбросов. Если они присуствуют в выборке, то необходимо сформировать предварительные данные для последующей их

общей оценки и коррекции, т.е. требуется определить общее число выбросов и их положение в обучающих данных.

2. Общее оценивание обучающей выборки, коррекция выбросов в ней. Модификация обучающих данных.

На основе полученных данных анализа обучающей выборки вычислить долю выбросов 8 и для заданной предельной доли корректируемых выбросов 8сог вначале проверить общую пригодность ТЕ для построения классификатора, т.е. условие 8 < 8сог. Если условие не выполнено, то выборка признается некачественной и ее обработка прекращается.

В том случае, когда условие выполнено, то по заданной предельной доле удаляемых выбросов 8^ необходимо определить способ исправления данных: а) удаление или б) исправление выбросов. После чего необходимо скорректировать обучающую выборку требуемым образом и получить модифицированные обучающие данные ТЕ1.

Существенной особенностью решаемой задачи является то, что при значительном числе выбросов процесс коррекции следует повторить. Причина этого заключается в том, что выбросы, как объекты ошибочно отнесенные к другим классам, на этапе анализа могут существенно исказить суммарные расстояния и у других объектов, вызывая при этом неправильную оценку их включения в классы.

Если при повторном анализе выбросы обнаружены, то они корректируются обычным образом - как правило, их число невелико и они просто удаляются из выборки.

В итоге препроцессорной обработки в обучающей выборке устраняются все выбросы. За счет этого упрощается процесс построение классификатора и повышается качество его работы.

и

Такая же препроцессорная обработка данных требуется и для контрольной выборки, поскольку она также обычно определяется эмпирически и может содержать выбросы.

Алгоритм OUTLIERS ANALYSIS анализа обучающих данных

В алгоритме анализа обучающих данных в качестве основной вспомогательной структуры данных предложено использовать модифицированную симметричную матрицу M(N х N) расстояний р( a г; a u) между всеми парами обучающих примеров ( a г; au) (1< t < n; 1< u < n).

Всем диагональным элементам M([s] [s]) (1< s < n) данной матрицы,

s s

соответствующим нулевым величинам р( a ; a ), специально присваивается значение

Такая модификация дает возможность без выполнения

s s

дополнительных проверок автоматически исключить элементы р( a ; a ) из процесса определения p минимальных расстояний до объекта as в формуле (4) в том случае, когда рассчитывается расстояние R( 0s, Af) от объекта d до класса Af, содержащего его.

Второй вспомогательной структурой данных является массив Near []. В него заносятся расстояния от всех объектов текущего обрабатываемого класса Aq до анализируемого объекта d при расчете расстояния R( 0s, Aq).

В качестве третьей вспомогательной структуры используется несимметричная матрица RO (Nxk), в которой заданы расстояниия R( as, Aq) от объектов as до классов Aq.

Исходные данные алгоритма:

1) k - общее число выделенных классов в пространстве U,

2) N - общий объем обучающих данных TE,

3) n - число характерных признаков объектов,

и

4) PRV([N][n]) - массив координат точек из TE, упорядоченных по вхождению в классы 0, 1, ..., k-1,

5) first[k]; last[k] - массивы номеров начальных и конечных объектов в классах 0, 1, . , k-1,

6) Ncl[N] - массив номеров классов для объектов из TE,

7) N[k] - массив чисел объектов в классах,

8) p - количество ближайших точек в классе при расчете близости,

9) eps - коэффициент запаса при проверке расстояний при известных погрешностях измерений и выбранной функции расстояний р между объектами,

10) RO_EV_Q(n, PRV[t][n], PRV[u][n]) - функция р( a f; a u) расчета расстояния между объектами a1 и au.

Решаемая задача, анализ выбросов в обучающей выборке.

Выходные данные.

1) NV - число выбросов в обучающих данных TE,

2) NVb[NV] - массив номеров выбросов в обучающих данных TE,

3) Ncor[NV] - массив номеров корректирующих классов для выбросов.

Вспомогательные структуры данных.

1) М [Nx N] - модифицированная матрица расстояний р( a p; a q) между объектами ( a г; a u),

2) буферный массив Near [],

3) RO [Nx k] - матрица расстояний R( Aq) между объектами d и классами Aq.

Алгоритм Outliers analysis анализа обучающей выборки.

{ Шаг 1. Начальные действия. Формирование матрицы М расстояний между объектами

Цикл по объектам No от 0 до N - 1

{

1.1. М[Ыо][Ыо] = +ю;//Инициализация диагонального элемента

1.2. Цикл по номерам объектов по i от N0 + 1 до N-1

{

М^о][1] = RO_EV_Q(n, N0, 0;//Расчет расстояния между объектами N0 и {

М[ЩКо] = М[Ыо]^];//Присвоение значения симметричному

элементу матрицы }

};

Шаг 2. Формирование матрицы RO расстояний между объектами и классами.

Цикл по объектам N0 от 0 до N - 1

Цикл по классам КитС от 0 до к-1 {

2.1. Инициализация элемента матрицы RO [No][NumC] RO [No][NumC]=0;

2.2. Формирование массива Near[NumC] расстояний от объектов класса NumC до N0

Для 1=0 до N(10 -1 {Near[i]= M[No][first[NumC]+i]};

2.3. Сортировка массива Near [NumC] по неубыванию величин элементов

2.4. Вычисление элемента RO [No][NumC] Для]=0 до р-1 {RO [Ыо][ NumC] += Near[j]};

Шаг 3. Анализ наличия выбросов

3.1. Инициализация числа выбросов КУ и массивов NVb, Ncor.

3.2. Цикл по объектам по N0 от 0 до N-1 {

3.2.1. Определение граничного значения для исходного класса Ncl[No] с учетом коэффициента eps

ROR = (1 - eps)*RO[No][Ncl[No]];

3.2.2. Определение минимума расстояния по всем другим

классам

min = ROR; Цикл по NumC от 0 до k - 1

Если ((NumC! = Ncl[No])&& (min > RO[No][NumC])) {min = RO[No][NumC]; Nmin = NumC; };

3.2.3. Проверка наличия выброса, коррекция NV, NVb [] и Ncor

[]

Если (min < ROR) {NV++; NVb[NV - 1] = No; Ncor[NV - 1] =

Nmin;};

};

}

Завершение работы алгоритма.

Использование полной матрицы M (N х N) максимально сокращает объем вычислений в алгоритме, поскольку все расстояния р( as; a s) в этом случае вычисляются только n(n-1)/2 раза. Но в этом случае требуется выделение значительной вспомогательной памяти O(n2). Если ее размер ограничен, то возможно хранить только половину матрицы (с небольшим увеличением числа расчетных операций) либо вообще отказаться от нее. В последнем случае общее число вычислений существенно. Оптимальный вариант алгоритма, как и в случае алгоритма DBSCAN, зависит от соотношения производительности вычислительного устройства и доступной ему оперативной памяти.

Рассмотрим пример, в котором: число характерных признаков объектов n = 2, общее число выделенных классов k = 2, общий объем

обучающих данных N = 26, количество ближайших точек при расчете по методу ближайших соседей р = 6, числа объектов в классах К[к] = {15;11}, метрика р в пространстве и - евклидово расстояние. относительные точности измерения характеристик по координатам 8 = (0,04; 0,05). Координаты точек в пространстве И и их принадлежность к классам показаны на рис.1.

Х2

20

С 23 >

18с

5 8 24

2 11 13

3 9 19 15

1 6 17 21 26

12 >25

4 10 14 22

1

О 5 10 15 И

Рис. 1. - Координаты точек и их принадлежность к классам А1 и А2

Таблица № 1

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Результаты расчета расстояний от объектов до классов А1 и А2

N пс1 Я( а', А1) Я( а', А2) N пс1 Я( а', А1) Я( а', А2)

1 1 12.714 46.656 14 1 23.281 18.389

2 1 10.536 40.457 15 1 34.709 11.478

3 1 9.650 40.933 16 1 17.599 24.338

4 1 11.892 44.252 17 2 14.313 19.732

5 1 11.950 34.695 18 2 25.983 14.870

6 1 9.656 36.800 19 2 20.733 13.877

7 1 13.981 41.852 20 2 37.130 20.407

М Инженерный вестник Дона, №8 (2021) ivdon.ru/ru/magazine/arcliive/n8y2021/7166

8 1 12.640 29.072 21 2 23.602 13.064

9 1 10.242 29.860 22 2 26.334 17.910

10 1 11.071 34.217 23 2 36.506 17.851

11 1 11.892 23.874 24 2 29.914 14.536

12 1 12.485 26.686 25 2 29.030 15.016

13 1 18.315 15.349 26 2 38.828 20.265

Проверка по таблице по условию (5б) показывает наличие 5 выбросов в точках с номерами:

13 (ncl =1: (1-s)R( a5, Ai) > R( A2));

14 (ncl =1: (1-s)R( a5, A1) > R( a5, A2));

15 (ncl =1: (1-s)R( a5, A1) > R( a5, A2));

16 (ncl =2: (1-s)R( a5, A2) > R( a5, A1));

17 ( ncl =2: (1-s)R( as, A2) > R( as, A1)).

4. Сложности алгоритма анализа обучающей выборки

Вход алгоритма в основном составляет массив PRV([N][n]) координат точек, задающих значения характеристических признаков объектов обучающей выборки. Поэтому длина L входа задачи пропорциональна n-N.

В алгоритме 4 последовательных шага. Так как на Шаге 4 число операций незначительно, то сложность всего алгоритма определяется максимальной из сложностей выполнения Шагов 1- 3. Проанализируем их.

Шаг 1. Формирование матрицы М расстояний.

Рассмотрим использованием базовой метрики "евклидово расстояние". При числе характеристических признаков n вычисление одного расстояния требует выполнения: 1) n вычитаний, 2) n возведений в квадрат и 3) (n-1) сложений и 4) одно извлечение квадратного корня.

Диагональные элементы матрицы М равны она является

симметричной. Поэтому в первой ее строке расстояние вычисляется (N-1)

раз, в строке 2 - (К -2) раз, ..., в строке N - 0 раз. Суммарное число вычислений расстояния равно N (Ы -1)/2. Поскольку порядок для основных операций совпадает, то сложность выполнения Шага 1 равна 0(п^ ).

Шаг 2. Формирование матрицы RO расстояний между объектами и классами.

При формировании матрицы RO выполняется вложенный цикл по N объектам и к классам. При расчете каждого элемента RO[/][/] (соответствующего объекту I (1 < I < N и классу у (1 < у < к)) основной объем расчётов затрачивается на выполнение следующих действий.

п.2.2. Выполняется N операций присваивания (по числу объектов в классе у) при формировании массива Near(¿, у). Всего для класса с у алгоритма операция присваивания выполняется N N раз. В сумме по всем классам

л

данная операция выполняется N-(N1 + N2 + ... + N0 = N•N = N раз.

п.2.3. Сортировка массива Near(¿, у) по неубыванию величин элементов. У оптимальных алгоритмов сложность сортировки равна О(^ •^2 Ю. Так как средний размер классов равен N/1, то число операций при

л

сортировке будет пропорционально величине N•N•log2(N/k) = N • ^2(Мк).

п.2.4. Окончательный расчет элемента RO[¿][¿] требует выполнения (р-1) операции сложения. Так как вычисление элементов RO[¿][¿] выполняется N•1 раз, то общее число операций сложения в этой операции равно №кф.

Поскольку N>> к,^>>р, то сложность выполнения Шага 2 равна О(^ ^(Мк)).

Шаг 3. Анализ наличия выбросов

Основная часть операций выполняется во вложенном цикле 3.2. по объектам и классам, внутри которого производится несколько проверок логических условий и присваиваний. Таким образом, итоговая сложность выполнения Шага 3 равна О(№к).

Сравнение итоговых сложностей выполнения Шагов 1-3 показывает, что максимальную из них составляют сложности Шага 1 (0(n-N )) или Шага 2 (0(N2- log2(N/k))). С

учетом того, что длина входа задачи L пропорциональна n-N и n<<N, k<<N, то сложность алгоритма анализа обучающей выборки выше линейной по L, но меньше квадратичной.

5. Алгоритм оценки и коррекции обучающих данных

Полученные в результате предварительного анализа выбросов в обучающей выборке результаты {NV, NVb[NV], Ncor[NV]} должны быть оценены и соответствующим образом обработаны с учетом рассмотренных выше 1) предельно допустимой доли корректируемых выбросов Scor и 2) предельно допустимой доли удаляемых из обучающих данных объектов Sdel. На основе этих предварительных оценок принимается решение о возможном использовании обучающих данных TE для построения классификатора ц и ее коррекции.

Вначале определяется доля выбросов в обучающей выборке: 8 =

NV/N.

По величине 8 проверяется пригодной обучающей выборки лоя построения классификатора:

8 < 8cor. (5)

Если условие (5) не выполняется, то обучающие данные TE признаются неинформативными для построения классификатора. В таких случах необходим анализ адекватности выделяемых характерных признаков { х } у рассматриваемых объектов, а также методов их получения.

В том случае, если условие выполнено, обучающая выборка TE признается достаточно качественной для последующего построения классификатора ц. Однако в случае наличия выбросов должно быть дополнительно принято решение о том, каким способом необходимо

выполнять их коррекцию. Рассматриваются два альтернативных варианта: 1) удаление всех выбросов в TE или 2) коррекция - исправление во всех обучающих примерах ( d, ns)eTE, являющихся выбросами, номера класса ns, в которые они ошибочно включены.

Для выбора способа коррекции дополнительно производится проверка условия:

5 < Sdel. (6)

Выполнение условия (6) означает, что выбросы составляют малую долю от общего числа учебных примеров, и их можно удалить без существенной потери информативности выборки TE. В простейшем случае выбросы программно удаляются из TE. Учитывая их малое число, также возможен человеко-машинный анализ выбросов.

Если условие (6) не выполнено, то это означает, что доля выбросов достаточно велика и они составляют существенную часть всех обучающих данных. Отбрасывание выбросов приведет к утрате значительной их части. Поскольку вручную анализ такого объема ошибочных данные выполнить невозможно из-за большого их объема, то предложена автоматизированная коррекция выбросов, отмеченных в массиве NV. При этом каждому выбросу в соответствующем обучающем примере ( a, Af) класс Af заменяется классом Ar, для которого номер r определяется из массива NCOR. В результате такой замены условие (2б) корректности обучающего примера будет выполнено и выброс будет устранен.

Для выполнения общей оценки и коррекции обучающей выборки предложен алгоритм EVAL_COR.

Помимо общих данных по TE, он учитывает предельно допустимые доли удаляемых 5del и корректируемых 5cor выбросов, а также результаты предварительного анализа TE алгоритмом OUTLIERS ANALYSIS - число NV выбросов в TE, массивы NVи NCOR.

Входные данные.

1) к - общее число выделенных классов,

2) N - общий объем обучающих примеров ТЕ,

3) №1^] - исходный массив номеров классов для объектов из ТЕ,

4) Щк] - массив чисел объектов в классах,

5) РК^^^и]) - массив координат точек из ТЕ, упорядоченных по вхождению в классы 0, 1, ..., к-1,

6) йге^к]; ^Б^к] - массивы номеров начальных и конечных объектов в классах 0, 1, ..., к-1,

7) De1De1 - допустимая доля удаляемых выбросов в ТЕ,

8) De1Cor - допустимая доля корректируемых выбросов в ТЕ,

9) NV - число выбросов в ТЕ,

10) NVb[NV] - массив номеров выбросов в ТЕ,

11) Ncor[NV] - массив номеров корректирующих классов для выбросов.

Решаемая задача: оценка качества и возможная коррекция обучающих данных ТЕ.

Выходные данные:

1) Q - показатель качества - качество данных удовлетворительное, Q=fa1se - нет),

2) N1 - результирующий общий объем обучающих данных ТЕ,

3) Nc11[N] - результирующий массив номеров классов для объектов

из ТЕ,

4) Ш[к] - результирующий массив чисел объектов в классах,

5) РЕУЩ^И) - результирующий массив координат точек из ТЕ, упорядоченных по вхождению в классы 0, 1, ..., к-1,

6) йгбИВД; ^БЩк] - результирующие массивы номеров начальных и конечных объектов в классах 0, 1, ., к-1.

М Инженерный вестник Дона, №8 (2021) ivdon.ru/ru/magazine/arcliive/n8y2021/7166

Шаг 1. Расчет доли выбросов и общая оценка качества обучающих данных TE

1.1. Расчет доли выбросов в обучающих данных TE DelV = 1.0*NV/N;

1.2. Определение показателя качества Q и общая оценка качества обучающих данных TE

Q= false; if(DelV <= DelCor) Q=true;

if(Q= true) {//качество обучающая выборка удовлетворительное Шаг 2. Определение способа устранения выбросов. Корекция выбросов

Если (DelV> DelDel) // проверка возможности удаления выбросов {2.1. Коррекция общих данных

2.1.1. Коррекция чисел объектов в классах

for i=0 to k-1 do Nn1[i]=Nn[i];// инициализация новых чисел

объектов

for i=0 to NV-1 do Nn1 [Ncl[NVb[i]]]=Nn1 [Ncl[NVb[i]]]-1;//увеличение числа объектов

for i=0 to NV-1 do Nn1[Ncor[i]]=Nn1[Ncor[i]]+1;//уменьшение числа объектов

2.1.2. Коррекция номеров крайних элементов классов в общем массиве

first1[0]=0; last1[0]=Nn1[0]-1; for i=1 to k-1 do { first1 [i]=last1[i-1]+1;last1 [i]=first1 [i]+Nn1[i]-1;} 2.2. Построение исправленного массива координат PRB1. Производится по классам i=0 to k-1.

2.2.1. Формирование списка удалений для класса i NDEL=0;for j=0 to NV-1

{if (Ncl[NVb[j]]==i) { DEL[NDEL]=NVb[j]; NDEL=NDEL+1;} }

2.2.2. Формирование списка вставок для класса i NSUM=0;for j=0 to NV-1

{if (Ncor[j]==i) { SUM[NSUM]=NVb[j]; NSUM=NSUM+1;} }

2.2.3. Формирование участка PRB1 для класса i //Запись в PRB1 всех неисключенных объектов из PRB

ii=0; //счетчик по PRB jj=0;//счетчик по PRB1 кк=0;//счетчик по DEL while (first[i]+ ii<=last[i]) { if (first[i]+ii<>DEL[kk] )

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

{

for mm=0 to n-1 do PRB1[first1[i]+jj][mm]=PRB[first[i]+ii][mm]; jj=jj+1; }

else if(kk<NDEL) then kk=kk+1;

ii = ii+1; };

//Запись в PRB1 всех вновь включаемых объектов из PRB for kk = 0 to NSUM-1

{ for mm=0 to n-1

{PRB1[first1 [i] + jj ][mm]=PRB[SUM[kk]] [mm];}

М+1;

} }

else

2.2. Удаление выбросов

M Инженерный вестник Дона, №8 (2021) ivdon.ru/ru/magazine/arcliive/n8y2021/7166

2.2.1. Формирование списка удалений для класса i NDEL=0;for j=0 to NV-1

{if (Ncl[NVb[j]]==i) { DEL[NDEL]=NVb[j]; NDEL=NDEL+1;} }

2.2.2. Формирование участка PRB1 для класса i //Запись в PRB1 всех неисключенных объектов из PRB ii=0; //счетчик по PRB jj=0;//счетчик по PRB1 Kk=0; //счетчик по DEL while (first[i]+ ii<=last[i]) {

I f (first[i] +ii<>DEL[kk])

{

for mm=0 to n-1 do PRB1[first1[i]+jj][mm]=PRB[first[i]+ii][mm]; jj=jj+1; }

else if(kk<NDEL) then kk=kk+1;

ii = ii+1; };

}

Завершение работы алгоритма

Сложность алгоритма EVAL_COR линейна по длине входа задачи. При повторном проверочном применении алгоритма OUTLIERS ANALYSIS возможны следующие ситуации:

1) выбросов нет (NV = 0),

2) выбросы обнаружены (NV>0).

В первом случае обработка ТЕ завершается, во втором повторно вызывается алгоритм EVAL_COR.

Обработка результатов анализа рассмотренного выше примера {NV=5; NVb=(12,13,14,15,16); NCor=(1,1,1,0,0)} при заданных долях DelCor

М Инженерный вестник Дона, №8 (2021) ivdon.ru/ru/magazine/arcliive/n8y2021/7166

= 0.2 и DelDel = 0.1 с применением алгоритма EVAL_COR дает следующие результаты.

Шаг 1. Расчет доли выбросов и общая оценка качества обучающих данных TE

DelV = 5/26 « 0.192 < DelCor = 0.2; Q = true - качество обучающей выборки удовлетворительное.

Шаг 2. Проверка возможности коррекции выбросов. Так как DelV= 0.192 > DelDel= 0.1, то выполняется условие коррекции выбросов.

2.1. Коррекция общих данных TE

2.1.1. Коррекция чисел объектов в классах

Инициализация обновленных чисел объектов в классах: {Nn1[i]} = {Nn[i]} = {15; 11}.

Уменьшение чисел объектов в классах: {Nn1[i]} = {15-3; 11-2} =

{12; 9}.

Увеличение чисел объектов в классах: {Nn1[i]} = {12+2; 9+3} =

{14;12}.

2.1.2. Коррекция номеров крайних элементов классов в общем массиве

first1 [0] = 0; last1 [0] = Nn1 [0]-1 = 13; first1 [1] = 14; last1 [1] = 25.

2.2. Результат построения исправленного массива объектов PRB1 с обновленной нумерацией точек показан на рис.2.

17

20

13

5 8 15 с 21 )

2, 11 24

3 9 ) 16е ) V } 26

1 6 14 18 ) 1. ) 23

12 25 22

4 10 19

7

О 5 10 15 XI

Рис.2. - Исправленный массив обучающих примеров с обновленной

нумерацией точек

М Инженерный вестник Дона, №8 (2021) ivdon.ru/ru/magazine/arcliive/n8y2021/7166

Итоговый вид обучающей выборки дан на рис.3.

16с

19

13 14

5 8 20

2 11 15С > < >24

3 9

1 6 17 22

12 23 >21

4 10 18

7

О 5 10 15 XI

Рис.3. - Итоговый вид обучающей выборки

Как видно из рис.3, применение скорректированных классов Л1 и Л2 не вызовет трудностей при построении классификаторов любого типа.

Выводы

Рассмотренная задача устранения шума в обучающих выборках при обучении с учителем является одной из наиболее актуальных для систем искусственного интеллекта.

Описанные алгоритмы анализа и коррекции обучающих данных имеют довольно простую структуру и полиномиальную сложность по длине входа, не превышающую квадратичную.

За счет применения дополнительных коэффициентов алгоритмы позволяют не только учитывать влияние погрешностей измерений характеристик объектов, но и гибко подходить к общему анализу качества обучающих данных и коррекции выбросов в них.

Получаемые в результате обучающие выборки задают более плавные границы классов {А} в пространстве значений признаков и, которые удовлетворяют гипотезе компактности. Это существенно упрощает

отделимость классов и дает возможность построения классификаторов с более простой структурой, которые затем затрачивают меньшее число вычислительных операций при классификации новых объектов.

Одним из преимуществ первоначального удаления выбросов в обучающей выборке является то, что получаемые в результате скорректированные обучающие данные существенно упрощают решение последующей задачи устранения новизны, поскольку она уже изолирована в отдельных классах. Это свойство скорректированных обучающих данных существенно снижает объемы перебора в алгоритмах, применяемых для выявления новизны.

Литература

1. Глушков В. М., Амосов Н. М., Артеменко И. А. Энциклопедия кибернетики. Статья "Гипотеза компактности", автор Шлезингер М. И., с.229. Том 1. Киев, 1974, 608 с.

2. Гречуха Е. И. Управление изменениями на основе гипотезы компактности. Восточно-европейский журнал передовых технологий. 2013, №10. с.58-60. URL: cyberleninka.ru/article/n/upravlenie-izmeneniyami-na-osnove-gipotezy-kompaktnosti

3. Моттль В., Середин О., Красоткина О. Гипотеза компактности, потенциальные функции и исправление линейного пространства в машинном обучении. URL: link.springer.com/chapter/10.1007/978-3-319-99492-5_3

4. Чен Д., Джайн Р. 1994. Надежный алгоритм обучения методом обратного распространения ошибки для аппроксимации функций. IEEE Trans Neural Netw 5 (3): 467-479. PMID: 18267813. DOI: 10.1109 / 72.286917

5. Лиано К. 1996. Надежная мера ошибок для контролируемого обучения нейронной сети с выбросами. Транснейронная сеть IEEE 7 (1): 246250 PMID: 18255577. DOI: 10.1109 / 72.478411

6. Серхио Сантойо. Краткий обзор методов обнаружения выбросов. Что такое выбросы и как с ними бороться? 2017. URL: towardsdatascience.com/a-brief-overview-of-outlier-detection-techniques-1e0b2c19e561

7. Кампелло, Рикардо Дж. Г. Б.; Мулави, Давуд; Зимек, Артур; Сандер, Йорг 2015. Иерархические оценки плотности для кластеризации данных, визуализации и обнаружения выбросов. ACM-транзакции при обнаружении знаний из данных. 10 (1): 1-51. DOI: 10,1145 / 2733381. ISSN 1556-4681. S2CID 2887636.

8. Шуберт, Эрих; Сандер, Йорг; Эстер, Мартин; Кригель, Ганс Петер; Сюй, Сяовэй. 2017. Возвращение к DBSCAN, повторение: почему и как (по-прежнему) следует использовать DBSCAN. ACM Trans. База данных Syst. 42 (3): 19: 1-19: 21. DOI: 10,1145 / 3068335. ISSN 0362-5915. S2CID 5156876.

9. Шуберт, Эрих; Гесс, Сибилла; Морик, Катарина. Связь DBSCAN с матричной факторизацией и спектральной кластеризацией (PDF). 2018, Lernen, Wissen, Daten, Analysen (LWDA). С. 330-334. CEUR-WS.org.

10. Шаффер, Клиффорд А. Структуры данных и анализ алгоритмов в Java (3-е изд. Дувра). 2011, Минеола, Нью-Йорк: Dover Publications. ISBN 9780486485812. OCLC 721884651.

11. Дин, Чжиго; Фей, Минруй. Подход к обнаружению аномалий, основанный на алгоритме изолированного леса для потоковой передачи данных с использованием скользящего окна. 3-я Международная конференция МФБ по интеллектуальному управлению и автоматизации. 2013.

12. Дилини Талагала, Приянга; Гайндман, Роб Дж.; Смит-Майлз, Кейт. Обнаружение аномалий в данных большой размерности. 2019, arXiv: 1908.04000 [stat.ML].

13. Мирослав Кордос, Анджей Русецкий. Снижение шумового воздействия на тренировку MLP. Мягкие вычисления. 2015. Т. 20. С. 49-65. DOI: 10.1007 / s00500-015-1690-9. URL: link.springer.com/article/10.1007/s00500-015-1690-9

14. Кордос М., Русецки А. Повышение производительности нейронной сети MLP за счет уменьшения шума. Конспект лекций по информатике. 2013. TPNC, Vol. 8273, pp. 133-144. URL: link.springer.com/chapter/10.1007/978-3-642-45008-2_11

15. Русецкий А. Алгоритм робастного обучения, основанный на итеративном методе наименьшей медианы квадратов. 2012. Neural Process Lett 36 (2): 145-160, URL: link.springer.com/article/10.1007/s11063-012-9227-z

16. Нигш, Флориан; Бендер, Андреас; ван Бюрен, Бернд; Тиссен, Йос; Нигш, Эдуард; Митчелл, Джон Б. О. "Прогнозирование точки плавления с использованием алгоритмов k-ближайшего соседа и оптимизации генетических параметров". Журнал химической информации и моделирования. 2006, 46 (6): 2412-2422. DOI: 10.1021 / ci060149f. PMID 17125183.

17. Холл, Питер; Сэмворт, Ричард Дж., Выбор порядка соседей в классификации ближайших соседей. Анналы статистики. 2008. 36 (5): 21352152. arXiv: 0810.5276. Bibcode: 2008arXiv0810.5276H. DOI: 10.1214 / 07-AOS537. S2CID 14059866.

18. Бремнер, Дэвид; Демейн, Эрик; Эриксон, Джефф; Яконо, Джон; Лангерман, Стефан; Morin, Pat; Туссен, Годфрид Т. Чувствительные к выходу алгоритмы для вычисления границ решения ближайшего соседа. Дискретная и вычислительная геометрия. 2005, 33 (4): 593-604. DOI: 10.1007 / s00454-004-1152-0.

19. Журавлев Ю. И., Рязанов В. В., Сенько О. В. «Распознавание». Математические методы. Программная система. Практические применения. — М.: Фазис, 2006. ISBN 5-7036-0108-8.

References

1. Glushkov V. M., Amosov N. M., Artemenko I. A. Enciklopediya kibernetiki. Statya "Gipoteza kompaktnosti", avtor Shlezinger M. I., p.229. Tom 1. Kiev, 1974, 608 p.

2. Grechuxa E. I. Vostochno-evropejskij zhurnal peredovyx texnologij. 2013, №10. pp.58-60. URL: cyberleninka.ru/article/n/upravlenie-izmeneniyami-na-osnove-gipotezy-kompaktnosti

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

3. Mottr V., Seredin O., Krasotkina O. Gipoteza kompaktnosti, potencial'ny'e funkcii i ispravlenie linejnogo prostranstva v mashinnom obuchenii. [Compactness hypothesis, potential functions and linear space correction in machine learning]. URL: link.springer.com/chapter/10.1007/978-3-319-99492-5_3

4. Chen D., Dzhajn R. 1994. Nadezhnyj algoritm obucheniya metodom obratnogo rasprostraneniya oshibki dlya approksimacii funkcij [Robust backpropagation learning algorithm for function approximation]. IEEE Trans Neural Netw 5 (3): 467-479. PMID: 18267813. DOI: 10.1109 / 72.286917

5. Liano K. (1996) Nadezhnaya mera oshibok dlya kontroliruemogo obucheniya nejronnoj seti s vy'brosami. [A robust measure of error for supervised learning of an outlier neural network]. Transnejronnaya set' IEEE 7 (1): 246-250 PMID: 18255577. DOI: 10.1109 / 72.478411

6. Serxio Santojo. Kratkij obzor metodov obnaruzheniya vy brosov. Chto takoe vy^brosy' i kak s nimi borofsya? [A brief overview of outlier detection methods. What are emissions and how to deal with them?] 2017. URL: towardsdatascience.com/a-brief-overview-of-outlier-detection-techniques-1e0b2c19e561

7. Kampello, Rikardo Dzh. G. B.; Mulavi, Davud; Zimek, Artur; Sander, Jorg, 2015. Ierarxicheskie ocenki plotnosti dlya klasterizacii danny'x, vizualizacii i obnaruzheniya vy'brosov. ACM-tranzakcii pri obnaruzhenii znanij iz danny'x. 10 (1): 1-51. DOI: 10, 1145 2733381. ISSN 1556-4681. S2CID 2887636.

8. Shubert, E'rix; Sander, Jorg; Erster, Martin; Krigel', Gans Peter; Syuj, Syaove'j, 2017. Vozvrashhenie k DBSCAN, povtorenie: pochemu i kak (po-prezhnemu) sleduet ispolzovaf DBSCAN». ACM Trans. Baza dannyx Syst. 42 (3): 19: 1-19: 21. DOI: 10, 1145 3068335. ISSN 0362-5915. S2CID 5156876.

9. Shubert, E'rix; Gess, Sibilla; Morik, Katarina. Svyaz' DBSCAN s matrichnoj faktorizaciej i spektral'noj klasterizaciej (PDF). 2018, Lernen, Wissen, Daten, Analysen (LWDA). pp. 330-334. CEUR-WS.org.

10. Shaffer, Klifford A. Struktury' danny'x i analiz algoritmov v Java (3-e izd. Duvra). [Data Structures and Algorithm Analysis in Java (Dover 3rd ed.)]. 2011, Mineola, N'yu-Jork: Dover Publications. ISBN 9780486485812. OCLC 721884651.

11. Din, Chzhigo; Fej, Minruj. 3-ya Mezhdunarodnaya konferenciya MFB po intellektual'nomu upravleniyu i avtomatizacii. 2013.

12. Dilini Talagala, Priyanga; Gajndman, Rob Dzh; Smit-Majlz, Kejt. Obnaruzhenie anomalij v danny'x bol'shoj razmernosti. 2019, arXiv: 1908.04000 [stat.ML].

13. Miroslav Kordos, Andzhej Ruseczkij. Snizhenie shumovogo vozdejstviya na trenirovku MLP. Myagkie vy'chisleniya. 2015. T. 20. pp. 49-65. DOI: 10.1007 s00500-015-1690-9. URL: link.springer.com/article/10.1007/s00500-015-1690-9

14. Kordos M., Ruseczki A. Povy'shenie proizvoditel'nosti nejronnoj seti MLP za schet umen'sheniya shuma. Konspekt lekcij po informatike. 2013. TPNC, Vol. 8273, pp. 133-144. URL:link.springer.com/chapter/10.1007/978-3-642-45008-2 11

15. Ruseczkij A. Algoritm robastnogo obucheniya, osnovanny'j na iterativnom metode naimen'shej mediany' kvadratov. 2012. Neural Process Lett 36 (2): 145-160. URL: link.springer.com/article/10.1007/s11063-012-9227-z

16. Nigsh, Florian; Bender, Andreas; van Byuren, Bernd; Tissen, Jos; Nigsh, E duard; Mitchell, Dzhon B. O. Zhurnal ximicheskoj informacii i modelirovaniya. 2006, 46 (6): 2412-2422. DOI: 10.1021 ci060149f. PMID 17125183.

17. Xoll, Piter; Se'mvort, Richard Dzh., Annaly' statistiki. 2008. 36 (5): 2135-2152. arXiv: 0810.5276. Bibcode: 2008arXiv0810.5276H. DOI: 10.1214 07-AOS537. S2CID 14059866.

18. Bremner, De'vid; Demejn, E rik; E'rikson, Dzheff; Yakono, Dzhon; Langerman, Stefan; Morin, Pat; Tussen, Godfrid T. Diskretnaya i vy'chislitel'naya geometriya. 2005, 33 (4): 593-604. DOI: 10.1007 / s00454-004-1152-0.

19. Zhuravlev Yu. I., Ryazanov V. V., Sen'ko O. V. «Raspoznavanie». Matematicheskie metody'. Programmnaya sistema. Prakticheskie primeneniya. ["Recognition". Mathematical methods. Software system. Practical applications]. M.: Fazis, 2006. ISBN 5-7036-0108-8.

i Надоели баннеры? Вы всегда можете отключить рекламу.