Научная статья на тему 'Цензурирование обучающей выборки'

Цензурирование обучающей выборки Текст научной статьи по специальности «Математика»

CC BY
582
149
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ФУНКЦИЯ КОНКУРЕНТНОГО СХОДСТВА / КОМПАКТНОСТЬ / ЦЕНЗУРИРОВАНИЕ / FUNCTION OF RIVAL SIMILARITY / COMPACTNESS / CENSORING

Аннотация научной статьи по математике, автор научной работы — Загоруйко Николай Григорьевич, Кутненко Ольга Андреевна

Предлагается количественная мера компактности образов, основанная на использовании функции конкурентного сходства (FRiS-функции). Рассматривается метод цензурирования обучающей выборки путем исключения «шумящих» объектов, что повышает компактность образов и приводит к улучшению качества распознавания контрольной выборки. Состав исключаемых объектов определяется автоматически. Эффективность алгоритма цензурирования иллюстрируется решением модельной задачи распознавания двух образов.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Загоруйко Николай Григорьевич, Кутненко Ольга Андреевна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Training dataset censoring

The proposed method of compactness increasing is based on the new measure of similarity between objects function of rival similarity (FRiS-function) which allows to describe any type of probability distribution with the set of standards. One can estimate contribution of every object of the dataset into compactness of its class, calculate the quantitative measure of compactness of each class separately and compactness of the whole dataset. As well objects, which influence negatively on the compactness value, can be selected. Main idea of proposed method of training dataset censoring consists in removing such objects. As a result the decision rule, constructed on censored dataset, has a better recognition quality. The set of excluded objects is detected automatically. Effectiveness of the censoring algorithm is illustrated by a model task of two classes recognition.

Текст научной работы на тему «Цензурирование обучающей выборки»

ВЕСТНИК ТОМСКОГО ГОСУДАРСТВЕННОГО УНИВЕРСИТЕТА

2013 Управление, вычислительная техника и информатика № 1(22)

УДК 519.95

Н.Г. Загоруйко, О.А. Кутненко

ЦЕНЗУРИРОВАНИЕ ОБУЧАЮЩЕЙ ВЫБОРКИ1

Предлагается количественная мера компактности образов, основанная на использовании функции конкурентного сходства (ЕШБ-функции). Рассматривается метод цензурирования обучающей выборки путем исключения «шумящих» объектов, что повышает компактность образов и приводит к улучшению качества распознавания контрольной выборки. Состав исключаемых объектов определяется автоматически. Эффективность алгоритма цензурирования иллюстрируется решением модельной задачи распознавания двух образов.

Ключевые слова: функция конкурентного сходства, компактность, цензурирование.

Цензурирование обучающей выборки состоит в исключении из нее объектов, которые понижают компактность образов. Это могут быть как «случайные» объекты, свойства которых сильно отличаются от свойств остальных объектов своих образов, так и объекты, находящие в зоне пересечения с объектами других образов. Такие данные разрушают компактность образов и усложняют решающие правила, что ведет к увеличению числа ошибок при распознавании контрольной выборки. Назовем подобные объекты «шумящими» и будем исключать их из обучающей выборки.

Предлагаемый метод повышения компактности основывается на использовании новой меры для оценки сходства между объектами - функции конкурентного сходства, с помощью которой можно описывать любые распределения образов набором эталонных объектов («столпов»). Использование столпов позволяет оценить вклад в компактность образов каждого объекта выборки и получить количественную меру компактности всей совокупности образов или любого отдельного образа, а также выбрать объекты, вносящие отрицательный вклад в компактность образов. В итоге решающее правило, построенное по очищенной обучающей выборке, обеспечивает повышение качества распознавания контрольных объектов.

1. Функция конкурентного сходства

Сформулируем следующие требования, которым должна удовлетворять мера Г(х,а\Ъ) сходства объекта г с объектом а в конкуренции с объектом Ъ.

1. Свойство нормированности. Если оценивается мера сходства объекта г с объектом а в конкуренции с объектом Ъ, то при совпадении объектов г и а мера Г(х,а\Ъ) должна иметь максимальное значение равное 1, а при совпадении г с Ъ -минимальное значение равное -1. Во всех остальных случаях мера конкурентного сходства принимает значения от -1 до 1.

2. Свойство антисимметричности. Значения сходства г с а в конкуренции с Ъ и сходства г с Ъ в конкуренции с а связаны соотношением Г(х,а\Ъ) = -?(г,Ъ\а). При

1 Работа выполнена при финансовой поддержке РФФИ, проект № 11-01-00156.

одинаковых расстояниях r(z,a) и r(z,b) объект z в равной степени будет похожим на объекты a и b и F(z,a|b) = F(z,b|a) = 0.

3 Свойство инвариантности. Значение F(z,a|b) должно сохраняться при аффинных преобразованиях пространства признаков: при сдвиге начала координат, повороте координатных осей, а также при умножении всех координат на одно и то же число.

Предлагаемая нами функция конкурентного сходства FRiS (Function of Rival Similarity) [1]

F (z, a | b) = (1)

r (z, b) + r (z, a)

удовлетворяет всем этим требованиям.

Как расстояния r между объектами, так и сходство F между ними не зависит от аффинных преобразований пространства признаков. Но независимые изменения масштабов разных координат меняют вклад, вносимый отдельными характеристиками в оценку и расстояний, и сходства. Меняя веса характеристик, можно подчеркнуть сходство или различие между заданными объектами, что обычно и делается при выборе информативных признаков и построении решающих правил в распознавании образов.

Сходство в шкале порядка, используемое в методе к ближайших соседей, отвечает на вопрос: «На объект какого образа z похож больше всего?». Конкурентное сходство, измеряемое с помощью FRiS-функции, отвечает на этот вопрос и, кроме того, на такой вопрос: «Какова абсолютная величина сходства z с a е A в конкуренции с b е B ?» Оказалось, что дополнительная информация, которую дает абсолютная шкала по сравнению со шкалой порядка, позволяет существенно улучшить методы анализа данных (АД). Функция конкурентного сходства используется нами в алгоритмах решения широкого круга как известных, так и новых задач АД [2].

Определим меру сходства F(z,A|B) объекта z с образом A в конкуренции с образом B как F(z,a|b), где a (b) - ближайший к z объект образа A(B), т.е. помимо указанных выше свойств мера сходства F(z,A|B) удовлетворяет свойству локальности: F(z,A|B) зависит не от характера распределения всего множества объектов образов A и B, а от особенностей распределения объектов в окрестности z. Окрестностью объекта будем называть сферу минимального радиуса, содержащую объекты анализируемых образов. Отметим, что в зависимости от рассматриваемой задачи образы могут быть представлены как непосредственно своими объектами, так и своими эталонами (столпами).

2. Выбор эталонных объектов

Для распознавания образов необходимо выбрать объекты-эталоны (столпы), c которыми будут сравниваться контрольные объекты. Набор столпов считается достаточным для описания выборки, если сходство F всех объектов обучающей выборки с ближайшими своими столпами в конкуренции с ближайшими объектами других образов превышает пороговое значение F*, например F* = 0 . Здесь описано решающее правило, которое основано на использовании FRiS-функции и строится с помощью алгоритма FRiS-Stolp. Этот алгоритм работает при любом соотношении количества объектов к количеству признаков и при произвольном виде распределения образов.

В качестве столпов выбираются объекты, которые обладают высокими значениями двух свойств: обороноспособности по отношению к объектам своего образа и толерантности по отношению к объектам других образов. Чем выше обороноспособность эталона, тем меньше будет ошибок типа «пропуск цели». Чем выше толерантность эталона, тем меньше будет ошибок типа «ложная тревога». В результате для каждого образа выбираются такие столпы, на которые свои объекты похожи больше, чем на объекты конкурирующих образов.

Алгоритм выбирает эталоны для произвольного количества образов, но объяснять его работу будем на примере распознавания двух образов - А = (а1,..., аМ}

и В = {Ь1,...,ЬМв }, представленных наборами из МА и Мв объектов обучающей

выборки соответственно. Поясним алгоритм РШ8-81о1р с помощью рис. 1.

Рис. 1. Оценка обороноспособности и толерантности объекта ai е А Начнем с выбора первого столпа для образа А.

1. Оценим качество исполнения роли столпа всеми объектами ai, i = 1,...,МА, по очереди. Вначале проверим, хорошо ли объект ai защищает объекты а,, 1 = 1,...,МА , образа А. Для каждого объекта а,, у = 1,.,МА , определим расстояния г (а ., а■) и г (а •, Ь), где Ье В является ближайшим соседом объекта а ■, т. е. 1 = а^ шш г (а,, Ьт), и по формуле (1) получим значение Е (а., а1 | Ьу,) функ-

т=1,...,МВ ■'

ции сходства объекта а, с ai е А в конкуренции с Ь ■ е В (см. рис. 1).

2. Выделим т(а) объектов а, е А, сходство которых с ai не меньше задан-

ного порога Е*: Е+ = Е(а,, а1 | Ь,) - Е* > 0 , у е {1,..., МА }. Эти объекты надежно защищены ai. Получим оценку ) обороноспособности объекта ai:

МА

Ба) = 1 е+Е+>о.

1=1 1

3. Теперь оценим толерантность ai, т. е. меру несходства с ai объектов образа В. Для каждого Ьп е В , п = 1,.,Мв , вычислим расстояния г(Ьп,ai) и г(Ьп,Ьп'),

где Ьп е В - ближайший сосед Ьп . По (1) найдем величину сходства Е(Ьп, Ьп, | а1) объекта Ьп с Ьп, в конкуренции с ai (см. рис. 1).

4. Выделим те объекты образа В, у которых Е~ = Е(Ьп,Ьп, | ai) - Е* < 0, п е{1,МВ}. Эти объекты больше похожи на ai, чем на ближайшие объекты своего образа, что отрицательно влияет на оценку ai. Получим оценку Т (аг-) «не-толерантности» объекта ai:

Мв

Т (а) =Х Е-Еп-<0'

п=1

5. Качество выполнения объектом ai роли столпа образа А оценивается величиной

х (а,.) = Б(а)+т (а,.). (2)

6. Первым столпом образа А становится объект ai, набравший наибольшее значение величины Х(аг-), i = 1,.,МА . Данный столп защищает т(аг-) объектов своего образа.

7. Если в образе А не все объекты надежно защищены выбранным столпом ai, т. е. т(а) <МА , то для оставшихся незащищенными объектов повторяем пункты 1-6, предварительно заменив исходное количество объектов величиной МА - т(аг-). В результате будет выбран следующий столп. Процесс выбора столпов повторяется до момента, когда сходство всех МА объектов образа А со своими столпами будет не меньше порога Е *.

8. Тем же способом выбираются столпы и для образа В.

9. Кластеры возникали поочередно, и формирование состава каждого следующего кластера осуществлялось в условиях «отсутствия» многих исходных объектов. По этой причине делается уточнение состава кластеров: объект включается в кластер, образованный ближайшим к нему столпом своего образа. Теперь каждый из столпов стоит в центре своего кластера, т. е. подмножества объектов, которые на него похожи больше, чем на любой другой столп.

Если количество образов К больше двух, то при построении столпов для образа Ак , к е {1,.., К}, объекты всех остальных образов объединяются в один виртуальный образ Вк = и 4-

i =1,., К i фк

Отметим некоторые особенности алгоритма РШ8-81о1р. Вне зависимости от вида распределения обучающей выборки столпами выбираются объекты, расположенные в центрах локальных сгустков и защищающие максимально возможное количество объектов с заданной надежностью. При нормальных распределениях столпами в первую очередь будут выбраны объекты, ближайшие к точкам мате-магического ожидания. Следовательно, при приближении закона распределения к нормальному решение задачи построения решающих функций стремится к статистически оптимальному. Если распределения полимодальны и образы линейно неразделимы, столпы будут стоять в центрах мод.

Процесс распознавания с опорой на столпы очень прост и состоит в следующем.

1. Находятся расстояния от контрольного объекта г до двух ближайших столпов, принадлежащих разным образам.

2. Объект г будет принадлежать тому образу, чей стоп оказался ближайшим.

3. По данным расстояниям определяется значение функции конкурентного сходства Е объекта с образом. По величине Е можно судить о надежности принятого решения.

Практически все алгоритмы распознавания основаны на использовании гипотезы компактности [3]. К сожалению, строгой формулировки гипотезы и способа количественной оценки компактности образов в литературе нет. Иногда простыми или компактными называются такие образы, которые отделяются друг от друга «не слишком вычурными» границами. Описание образов столпами позволяет предложить количественную меру компактности образов.

Компактность образа зависит от того, насколько сильно его объекты похожи на свои столпы и насколько сильно они отличаются от столпов других образов. Эти две характеристики можно определить для каждого объекта в отдельности и тем самым оценить вклад этого объекта в компактность своего образа [4].

В случае двух образов А = {а1,.,аМ } и В = {Ь1,...,ЬМ } предлагается следующий вариант оценки компактности.

1. С помощью алгоритма РШ8-81о1р строятся с столпов образов А и В: с = сА+сВ, где сА и сВ - число столпов образов А и В соответственно. Обозначим через 1А , 1А с {1,.,МА}, - множество индексов элементов образа А, являющихся столпами.

2. Для каждого элемента ai е А , не являющегося столпом образа А, оценивается сходство со своим ближайшим столпом лА а) в конкуренции с ближайшим столпом &'В (а) образа В. Затем вычисляется компактность образа А в конкуренции с образом В:

3. Аналогично вычисляется величина СщА компактности образа В в конкуренции с А .

4. Далее получим оценку компактности образов А и В как геометрическое усреднение величин СА|В и СВ| А .

Если количество образов К больше двух, то при оценке компактности образа Ак , к е{1,К}, объекты всех остальных образов объединяются в один виртуальный образ Вк. После получения оценок компактности С^^щ , к = 1,... ,К, всех

образов общая оценка их компактности в данном признаковом пространстве может быть получена путем геометрического усреднения данных оценок:

3. Гипотеза компактности

(3)

4. Метод повышения компактности

При построении столпов наряду с объектами, хорошо отражающими структуру образов, принимали участие и шумящие объекты и даже мелкие кластеры таких объектов, влияние которых было бы целесообразно исключить. Для их цензурирования можно применять алгоритм РШ8-Сошрас1ог, использующий в качестве критерия, управляющего процессом повышения компактности обучающей выборки, меру РШ8-компактности образов и включающий как составную часть алгоритм РШ8-8іоір.

Опишем алгоритм РШ8-Сошрайог на примере двух образов А и В, представленных наборами из МА и МВ объектов, М = МА + МВ. Компактность образов

С вычисляется по формулам (3), (4). Через М* обозначим число объектов обучающей выборки, оставшихся после очередного этапа сокращения выборки. Ве-

личину

M /

а > 0, будем использовать в качестве штрафа за исключение

объектов из обучающей выборки. С учетом этого компактность НАВ образов на каждом шаге сокращения выборки будем оценивать следующим образом:

HAB =

v М

-\ICA\BCBIA . (З)

Выбор оптимального значения параметра а осуществляется путем сравнения результатов работы алгоритма FRiS-Compactor при разных значениях а. Определим пороги сокращения обучающей выборки: 0 < d < 1 - максимальная доля объектов обучающей выборки, которые можно исключить; m - максимальное количество объектов в удаляемом кластере. Положим M* = M .

1. Алгоритмом FRiS-Stolp строятся столпы, стоящие в центрах своих кластеров. По формуле (5) вычисляется компактность HAB образов и заносится в спи*

сок оценок компактности. Если M -M = dM , то переход на пункт 7.

2. Кластеры с количеством объектов m < m* заносятся в список из L кластеров - кандидатов на удаление. Если в выборке нет таких кластеров, то переход на пункт 7. Через l = 1,...,L обозначим номер кластера в сформированном списке. Положим l = 1.

3. Из выборки исключается l-й кластер, который входит в список и состоит из m(l) объектов. Для оставшихся объектов алгоритмом FRiS-Stolp строятся столпы и вычисляется компактность HAB (l). Элементы l-го кластера возвращаются в выборку. Положим l := l+1. Если l < L, то пункт 3 повторяется.

4. После прохода всех L кластеров списка выбирается кластер l*, исключение которого обеспечивало максимальное значение компактности HAB (l):

l* = arg max HAB (l).

Z=1,...,L

5. Если при исключении кластера l* оказывается превышен порог сокращения обучающей выборки, т. е. M -M* + m(l*) > dM, то переход на пункт 7.

6. Объекты I* -го кластера удаляются из выборки, корректируется количество элементов, оставшихся после сокращения выборки. Переход на пункт 1.

7. По списку оценок компактности выбирается вариант, соответствующий максимуму величины НАВ . Набор столпов, который был зафиксирован при этом,

служит основой решающего правила, используемого для распознавания контрольной выборки. Алгоритм заканчивает работу.

5. Тестирование алгоритма РШ8-Сошрас1ог

Алгоритм тестировался на модельной задаче распознавания двух образов, каждый из которых представлял собой суперпозицию нескольких (от 2-х до 4-х) нормально распределенных кластеров в двумерном пространстве признаков. Рассматривалось 10 распределений, которые отличались друг от друга дисперсией кластеров, координатами их математических ожиданий и количеством объектов в кластерах, что отражалось на величине РШ8-компактности образов. Каждый образ был представлен 250 объектами. При каждом распределении выборка 100 раз случайным способом делилась на две части: обучающую (по 50 объектов первого и второго образов) и контрольную (по 200 объектов каждого образа). Таким образом, общее количество экспериментов при различных численных реализациях исходных данных было равно 1000. Максимальное число элементов в удаляемом кластере т = 4, допустимая доля исключаемых объектов ё = 0,15, т. е. из 100 объектов обучающей выборки разрешалось удалять не более 15 объектов.

По результатам машинного эксперимента было найдено, что оптимальное значение а равно 5. Эксперименты показали, что повышение компактности обучающей выборки более чем в 99 % случаев приводит к повышению качества распознавания. Очищенная выборка описывается более простым решающим правилом, что повышает надежность распознавания контрольных объектов.

Обобщенные результаты распознавания контрольной выборки приведены на рис. 2. По оси ординат отложено абсолютное число экспериментов N (из 1000), в которых была достигнута данная надежность Р(%). Кривая 1 соответствует надежности без цензурирования, среднее значение равно 91,6 %. Кривая 2 соответствует надежности распознавания с использованием цензурирования. Здесь среднее значение равно 95,9 %. Количество ошибок уменьшилось более чем в два раза.

75 85 95 Р, %

Рис. 2. Распределения надежности распознавания контрольной последовательности

Трудоемкость алгоритма зависит от исходной компактности образов Н0. Чем выше Н0, тем короче список из L претендентов на исключение и тем меньше времени требуется для выбора наилучшего варианта цензурирования. Однако при одном и том же значении Н0 при разных распределениях образов доля исключенных объектов d , при которой достигалось максимальное значение компактности образов, меняется в очень больших пределах и предсказать значение d по величине Н0 невозможно. Среднее по 1000 экспериментам значение d было равно 12,7 %.

Заключение

В работе рассматривается количественная мера компактности образов, основанная на функции конкурентного сходства. Показана полезность применения данной меры сходства для решения задачи цензурирования обучающей выборки. Эффективность предлагаемого метода повышения компактности образов иллюстрируется решением модельной задачи распознавания двух образов. Как показали эксперименты, удаление шумящих объектов из обучающей выборки заметно улучшает результаты распознавания контрольных объектов. Поэтому рекомендуется применять цензурирование выборки при построении решающих правил в задачах распознавания образов.

ЛИТЕРАТУРА

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

1. Zagoruiko N.G., Borisova I.A., Dyubanov V.V., Kutnenko O.A. Methods of recognition based on the function of rival similarity // Pattern Recognition and Image Analisys. 2008. V. 18. No. 1. P. 1-6.

2. Borisova I.A., Dyubanov V.V., Kutnenko O.A., Zagoruiko N.G. Use FRiS-function for taxonomy, attribute selection and decision rule construction // Knowledge Processing and Data Analysis. Berlin - Heidelberg: Springer-Verlag, 2011. P. 256-270.

3. Браверман Э.М. Эксперименты по обучению машины распознаванию зрительных образов // Автоматика и телемеханика. 1962. Т. 23. № 3. С. 349-365.

4. Загоруйко Н.Г., Борисова И.А., Дюбанов В.В., Кутненко О.А. Количественная мера компактности и сходства в конкурентном пространстве // Сибирский журнал индустриальной математики. 2010. Т. XIII. № 1(41). С. 59-71.

Загоруйко Николай Григорьевич Кутненко Ольга Андреевна

Институт математики им. С.Л. Соболева СО РАН (г. Новосибирск)

E-mail: zag@math.nsc.ru; olga@math.nsc.ru Поступила в редакцию 4 мая 2012 г.

Zagoruiko Nikolay G., Kutnenko Olga A. (Sobolev Institute of Mathematics of Siberian Branch of the Russian Academy of Sciences). Training dataset censoring.

Keywords: function of rival similarity, compactness, censoring.

The proposed method of compactness increasing is based on the new measure of similarity between objects - function of rival similarity (FRiS-function) - which allows to describe any type of probability distribution with the set of standards. One can estimate contribution of every object of the dataset into compactness of its class, calculate the quantitative measure of compactness of each class separately and compactness of the whole dataset. As well objects, which influence negatively on the compactness value, can be selected. Main idea of proposed method of training dataset censoring consists in removing such objects. As a result the decision rule, constructed on censored dataset, has a better recognition quality. The set of excluded objects is detected automatically. Effectiveness of the censoring algorithm is illustrated by a model task of two classes recognition.

i Надоели баннеры? Вы всегда можете отключить рекламу.