Научная статья на тему 'ОБОБЩЕННЫЙ АЛГОРИТМ ОПРЕДЕЛЕНИЯ МАКСИМАЛЬНОГО КОЛИЧЕСТВА РАСПОЗНАВАЕМЫХ КЛАСТЕРОВ В НЕТОЧНЫХ ДАННЫХ'

ОБОБЩЕННЫЙ АЛГОРИТМ ОПРЕДЕЛЕНИЯ МАКСИМАЛЬНОГО КОЛИЧЕСТВА РАСПОЗНАВАЕМЫХ КЛАСТЕРОВ В НЕТОЧНЫХ ДАННЫХ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
87
14
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
кластеризация / неточные данные / результаты измерений / трансформация погрешности / метрологическое автосопровождение / clustering / inaccurate data / measurement results / uncertainty propagation / metrological auto-tracking

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Больщиков Виталий Андреевич, Семенов Константин Константинович

В работе представлен обобщенный алгоритм определения максимального количества кластеров, в принципе распознаваемых при обработке неточных данных с учетом их неопределенности. Соответствующая процедура обеспечивает возможность оценки наибольшего числа групп в структуре анализируемой совокупности кластеризуемых векторов. Представленный алгоритм может быть применен к произвольным алгоритмам кластеризации и обобщает ранние результаты авторов.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

GENERALIZED ALGORITHM FOR DETERMINING THE MAXIMUM NUMBER OF CLUSTERS RECOGNIZED IN INACCURATE DATA

The paper presents a generalized algorithm for determining the maximum number of clusters, in principle, recognized when processing inaccurate data, taking into account their uncertainty. The corresponding procedure makes it possible to estimate the largest number of groups in the structure of the analyzed set of clustered vectors. The presented algorithm can be applied to arbitrary clustering algorithms and generalizes the early results of the authors.

Текст научной работы на тему «ОБОБЩЕННЫЙ АЛГОРИТМ ОПРЕДЕЛЕНИЯ МАКСИМАЛЬНОГО КОЛИЧЕСТВА РАСПОЗНАВАЕМЫХ КЛАСТЕРОВ В НЕТОЧНЫХ ДАННЫХ»

УДК 621.3.088+004.9

doi :10.18720/SPBPU/2/id21 -402

Больщиков Виталий Андреевич1,

аспирант;

Семенов Константин Константинович1,

доцент

ОБОБЩЕННЫЙ АЛГОРИТМ ОПРЕДЕЛЕНИЯ

МАКСИМАЛЬНОГО КОЛИЧЕСТВА РАСПОЗНАВАЕМЫХ КЛАСТЕРОВ В НЕТОЧНЫХ ДАННЫХ

1 2

' Россия, Санкт-Петербург, Санкт-Петербургский политехнический

университет Петра Великого,

Высшая школа киберфизических систем и управления, 12 vitaliy.bolschikov@gmail.com, semenov.k.k@iit.icc.spbstu.ru

Аннотация. В работе представлен обобщенный алгоритм определения максимального количества кластеров, в принципе распознаваемых при обработке неточных данных с учетом их неопределенности. Соответствующая процедура обеспечивает возможность оценки наибольшего числа групп в структуре анализируемой совокупности кластеризуемых векторов. Представленный алгоритм может быть применен к произвольным алгоритмам кластеризации и обобщает ранние результаты авторов.

Ключевые слова: кластеризация, неточные данные, результаты измерений, трансформация погрешности, метрологическое автосопровождение.

Vitaly A. Bolschikov1,

PhD student;

Konstantin K. Semenov2, Associate Professor, Candidate of Technical Sciences

GENERALIZED ALGORITHM FOR DETERMINING THE MAXIMUM NUMBER OF CLUSTERS RECOGNIZED

IN INACCURATE DATA

1 2

' Peter the Great St. Petersburg Polytechnic University,

Higher School of Cyber-Physical Systems and Control, St. Petersburg, Russia,

12 vitaliy.bolschikov@gmail.com, semenov.k.k@iit.icc.spbstu.ru

Abstract. The paper presents a generalized algorithm for determining the maximum number of clusters, in principle, recognized when processing inaccurate data, taking into account their uncertainty. The corresponding procedure makes it possible to estimate the largest number of groups in the structure of the analyzed set of clustered vectors. The presented algorithm can be applied to arbitrary clustering algorithms and generalizes the early results of the authors.

Keywords, clustering, inaccurate data, measurement results, uncertainty propagation, metrological auto-tracking.

Введение

Кластеризация является одной их самых часто используемых операций при анализе количественных данных, закономерности в значениях которых неизвестны. Применение данной операции позволяет выявить в структуре обрабатываемой числовой совокупности группы и тем самым ввести на их основе классификацию. В случае, если анализируемые данные являются неточными, то существует риск распознать как отдельный кластер результат реализации случайных погрешностей — естественное распределение векторов в кластеризуемой совокупности смешивается с распределением их погрешностей, что приводит к возникновению искажений. Это обстоятельство ярко иллюстрирует необходимость принимать во внимание сведения о неопределенности обрабатываемой информации: оценив предельное количество кластеров, которое в принципе может быть выявлено в анализируемой совокупности данных из-за присутствия случайных погрешностей, можно сделать вывод о том масштабе рассмотрения ее структуры, которого удалось достичь. Указанная операция защитит от необоснованных выводов и позволит согласовать результаты кластеризации с точностью исходных данных. Настоящая работа продолжает цикл ранее выполненных работ авторов [1-3] и предлагает обобщенный подход к определению максимального количества распознаваемых кластеров в неточных данных, применимый к любому алгоритму кластеризации.

При выполнении кластеризации получаемые результаты и их качество зависят от применяемого алгоритма выделения групп, от структуры самих исходных данных и их точности. Если первые две причины, как правило, принимаются во внимание при планировании кластеризации и отражаются в выборе метода ее проведения, то последняя обычно не учитывается или учитывается в очень ограниченном объеме сведений. Вместе с тем, как было показано авторами настоящей работы ранее [1, 2], пренебрежение неточностью обрабатываемых данных приводит к переоценке качества получаемых результатов и завышению количества кластеров, которые могут быть в принципе распознаны в кластеризуемой совокупности. Вместе с тем учет погрешностей исходных данных позволяет упростить процедуру кластеризации и накладывает естественные ограничения на возможные выводы, формируемые по результатам разбиения данных на группы. В частности — не отыскивать кластеры, которые отвечают уровню детализации структуры в данных, которая не обеспечивается точностью их получения.

1. Кластеризация неточных данных

Важность учета неточности кластеризуемых данных и ее влияние на результаты удобно проиллюстрировать графическим примером. На рисунках 1 и 2 представлены примеры, демонстрирующие, как изме-

няется представление о количестве кластеров в двумерных данных с принятием во внимание того, насколько эти данные неточны.

Кажущееся естественным разделение обрабатываемых точек на плоскости на группы, отмеченное на рисунках 1а и 2а, оказывается на самом деле вызвано реализацией погрешностей при измерении их координат, а не является следствием их реального распределения на плоскости (Рис. 1б и Рис. 2б). Предполагаемое разбиение на кластеры в случае, когда сведениями о погрешности пренебрегают (Рис. 1а и Рис. 2а), таковым на самом деле не является. Количество кластеров, которые можно выделить/обнаружить/ распознать в данных на самом деле оказывается меньшим, поскольку кажущиеся различия между точками обрабатываемых совокупностей на самом деле объясняются не систематически действующими причинами (что, предполагается, и формирует структуру кластеров), а погрешностями выполненных измерений и только ими (Рис. 1б и 2б). Если структура данных и имеет число кластеров, большее чем 2 для Рис. 1б или 1 для Рис. 2б, то выполненные измерения не обеспечивают достаточной точности, чтобы ее обнаружить.

а) кл аст ер и з ац ия д ан ных б ) кл аст ер и з ац ия т ех же д ан ных

с уч ет о м их п о гр ешн о ст и

оез учета их и о гр ешн ост и Ж у

/чу

Xх /

X /

X X X X V

X А

Рис. 1. Результаты кластеризации неточных данных без (а) и с учетом (б) сведений об их погрешности

Рис. 2. Результаты кластеризации неточных данных без (а) и с учетом (б) сведений об их погрешности

Данный пример иллюстрирует то обстоятельство, что учет погрешностей обрабатываемых при кластеризации данных, обеспечивает возможность получить естественную границу для максимального количества распознаваемых кластеров, что является чрезвычайно важной задачей при кластеризации и для случая данных, обрабатываемых без учета их неопределенности, решения не имеет.

Другим важным следствием принятия во внимание сведений о неточности анализируемых данных является возможность оценить, достаточно ли оснований считать результаты кластеризации адекватными тем данным, что подвергаются обработке, или нет. Данное обстоятельство имеет особое значение при разработке новых алгоритмов кластеризации, когда требуется осуществить проверку результатов их работы. Если принимать во внимание погрешности обрабатываемой совокупности векторов, то появляется возможность сравнительно простого построения тестовых примеров, на которых следует проверять и опробовать новые подходы к кластеризации для формирования выводов об их особенностях. Варьирование погрешностей модельных данных позволяет исследовать асимптотические свойства методов разделения на группы, которые должны быть одинаковы и не должны зависеть от идей, положенных в их основу.

Для любых — самых разных, — алгоритмов кластеризации имеет место асимптотически проявляющееся свойство: вне зависимости от принципов и постулатов, положенных в основу их работы, для совокупности неточных данных, неопределенность чьих значений сопоставима с их разбросом, результаты кластеризации оказываются одинаковыми. Данное свойство может и должно быть использовано как своеобразный эталонный тест при исследовании новых алгоритмов кластеризации неточных данных.

2. Формализация задачи определения максимального

количества кластеров, распознаваемых в неточных данных

Для описания существа предлагаемого обобщенного алгоритма и сути производимых в нем операций будем использовать следующие обозначения.

Пусть в ходе кластеризации должны быть получены кластеры сходных состояний некоторого исследуемого объекта, выделенные в пространстве параметров, описывающих его состояние. Пусть в результате исследований получены количественные сведения, соотнесенные с рядом состояний объекта, которые обозначим как югеП, где О — множество всех возможных состояний объекта, а индекс I = 1, 2, ... Ь.

Пусть Ху = — подлежащая математической обработке информация, поступающая от средств измерений, размещенных на объекте, находящемся в состоянии юг-, или от других источников в моменты вре-

мени t = tj, где j = 1, 2, ... M. Пусть, например, в каждый момент времени получаем выборки по m значений от n средств измерений. Тогда XiJeRnxm. Различные строки матрицы Xj по сути дела содержат количественные данные о различных характеристиках состояния исследуемого объекта. С помощью математической обработки из совокупности Xi ={Xц,Xi2,..., Xм} можно выделить или вычислить значения YieRk для k наиболее информативных параметров описания его состояния.

Обозначим как Х множество всех возможных значений Xj, а через Y — множество всех возможных значений векторов Yi.

Задача кластеризации заключается в том, чтобы каждый вектор Y,, а, значит, опосредованно и состояние изучаемого объекта, сопоставить определенному обнаруженному кластеру. Тогда каждому вектору Yi ставится в соответствие кластер под номером f (Yi, a), f— целочисленная

функция, такая, что f (Yi, a)< N для всех Yi eY, вектор а содержит параметры функции f Обозначим как c вектор полученных значений (f (Yi, a), f (Y2, a),..., f (Yn , a))T, а множество всех возможных значений с

как С. Очевидно, что c e NL. Функция f по сути дела отражает существо алгоритма кластеризации и осуществляет отображение Y^-С.

Таким образом, подытоживая, основные этапы выполнения кластеризации описываются последовательностью отображений Q^X^Y^C.

Пусть максимальное количество кластеров, на которое должно быть разумно разбито множество состояний исследуемого объекта О, обозначено как кКист. Данное понятие пояснено на Рис.4а. Пусть максимальное количество кластеров, на которое используемый алгоритм кластеризации может разбить обрабатываемые данные {Y1, Y2, ..., YL}, извлеченные из Y, обозначено как Kmax. Иными словами, в множестве Y должно найтись как минимум одно такое подмножество мощностью L элементов, которое, будучи передано в алгоритм кластеризации, будет им разбито ровно на Kmax кластеров. При этом в Y не найдется ни одного другого подмножества той же мощности, которое оказалось бы разделено на число кластеров K > Kmax, или, что то же самое, для любого конкретного набора векторов {Y1, Y2, ..., YL} количество выделенных кластеров

K = max f (yi , a)< Kmax . i

Заметим, что не всегда Кист и Kmax — это одно и то же число. Как правило, K^ << L. Действительно, сама по себе процедура кластеризации предполагает, что у нас есть возможность объединить сходные состояния исследуемого объекта в группы. Следовательно, количество различимых состояний объекта обычно больше количества выделяемых кластеров. При рациональном использовании алгоритма кластеризации значение Kmax же определяется в первую очередь составом обрабатывае-

мых данных. Как следствие, значение Ктах оказывается больше Кист — теоретически в отдельных особо неудачных ситуациях Ктах может даже оказаться равным Ь, что лишает кластеризацию практической ценности. Соответствующий поясняющий пример представлен на Рис.4б-г.

Исходные данные

б) уа)

и результаты кластеризации, ^ \2 при которой обнаружено К' ■ ^иш кластеров

хххх хх^хх Х^с

Множество возможных а) исходных данных

ж Л

а

извлечение конкретного набора исходных данных У,€ V

Ф

В)

^ V

^ КГ.Т 4

ф Л,

К= 2

Исходные данные

Ъ=(Уи1> Л2>

н результаты кластеризации, ¡,2 при которой обнаружено К = КШТ кластеров

А" — А нет

Исходные данные

Л 2)

и результаты кластеризации, ^ ^ -42 при которой обнаружено А'тал кластеров

£

Рис. 4. Пример применения кластеризации, поясняющий введенные обозначения

Если обрабатываемая совокупность имеет достаточно большой размер Ь, то справедлива оценка: Кист < Ктах < Ь.

Если оценить величину Кист можно только лишь наращиванием объема обрабатываемых данных (Ь ^ да), то оценка Ктах может быть получена и имитационным моделированием на основе ограниченного набора

исходных данных (L < да) — перебором всех возможных наборов исходных данных на основе как собственно их самих (техники типа бутстреп-анализа [3]) либо на основе априорных сведений или рациональных предположений о характере распределения обрабатываемых данных. Первый вариант позволяет оценить значение Kmax для размеров выборок, меньших, чем L, а второй вариант — непосредственно для размера L. Таким образом, величина Kmax является функцией L:

Kmax Kmax(L).

Данное обстоятельство наводит на мысль о том, что раз значение Kmax зависит от объема обрабатываемых сведений, то целесообразным было бы иметь возможность получать индивидуальные оценки ее значений: и для каждого конкретного набора обрабатываемых исходных данных. Подобная «индивидуализация» результатов повышает обоснованность выводов, производимых на основе кластеризации. Такая оценка позволяла бы строить утверждения наподобие следующего: в данном обрабатываемом наборе исходных данных с применением указанного алгоритма кластеризации нет возможности обоснованно выделить число кластеров, большее указанного значения.

Качество результатов кластеризации определяется заданной метрикой, определяющей, как правило, меру схожести тех векторов Уг-, что оказались соотнесены с одним и тем же кластером, т. е. тех векторов, для которых оказалось одинаковым значение функции f. Обозначим значение данной метрики как R (квадрат указывает на неотрицательное значение данной метрики, а выбор буквы R — на то, что смысл данной величины синонимичен понятию расстояния [4]). Чем меньше значение R , тем ближе вектора Уг- к центру кластера, к которому они оказались отнесены. Очевидно, что при K = 1 значение R достигает своего наибольшего значения, а при K = L — наименьшего (т. е. R = 0). Из этого следует, что значение величины R2, как правило, может выступать в качестве минимизируемого функционала при кластеризации только при определенных ограничениях — например, при априорном задании пользователем количества отыскиваемых кластеров K. В таком случае наиболее удачное разделение обрабатываемых данных на кластеры соответствует ситуации, когда достигается минимум значение R . Вектор с тогда является решением оптимизационной задачи

c = arg min R2 .

c

Как было отмечено выше, исходными данными Xj для кластеризации выступают количественные данные, поступившие от средств измерений. Следовательно, они неточны и характеризуются неопределенностью (той или иной). Обозначим как 8Xy пределы возможных значений, в которых может находиться значение Xj.

Выполнение математической обработки, предваряющей процедуру кластеризации, приводит к получению значений Уи которые, являясь результатами вычислений с неточными данными, также оказываются искажены погрешностью. Обозначим как 5У| те пределы возможных значений, в которых может находиться действительное значение Уг-. Пределы 8У| определяются тем, как области неопределенности возможных значений исходных данных Ху трансфомируются в ходе выполнения математической обработки:

(хI ^ У) ^ (6Х, ^ бУг).

Отсутствие учета неопределенности обрабатываемых данных приводит к переоценке значимости получаемых результатов обработки. В случае задачи кластеризации это может приводить, например, к получению более сложной структуры кластеров, чем та, что в действительности может быть выделена. Ранее в работах [1-2] было показано, что учет погрешности исходных данных естественным образом позволяет оценить максимальное количество кластеров, различимых для данного конкретного набора исходных данных. Представленная в этих публикациях процедура позволяет строить оценки кт ах сверху для Ктах, а, следовательно, и для Кист. Конечно, значение такой оценки — это не то же самое, что собственно само значение Кист, но получение значения ктах позволяет по сути дела получить интервальную оценку для Кист:

Кист е [ ^ Ктах ] .

Удивительно, но данное обстоятельство позволяет нам говорить об «измерении» значения Кист и распространении на получаемый «результат измерений» требований обеспечения единства измерений. Кроме того, если сейчас по сути дела значение количества кластеров К оценивается как экспертная оценка, то приведенные выше соображения позволяют перевести ее в область объективных измерений. Вспоминая известный афоризм Галилео Галилея «Измеряй измеримое и делай неизмеримое измеримым», можно констатировать, что построение Кт ах есть как раз перевод ранее неизмеримой величины в измеримую. Выбор алгоритма кластеризации в таком случае родственен выбору метода измерения (от которого, как известно в метрологии, зависит точность получаемого результата).

Также просматривается аналогия с оценками математической статистики — и даже не в том смысле, что Ктах есть случайная величина, поскольку построена по случайной выборке исходных данных Х| из Х, а в том, что если сейчас практика решения задач кластеризации максимум позволяет получить точечную оценку значения Кист, то использование Ктах позволяет построить доверительный интервал (интервальную

оценку), что является гораздо более важным для принятия дальнейших решений.

Рассмотренная ранее в упомянутых публикациях [1-2] процедура позволяла оценить значение Kmax только для тех алгоритмов кластеризации f, среди параметров а которых было и назначаемое пользователем количество кластеров K, которое нужно выделить в обрабатываемых данных. Ниже представлен обобщенный алгоритм для оценки Kmax, пригодный для случая, когда значение K не задается напрямую, а неявно зависит от параметров а алгоритма кластеризации: K = K(a).

3. Обобщенный алгоритм определения максимального

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

количества кластеров, распознаваемых в неточных данных

Для построения оценки Kmax по имеющемуся набору векторов полученному из исходных данных Хг-, предлагается использовать следующую процедуру.

Пусть 8a — множество возможных значений параметров а функции f соответствующей выбранному алгоритму кластеризации. Если мощность |8a| = да, то введем на 8a конечную сетку дискретизации (например, задающую равномерное покрытие на 8a, если 8a — ограниченное) и получим набор значений aq, где индекс q пробегает значения q = 1, 2, ..., Q. Величина Q с одной стороны не должна быть очень малой, чтобы покрытие было бы репрезентативным, а с другой ее величину сверху ограничивают требования к вычислительной сложности и время- и трудозатратам на выполнение расчетов. Для уменьшения значения Q покрытие aq может быть взято и с применением случайного выбора, т. е. с использованием методов типа Монте-Карло.

Для каждого aq следует выполнить расчеты, соответствующие кластеризации, получить значения Kq = max f (у , aq) и метрики качества

i

2 2

R = Rq . С учетом того, что значения Уг- известны с неопределенностью,

следует определить множество возможных значений числа кластеров, выделяемых используемым алгоритмом кластеризации, соответствующее возможным значения У t из 8Уг-:

5Kq = max f (бу , aq ) .

Для каждого значения Kr из 8Kq, r = 1, 2, .. ,|8Kq|, следует определить

y^ —-ч

2

значение метрики Rq (Kr) качества выполненной кластеризации следует

2

оценить границы его возможных значений ЪRq (К), определяемые областью 8Уг-. Пусть 6R\ — множество ^2(К0, 5R2(K2), ..., 5R2(К|8К^)}.

Очевидно, что множества 8Кд образованы натуральными числами. Отметим, что не всегда множества 8Кд представляют собой участок

натурального ряда из идущих подряд его членов. Возможно, что алгоритм кластеризации таков, что для различных наборов У.г- исходных данных из области их возможных значений 8Уг- он будет выделять либо 2, либо 4 кластера, но в 8Уг- не найдется такого элемента, который приведет к выделению 3 кластеров.

Таким образом, в качестве результатов получается последовательность следующих упорядоченных троек:

ai a2 аз aO

SKi SK2 SK3 SKq

6R2 SR 2 SR 2 SR O

Теперь для построения оценки КШах в данной последовательности следует построить такую подпоследовательность максимальной длины, которая удовлетворяла бы следующим условиям.

1. Подпоследовательность должна быть составлена из значений ку (у =1, 2, ...) количества кластеров К, начиная от наименьшего среди значений, содержащихся среди 8Кч, и продолжая следующим значением из 8Кч, наиболее близким к предыдущему. То есть

к\ = шт{К : К е 5Кд },

ч

к2 = шт{К: К е 8Кд, К > кх},

ч

к3 = шт{К : К е дКд, К > к2},

ч

kv = min{K : K е 8Kq, K > kv-i},

q

Обозначим значения индекса q, соответствующие элементам данной последовательности как qv. Отметим, что одно и то же значение kv может содержаться не в единственном множестве SKq, а сразу в нескольких, поэтому подобных подпоследовательность может быть больше одной. Длина подпоследовательности ограничена сверху значением

Kmax = max{K: K е 5Kq} — наибольшим значение выделенных кластеров

q

среди всех множества SKq.

2. Подпоследовательность должна быть таковой, что будут выполняться условия

5R2 (kv W 5R2 (kv-1W ... a 5R2 (k2 W 5R2 (k1),

qv qv-\y V u qiy 2' qiv u

5R2 (kv+1 V 5R2 (kv ),

qv+l V V + U qvy v '

где V — длина подпоследовательности.

Данное условие соответствует естественному критерию: если увеличение числа кластеров, выделяемых в обрабатываемых данных, не увеличивает качества кластеризации (на это указывает условие 8Rq2 (kV+! SR^ (kV), свидетельствующее, что для числа кластеров kV и

kV+1 качество кластеризации оказалось в условиях неопределенности исходных данных неотличимым друг от друга).

3. Подпоследовательность должна иметь наибольшую возможную длину.

Если подпоследовательность удовлетворяет всем данным требованиям, то тогда искомая индивидуальная оценка максимального количества распознаваемых кластеров для заданного набора исходных данных с учетом их неопределенности будет составлять

K max = kV .

Поиск одной из подпоследовательностей, удовлетворяющей указанным требованиям, может быть произведен с применением одного из известных приближенных алгоритмов решения схожих задач поиска квазиоптимального пути: алгоритма по типу алгоритма Витерби, алгоритма по типу DTW (Dynamic Time Warping) и других.

Подытоживая, представим предложенный алгоритм с помощью псевдокода.

Дано: совокупность векторов Уг-, I = 1, 2, ... Ь, подлежащих кластеризации и область их возможных значений 8Уг-, вызванная неопределенностью исходных данных;

выбранный алгоритм кластеризации /У, а), сопоставляющий каждому вектору Уг- номер соответствующего ему кластера и зависящий от вектора параметров а, среди которых нет числа выделяемых кластеров К; множество 8а возможных значений параметров а.

1. Построить покрытие а.д над множеством 8а, индекс д = 1, 2, ... Q.

2. Присвоить д := 1.

3. Выполнить кластеризацию и определить с учетом неопределенности 8УЬ множество возможных распознаваемых кластеров 8Кд, а также интервал возможных значений метрики качества кластеризации ЪRq (К)

для каждого значения Кг из 8Кд, г = 1, 2, .. ,|8Кд|.

4. Присвоить д := д+1.

5. Если д > Q, то перейти к шагу 6. В противном случае — перейти к шагу 3.

2 2

6. Выделить в последовательностях пар (8КЬ SRl ), (8К2, SR2 ), ... (8^, 5RQ) такую подпоследовательность троек (к1, д1, ЪЯ^ (к1)),

(k2, q2, ЪЕг (k2)), ... (kV, qV, (kV)) максимальной длины, которая бы

удовлетворяла бы требованиям:

k1 = min{K : K е 5Kq},

q

к2 = min{K : K е 5Kq, K > kj ,

q

ky = min{K : K е 5Kq, K > kv_i} ,

q

5R2 (kV )t 5R2 (kV-1 )t... t 5R2 (k2)t 5R2 k), qy qV-iK V 1 q2K 2/ qiv 1

но 5R2 (kV+i )c 5R2 (kV ).

qV+iy V +u qVy V '

Здесь qv — номер того вектора параметров а алгоритма кластеризации, с применением которого было выявлено данное количество кластеров kv, V — длина последовательности.

Возможно применение одного из трех методов:

- простого перебора (Brute Force),

- алгоритма динамического деформации времени (Dynamic Time Warping),

- метода максимального правдоподобия (алгоритма типа Витерби).

7 Kmax : = kV .

Данный алгоритм был опробован авторами на большом количестве различных алгоритмов кластеризации — методе к-средних, иерархической кластеризации, алгоритме DBSCAN, кластеризации с применением самоорганизующихся карт Кохонена и других — на разных модельных и реальных данных при разной точности обрабатываемых данных. Полученные результаты свидетельствуют в пользу полученного алгоритма и указывают на достоверность получаемых с его помощью результатов.

Заключение

Анализ преимущественно используемых на практике алгоритмов кластеризации показывает, что в подавляющем большинстве разделение исходных данных на подмножества производится без согласования с их метрологическими характеристиками. Показано, что учет точности обрабатываемых данных приводит к возникновению возможности естественной оценки максимального количества кластеров, распознаваемых в данных, что представляет собой крайне важную задачу для практики применения кластеризации. В данной работе представлен обобщенный алгоритм построения такой оценки.

Список литературы

1.Больщиков В.А., Семенов К.К. Кластеризация сигналов измерительной информации с учетом их метрологических характеристик. // Сборник научных трудов 6-ой Всероссийской научно-практической конференции «Измерения в современном мире - 2017». Санкт-Петербург, 6 - 7 июня 2017 года. - СПб: Изд-во Политехн. унта. - С. 130-134.

2. Semenov K.K., Bolschikov V.A. The metrologically reasonable clustering of measurement results. // Joint IMEKO TC1-TC7-TC13-TC18 Symposium 2019, 2-5 July 2019, St. Petersburg, Russia. Journal of Physics: Conference Series. - 2019. -Vol. 1379. No 1. - Paper 012054.

3. Vourlaki I., Balas C., Livanos G., Vardoulakis M., Giakos G., Zervakis M. Bootstrap clustering approaches for organization of data: Application in improving grade separability in cervical neoplasia. // Biomedical Signal Processing and Control. - 2019. -Vol. 49. - Pp. 263-273.

4. Сивоголовко Е.В. Методы оценки качества четкой кластеризации. // Информационные системы. - 2011. - № 4. - С. 14-31.

УДК 53.088

ёо1:10.18720^РВРи/2М21 -403

Гаранин Владимир Александрович1,

ассистент

НЕПАРАМЕТРИЧЕСКИЕ ММП ОЦЕНКИ В ЗАДАЧАХ СОГЛАСОВАНИЯ РЕЗУЛЬТАТОВ ИЗМЕРЕНИЙ ВЗАИМОСВЯЗАННЫХ ВЕЛИЧИН

1Россия, Санкт-Петербург, Санкт-Петербургский Политехнический университет Петра Великого,

garanin_va@spbstu.ru

Аннотация. Настоящая работа содержит обзор методов непараметрической статистики в контексте решения задачи согласовании между собой совместных измерений взаимосвязанных физических величин. Под согласованием измерений подразумевается получение таких оценок методом максимального правдоподобия (ММП) значений искомых величин, которые не противоречат априорным сведениям о функциональных зависимостях между результатами измерений. Под непараметрическими понимаются методы, свободные от распределения, в основе которых лежат методы оценки плотности распределения вероятностей: проекционные методы и методы ядерной оценки.

Ключевые слова, измерения, статистическая оценка, функциональные взаимосвязи, непараметрическая статистика, проекционная оценка плотности, ряд Грама-Шарлье А, ядерная оценка плотности.

i Надоели баннеры? Вы всегда можете отключить рекламу.