УДК 519.2
А. В. Овсянников1, О. Г. Барашко2
1 Белорусский государственный университет 2Белорусский государственный технологический университет
ГИСТОГРАММНЫЙ ФИЛЬТР НА ОСНОВЕ НЕЧЕТКОЙ ПРИНАДЛЕЖНОСТИ ДАННЫХ ИНТЕРВАЛУ ГРУППИРОВАНИЯ
В работе предложена гистограммная оценка плотности вероятности на основе нечеткой принадлежности данных интервалу группирования. Приведена методика построения гисто-граммной оценки с применением гистограммного сглаживающего фильтра. Описана методика построения такого фильтра. Установлен основной параметр фильтра - коэффициент статистической взаимосвязи между количеством данных, попавших в интервал группирования при единичной функции включения и при подходе с использованием функции принадлежности. Применение итерационной процедуры для гистограммного фильтра позволяет обеспечить лучшую «сглаженность» гистограммы. Результаты моделирования показывают эффективность применения гистограммного фильтра для разных объемов данных. При этом становится не критичным выбор числа интервалов группирования для «правильного» распознавания плотности вероятности. Гистограммный фильтр является простым инструментом, который легко может быть встроен в любой алгоритм для создания гистограммных оценок.
Ключевые слова: плотность вероятности, нечеткая принадлежность, взвешенная гисто-граммная оценка, гистограммный фильтр.
Для цитирования: Овсянников А. В., Барашко О. Г. Гистограммный фильтр на основе нечеткой принадлежности данных интервалу группирования // Труды БГТУ. Сер. 3, Физико-математические науки и информатика. 2021. № 1 (254). С. 58-63.
A. V. Ausiannikov1, O. G. Barashko2
'Belarusian State University 2Belarusian State Technological University HISTOGRAM FILTER BASED ON FUZZY DATA ACCESSIBILITY
TO GROUP INTERVAL
The paper proposes a histogram estimate of the probability density based on fuzzy data belonging to the grouping interval. A methodology for constructing a histogram estimate using a histogram smoothing filter is presented. The technique of constructing such a filter is described. The main filter parameter is established - the coefficient of the statistical relationship between the amount of data falling into the grouping interval for a single inclusion function and when approaching using the membership function. The use of an iterative procedure for a histogram filter allows for a greater "smoothness" of the histogram. The simulation results show the effectiveness of using a histogram filter for different data volumes. At the same time, the choice of the number of grouping intervals for the "correct" recognition of probability density becomes not critical. The histogram filter is a simple tool that can easily be built into any algorithm for constructing histogram estimates.
Keywords: probability density, fuzzy belonging, histogram estimate, histogram filter.
For citation: Ausiannikov A. V., Barashko O. G. Histogram filter based on fuzzy data accessibility to group interval. Proceedings of BSTU, issue 3, Physics and Mathematics. Informatics, 2021, no. 1 (254), pp. 58-63 (In Russian).
Введение. Гистограммная оценка плотности распределения вероятности (ПВ) - одна из самых распространенных, исторически первых и общепринятых элементов описательной, прикладной статистики, в частности, в сфере статистической обработки радиосигналов. Проблематика, связанная с гистограммной оценкой в прикладной статистике (ГОСТ Р 50.1.033-2001 Прикладная статистика), также хорошо известна
[1, 2]. В стационарном случае, при исследовании стационарных временных рядов, эффективность гистограммной оценки связана лишь с наличием достаточного времени для ее получения. Если же исследуется нестационарный объект или нестационарный временной ряд и требуется более точное распознавание момента времени. когда состояние объекта или динамика ряда, характеризуемая распределением, значимо
изменилась, то построение простой, быстрой (на малых объемах данных) и эффективной ги-стограммной оценки ПВ является актуальным.
Развитие непараметрических методов [3] и общая направленность тематики работ в области непараметрических процедур оценивания ПВ (ядерная. проекционная. сплайн и др.) [4] не исключают применения гистограммных оценок, например переменных, к числу которых относятся и полиграммные. Одной из проблем «правильного» распознавания ПВ, наряду с выбором количества интервалов группирования данных, является возможная «изрезанность» гистограммы, что особенно характерно при относительно небольших наборах данных. Решение этой проблемы заключается в применении гистограммных фильтров, например усредняющего, медианного, гауссовского и др. [5-10]. Однако их применение интуитивно и исходит в основном из практической целесообразности. В представляемой работе предлагается теоретически обоснованная методика построения гистограммного фильтра, учитывающая следующие соображения.
Во-первых, можно отказаться от строгой единичной функции включения данных в конкретный интервал группирования. Данные могут находиться вблизи границ интервала и при изменении числа интервалов оказаться в другом интервале. Расположение данных на интервале группирования (близость или удаленность от границ интервала) может интерпретироваться как нечеткая принадлежность данных конкретному интервалу.
Во-вторых, введение понятия нечеткой принадлежности данных интервалу группирования позволяет за счет весовых функций перегруппировать эти данные так, чтобы уменьшилась «изрезанность» гистограммы и тем самым обеспечивалась ее сглаженность.
Таким образом, цель статьи - разработать методику построения простого и эффективного ги-стограммного фильтра, обеспечивающего разработку при относительно небольших объемах показателей сглаженной гистограммной оценки ПВ на основе нечеткой принадлежности показателей интервалу группирования.
В статье рассматривается одномерная задача построения гистограммного фильтра на примере гистограммной оценки ПВ.
Общая методика построения гистограмм-ной оценки на основе нечеткой принадлежности данных интервалу группирования. В самом общем виде построение гистограммной оценки неизвестной, непрерывной ПВ состоит в следующем. Пусть имеется выборка случайных данных
{хг}, 1 = 1, п и пусть определено разбиение числовой прямой на т непересекающихся и примыкающих друг к другу интервалов Л}-, 1 = 1, т
равной длины Ах = Х}+1 - Х} =(хтах - хтт) / т ,
Хт+1 = Хтах = тах X , Х1 = Хтт = хг , где Х] -
г г
границы интервалов. Тогда нормализованная гистограммная оценка ПВ будет определяться вектором = / Ахп}, где у] = Е 1} (Хг) -
х- еЛ
целое число данных, попавших в Л интервал.
Г1, если х е Л;, Е V, = п, I. (х-) = \ - индикатор-
~ 10, если хг г Л]-
ная функция.
Заменим индикаторную функцию I(хг)
(единичную функцию включения) весовой функцией ц 1 (хг), 0 < ц 1 (х) < 1, которая будет характеризовать нечеткую принадлежность данных {хг}, 1 = 1, п интервалу группирования Л}-. Заметим, что если область определения отдельной 1-той индикаторной функции составляет величину А х, то область определения весовой функции может быть значительно шире Ац > Ах и
зависеть от ее конкретного выбора. Для конкретизации этого значения и из практических соображений будем полагать, что Ац = х;+1 - х}--1,
где -1, +1 - точки середины интервалов группирования х}- = (Х}-+1 - Х}-) / 2 .
Статистическим эквивалентом числа будет, в общем случае, вещественное число, равное
и1 = Е ц 1(х) = Е ц 1(х)+
хг еЛ
Ч-1
+ Е Ц1(х) + Е Ц1(х X 1 =1 т. (1)
Л+1
Формула (1) учитывает вес некоторого числа данных, принадлежащих соседним с Л ■ участкам:
Л- и Л1+1. Очевидно, что всегда выполняется неравенство > иЛ]- = Е Ц у (хг), где знак равен-
х- еЛ:
ства будет соответствовать предельному случаю равенства весовой и индикаторной функции.
Для выполнения общих условий нормировки необходимо выполнение соотношений
1)Е ц 1 (х)=1,
]
2) ЕЕц 1(х)=Еи1 =n,
1 1 ]
3) 0 <ц; (х) <1,
(2)
определяющих специальный вид функций ц ■ (x).
Так, в частности, первое условие системы (2) указывает на их взаимную симметрию на соприкасающихся интервалах и взаимозависимость, а также особый вид для оконечных интервалов A1 и Am . Таким образом, гистограммная оценка ПВ с весовой функцией, характеризующей нечеткую принадлежность данных интервалу группирования, будет следующей:
f. = Uj / Axn , j = 1,m .
(3)
На основании приведенных соображений дадим общее определение введенной гисто-граммной оценки (3).
Определение. Гистограммную оценку ПВ (3) будем называть взвешенной гистограммной оценкой (ВГО), полученной с использованием специальных весовых функций ц j (x), характеризующих нечеткую принадлежность данных j-тому интервалу группирования и для которых выполняются условия (2).
Сделаем замечание. Оценка (3) рассматривается в статье только в контексте ее применения в гистограммном фильтре, поскольку сама по себе она не является асимптотически сходящейся по вероятности при n ^^ к истинной.
Реализация гистограммного фильтра. Для построения гистограммного сглаживающего фильтра определим коэффициент статистической взаимосвязи между числом V- и числом
= ^ ц j (xi ), которое соответствует взвешен-
ному числу данных, попавших в j-тый интервал
k = uzL = — J Ц j (x)dx.
(4)
x Ax
Черта над символами в формуле (4) означает, что их отношение устойчиво для исследуемой выборки данных. Тот же результат можно получить в общем случае, используя усреднение функции принадлежности к = | ц/йх / | .
А х А х
Ограничиваясь первым членом разложения в ряд Тейлора ПВ в точке середины интервала группирования х■, получим результат, совпадающий с
(4). Формула (4) справедлива для внутренних интервалов гистограммы (- = 2, т — 1). Для оконечных интервалов - = 1, т, исходя из условий нормировки (2) и в том случае, если Ац = х-+1 — х-—1, получим
ke = A
-i
J 1(x)dx + J ц(x)dx
A x/2
A x/2
= (1 + к )/2. (5)
С учетом определенных формулами (1), (4), (5) коэффициентов к, ке можем записать соотношение между числами V- и й-, которое будет
представлять собой гистограммный фильтр нулевого порядка (априорные данные о предполагаемой ПВ отсутствуют) в одномерном случае:
(6)
Uj = aVj-1 + kVj + aVj+i, j = 2, m -1,
a = UAj-1/ Vj-1 = UAj+1/ Vj+1 =(1 - k ) / 2
<
U1 = keV1 + (1 - ke )V2,
Um = (1 - ke ) Vm-1 + keVm ■
Заменой переменных V-, U- на g}- = v- / Axn и f j* получим гистограммный фильтр относительно значений ПВ на интервале группирования данных:
f* = agj- + kgj + agj+1, j = 2, m -1, f* = kegi + (1 -ke )g2, (7)
fm = (1 - ke ) gm-1 + kegm •
Если в формуле k = j fx / j fdx не ограД x Д x
ничиваться первым членом разложения в ряд Тейлора ПВ, можем получить гистограммные фильтры высших порядков, требующих априорных знаний о предполагаемой ПВ. В данной работе рассматривается только гистограммный фильтр нулевого порядка.
Введением итеративной процедуры для формул (6), (7) можно добиться большей степени сглаживания:
uq+1 = au j- + kuq + au j+1, j =
= 2, m -1,
q+1 = keuq + (1 - ke ) uq,
(8)
Tjq+1 -,
(1 - ke ) «m-1+keum,
f^1 =a j +kj +af;;+1, j = = 2, m -1,
= kep + (1 - ke ) f2*q ,
fm9 = (1 - ke )fm-1 + ke fJ ,
(9)
где q - порядковый номер итерации, q = 1 соответствует процедуре (6), (7). Заметим, что используя
аналогичный подход к фильтрации многомерных данных, в частности гистограмм изображений, получаем теоретически обоснованные результаты [5-9].
Перейдем к определению значения коэффициента k. При отсутствии априорных данных о предполагаемом виде ПВ, можно воспользоваться «информационным подходом» и показать, что оптимальным значением весовых коэффициентов фильтра будет k = 1/3. Это следует из условия максимизации энтро-j+i
пии - f Ki log(Ki) ^ max , где k - информа-
i=j-i k
ционный вклад (весовой коэффициент) i-того интервала: Ki =а = (1 - k) / 2 для i = j -1, j +1
и Kj = k, о < к < 1, f к=1.
i=j-1
Для упрощения решения задачи и последующего моделирования функции цj (x) можно выбрать ступенчатыми и симметричными. В этом случае, на основании формулы (4), коэффициент k для каждого внутреннего интервала группирования (j = 2, т -1) будет постоянен и одинаков: цj (x) = {k, для А}-; а для А}--1, А}-+jj , а для оконечных интервалов соответственно ц1(x) = {ke для А1; а для А2} и цт (x) =
= {ke для Ат; а для Ат-1} .
Рассмотрим теперь основные свойства вы-
т 2
борочной статистики xAj = f \"A/ - nPj ] / nPj
j=1
2
по отношению к стандартной величине X =
m 2
= X[v; -npj ] h
npj с m
1 степенями свобо-
j=i
ды, а также плотностью вероятности f (x) =
, i-i
m -1 2 2
x > 0, параметрами
m-1
2~ Г
математического ожидания Мх = т -1 и дисперсии: Б%2 = 2М%2 = 2(т -1).
Теорема. В условиях нормального распределения выборочной совокупности при п ^^ распределение величины %Л/ определяется ПВ:
п-1
f%j (X) =
х
X - C ) 2
m-1
2~ k2 Г
m
1
х
_ X-C 2k 2
C = n(1 -k)2, x > 0 (10)
с параметрами математического ожидания и дисперсии, равными
MxAj A= k 2(m -1) + 2n(1 - k )2, DX % = k 4DX = 2k 4(m -1).
(11)
Доказательство. Подставим uAj = kvj в выра-
жение для статистики X%, получим
m 2
xAj = £[ kvj- nPj ] / nPj =
j=1
= k2 £ vj2/ npj - n(2k -1),
j=1
и поскольку Mf vj / npj = n + m -1, то
матема-
j=1
тическое ожидание статистики хЛ]- получается следующим:
МхЛ = к2Мх2 + п(1 - к)2. (12)
Линейное преобразование случайной величины х2 приводит к ПВ величины хЛ;- следующего вида: /Л]- (х) = /((х - С)/ к2)/ к2, что соответствует формуле (10) с параметрами математического ожидания и дисперсии, определяемыми формулами (11). Таким образом, теорема доказана.
Следствие. Линейная зависимость статистик (12) позволяет определить значение параметра к л , при котором значение МхЛ;- стремится к минимуму: кЛ}- = [1 + (т -1) / п] . При этом значении коэффициента математическое ожидание статистики хЛ] равно МхЛ;- = Мх2 /2, т. е. качество, уверенность «правильного распознавания» неизвестной ПВ возрастают вдвое.
Моделирование гистограммного фильтра. В подразделе приведены примеры некоторых результатов моделирования и применения гистограммного фильтра (к = 1/3) к генерируемым случайным данным (число выборок 5), распределенным с нормальной плотностью /(х) = (2пс2 )-12 ехр(-х2/2с2), а2 = 1. Срав-
22 нивались критерии: х - стандартный и хвго =
т 2
= Е{йл] -пр1 ] /пр1 (см. табл. 1, 2). В табл. 1
1 =1
и 2 также приведены: вероятности возможного превышения полученного значения статистики при истинности нулевой гипотезы Ру и Ри.
m-3
Гипотезу о согласии не следует отвергать, если ^(хк2р > х2) > а*, Ры(х1 > хв2го) > а*, где а* = 0,05 -
« 2 заданный уровень значимости, хкр - критическое значение при заданном уровне значимости.
Таблица 1
Статистики и вероятности при п = 300, т = 11
№ ^выб х2 А-кр х2 х2 А-вго Pv Pu
1 0,547 18,30 19,98 12,91 0,029 0,228
2 0,5857 10,97 5,36 0,359 0,865
3 0,541 22,85 13,87 0,011 0,178
4 0,498 6,56 1,12 0,766 0,999
5 0,767 19,75 17,45 0,031 0,064
Таблица 2 Статистики и вероятности при n = 1000, m = 19
№ Кыб х2 /икр х2 х2 Л<вго Pv Pu
1 0,389 28,87 37,87 15,38 0,004 0,635
2 0,458 20,75 9,20 0,291 0,954
3 0,431 8,21 3,74 0,975 0,999
4 0,411 21,20 8,68 0,269 0,966
5 0,546 30,74 20,82 0,031 0,288
Для сопоставления результатов моделирования с коэффициентом к = 1/3 вычислялись выборочные коэффициенты, использующие априорные сведения о теоретических вероятностях:
¿выб = 1 + 2
IV2
j=1
/ nPj
I (Vj - nPj V / nPj
j=1
(второй столбец, табл. 1 и 2), найденные из условия х2го ^ min . Значения величин, входящих
в формулу Vj = Vj-1 - 2Vj + Vj+1 для j = 2, m -1 и
V = -V + V2, Vm = -vm + V
1 1 2' m m i
m-1
Вычисляемые в результате моделирования коэффициенты квыб оказываются меньше единицы, а не равны ей, как при стандартном подходе построения гистограммы. Этот эффект свидетельствует о возможности применения гистограммного фильтра (формулы (6)-(9)) при относительно небольших объемах выборок. Многочисленные результаты моделирования показывают, что с увеличением объема выборки коэффициент квыб стремится к единице, и поэтому применение гистограммно-го фильтра становится нецелесообразным.
В табл. 1 приведены результаты моделирования при п = 300, т = 11. На рис. 1 показаны столбцовые гистограммы векторов V (рис. 1, а), и (рис. 1, б), полученные в результате моделирования (строка 3, табл. 1).
60 40 20
-3 -2
-1
0 а
60 40
20
-3 -2
-1
1
2
3
Рис. 1. Столбцовые гистограммы векторов V (а), и (б), полученные в результате моделирования (строка 3, табл. 1)
В табл. 2 приведены результаты моделирования при п = 1000, т = 19. На рис. 2 приведены столбцовые гистограммы векторов V (рис. 2, а), и (рис. 2, б), полученные в результате моделирования (строка 1, табл. 2).
200 150 100 50 0
200 150 100 50
-4 -3 -2 -1
0 1
а
2 3 4 5
0
-4 -3 -2 -1
0 1
б
2 3 4 5
Рис. 2. Столбцовые гистограммы векторов V (а), и (б), полученные в результате моделирования (строка 1, табл. 2)
Заключение. Рассмотренная в работе методика построения и применения одномерного гисто-граммного фильтра является простым и вместе с тем эффективным инструментом статистического анализа данных при относительно небольших объемах данных, которая подтверждается результатами моделирования. Из табл. 1 и табл. 2 видим, что
%2р > Х2го и X2 > Х2го во всех 5 экспериментах:. В то время как стандартная статистика может «ошибаться» (строки 1, 3, 5, табл. 1 и строки 1, 5, табл. 2).
Гистограммный фильтр является простым инструментом, который легко может быть встроен в любой алгоритм для создания гистограммных оценок.
0
Список литературы
1. Орлов Ю. Н. Оптимальное разбиение гистограммы для оценивания выборочной плотности функции распределения нестационарного временного ряда // Препринты ИПМ им. М. В. Келдыша. 2013. № 14. С. 26-52. URL:http://library.keldysh.ru/preprint.asp?id=2013-14. (дата обращения: 10.02.2021).
2. Chong G., Yongho J., Yi L. Nonparametric density estimation in high-dimensions // Computer Science. 2013. No. 23. P. 1131-1153.
3. Орлов А. И. Новая парадигма прикладной статистики // Заводская лаборатория. Диагностика материалов. 2012. Т. 78. № 11. C. 87-93.
4. Devroye L., Gyorfi L. Nonparametric Density Estimation: The L1 View. New York: John Wiley Sons, 1985.356 p.
5. Gonzalez R. Digital Image Processing. Pearson Hall, 2008, 976 p.
6. Solomon C. J., Breckon T. P. Fundamentals of Digital Image Processing: A Practical Approach with Examples in Matlab. Wiley-Blackwell, 2010. 344 p. DOI: 10.1002/9780470689776.
7. Gonzalez R. Digital image processing. New York, NY: Pearson, 2018. 512 p.
8. Овсянников А. В. Применение стохастических формирующих фильтров. Изд. Дом: LAP LAMBERT Academic Publishing, OmniScriptum GmbH & Co. KG, Saarbrücken, Germany, 2017. 64 p.
9. Bernd J. Digital Image Processing. Springer Berlin Heidelberg New York, 2005. 658 p.
10. Chakravorty P. «What is a Signal? [Lecture Notes]» // IEEE Signal Processing Magazine. 2018. No. 35 (5). P. 175-177. DOI: 10.1109/MSP.2018.2832195.
References
1. Orlov Y. N. Optimal histogram partitioning for estimating the sample density of the distribution function of an unsteady time series. Preprinty IPMim. M. V. Keldysha [Preprints of the Institute of Applied Mathematics M. V. Keldysh], 2013, no. 14, рр. 26-52. Available at: http://library.keldysh.ru /preprint.asp?id=2013-14. (accessed 10.02.2021) (In Russian).
2. Chong G., Yongho J., Yi L. Nonparametric density estimation in high-dimensions. Computer Science, 2013,no.23, рр. 1131-1153.
3.Orlov A. I. The new paradigm of applied statistics. Zavodskaya laboratoriya. Diagnostika materialov [Industrial Laboratory. Diagnostics of Materials], 2012, vol. 78, no. 11, pp. 87-93 (In Russian).
4. Devroye L., Gyorfi L. Nonparametric Density Estimation: The L1 View. New York, John Wiley Sons Publ., 1985. 356 p.
5. Gonzalez R. Digital Image Processing. Pearson Hall Publ., 2008. 976 p.
6. Solomon C. J., Breckon T. P. Fundamentals of Digital Image Processing: A Practical Approach with Examples in Matlab. Wiley-Blackwell Publ., 2010. 344 p. DOI: 10.1002/9780470689776.
7. Gonzalez R. Digital image processing. New York, NY, Pearson Publ., 2018. 512 p.
8.Ovsyannikov A. V. The use of stochastic shaping filters. Izdatel'skiy Dom LAP LAMBERT Academic
Publishing, OmniScriptum GmbH & Co. KG Publ., Saarbrücken, Germany, 2017. 64 p. (In Russian).
9. Bernd J. Digital Image Processing. Springer Publ., Berlin, Heidelberg, New York, 2005, 658 p.
10. Chakravorty P. What is a Signal [Lecture Notes]. IEEE Signal Processing Magazine, 2018, no. 35 (5), pp. 175-177. DOI: 10.1109/MSP.2018.2832195.
Информация об авторах
Овсянников Андрей Витальевич - кандидат технических наук, доцент, доцент кафедры информационных технологий. Белорусский государственный университет (220030, г. Минск, пр-т. Независимости, 4, Республика Беларусь). E-mail: andovs@mail.ru
Барашко Олег Георгиевич - кандидат технических наук, доцент, доцент кафедры автоматизации производственных процессов и электротехники. Белорусский государственный технологический университет (220006, г. Минск, ул. Свердлова, 13а, Республика Беларусь). E-mail: barashko@belstu.by
Information about the authors
Ausiannikov Andrei Vitalievich - PhD (Engineering), Associate Professor, Assistant Professor, the Department of Information Technology. Belarusian State University (4, Nezavisimosti Ave., 220030, Minsk, Republic of Belarus). E-mail: andovs@mail.ru
Barashko Oleg Georgievich - PhD (Engineering), Associate Professor, Assistant Professor, the Department of Automation of Production Processes and Electrical Engineering. Belarusian State Technological University (13a, Sverdlova str., 220006, Minsk, Republic of Belarus). E-mail: barashko@belstu.by
Поступила после доработки 15.10.2021