Научная статья на тему 'Алгоритм настройки кластеризатора дискретных случайных величин'

Алгоритм настройки кластеризатора дискретных случайных величин Текст научной статьи по специальности «Математика»

CC BY
87
20
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ДИСКРЕТНАЯ СЛУЧАЙНАЯ ВЕЛИЧИНА / МЕТРИКА / КЛАСТЕРИЗАТОР / КЛАССИФИКАТОР / DISCRETE RANDOM VARIABLE / METRIC / CLUSTERIZER / CLASSIFIER

Аннотация научной статьи по математике, автор научной работы — Усманов З.Д.

Рассматривается однопараметрическая математическая модель кластеризатора дискретных случайных величин. Его настройка на данных обучающей выборки, распределенной по классам, производится путём определения оптимального значения параметра. Вычисляется показатель эффективности откалиброванного кластеризатора, позволяющего эксперту оценить возможность его использования в качестве классификатора.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Tuning the algorithm of the clasifier of discrete random variables

We consider a one-parameter mathematical model to a clusterizer of discrete random variables and tune it according to the training sample data, distributed by classes, in order to determine the optimal value of the parameter. We calculate the efficiency index of the calibrated clusterizer, that allows to assess the possibility of using it as a classifier.

Текст научной работы на тему «Алгоритм настройки кластеризатора дискретных случайных величин»

ДОКЛАДЫ АКАДЕМИИ НАУК РЕСПУБЛИКИ ТАДЖИКИСТАН _2017, том 60, №9_

ИНФОРМАТИКА

УДК 81'322::519.25

Академик АН Республики Таджикистан З.Д.Усманов

АЛГОРИТМ НАСТРОЙКИ КЛАСТЕРИЗАТОРА ДИСКРЕТНЫХ СЛУЧАЙНЫХ ВЕЛИЧИН

Институт математики им. А.Джураева АН Республики Таджикистан

Рассматривается однопараметрическая математическая модель кластеризатора дис ных случайных величин. Его настройка на данных обучающей выборки, распределенной по производится путём определения оптимального значения параметра. Вычисляется показатель эффективности откалиброванного кластеризатора, позволяющего эксперту оц

его использования в качестве классификатора.

Ключевые слова: дискретная случайная величина, метрика, кластеризатор, клаi

Введение. В статье [1] предложен метрический классификатор мн случайных величин v с заданными в табличном виде законами распредел!

N : 1 2 . . . P : А А

ор.

v} дискретных (1)

где в первой строке указываются общие для всех го ряда, а во второй - их вероятности для конкрет

южные значения среди m чисел натурально-при

= 1.

Каждой случайно

вие функция

f(s)=&4 (i = l,'".»') (2)

:>. /V

щскретный аналог функции распределения. Пусть У1, У2 - произвольная пара элементов из {V} и

ответствующие им дискретные фун ответствующие им дискретные фун

F<"' (5)=ТрГ -

гч

соответствующие им дискретные функции, ос = 1,2 и 5=1 . Воспользуемся определениями из

статьи [1].

Определение 1. Расстоянием между величинами v1 и v2 назовем положительное число Р (V , v2), определяемое по формуле

Адрес для корреспонденции: Усманов Зафар Джураевич. 734063, Республика Таджикистан, г. Душанбе, пр. Айни, д. 299/1, Институт математики АН РТ. E-mail: zafar-usmanov@rambler.ru

Р 0^,г2) = Vт/2 тах л

± (- Р")

к=1

(3)

то есть расстояние между дискретными случайными величинами (с одинаковым набором N возможных значений) вычисляется как максимальное расстояние между их дискретными функциями

I- £ 3

F(1) (^ ) и F(2) (^ ), помноженное на весовой коэффициент \1т /2. Пусть у - некоторое положительное число. Определение 2. Пару величин иг2 назовём у -однород,

Р(VI,Ъ)^У ,

и у -неоднородными, если

Р ( VI,

1. Математическая модель кластеризатора, предназначенная для разбиения на кластеры множества дискретных случайных величин с таблично заданными законами распределения (1), состоит из процедур (2), (3) для построения матрицы расстояний между элементами множества и процедур (4), (5) для формирования классов у - однородных элементов. Для настройки кластеризатора

путём подбора подходящего значения у используется обучающая выборка V = и" , V'к ', представленная в виде объединения некоторых непересекающихся подмножеств-классов V(к) с числом эле-

п

ментов д « ^к > = 0 .

Качество кластеризатора при фиксированном у оценивается величиной ж, вычисляемой по формуле

элементам

теризатора при фиксированном у о теризатора при фиксированном у о

ж=1-г /1.

т(у) - число нарушений неравенств (4), ',о™

одимо уточнить, что не

(6)

Здесь т = т(у) - число нарушений неравенств (4), (5) и [ - суммарное число расстояний между 0

Ь = С0 = 0 (0-1)/2. (7)

уточнить, что неравенство (4) тестируется на парах элементов только из одних и тех же классов У'1"1 \к = 1, • • •, п\ всего таковых пар будет

сего тако

N

ства (5), то

1 п

А = 1 Ъ1(к }(д(к} -1).

2 к=1

Что касается неравенства (5), то оно проверяется только для пар элементов из разных классов. Таковых будет

— -Ь ,

где Ь определяется формулой (7).

Из формулы (6) следует, что ж может принимать значения из отрезка [0, 1], причём ж — 0, если т — Ь, и ж — 1, если т — 0. В первом случае математическую модель кластеризатора следует признать непригодной, а во втором - полностью согласованной с обучающей выборкой.

Поскольку эффективность кластеризатора зависит от значения параметра у, то представляет

интерес

ЗАДАЧА А. Найти такое значение у, при котором ж принимает . В согласии с (6) эта задача эквивалентна определению такого значения у, при котором общее число т нарушений неравенств (4), (5) на элементах обучающей выборки становится минимальным. Процедуру определения оптимального значения у естественно называть настройкой классификатора по данным обучающей выборки.

Решение рассматриваемой задачи приведено в статье [1]. Полученные г результаты используются в последующем алгоритме.

2. Алгоритм решения задачи А. Предположим, что обучающая выборка составлена из Q элементов - дискретных случайных величин, заданных в виде (1) и распределенных по п классам

редполо

чин, заданных в виде (1) и распреде Алгоритм включает в себя следующие основные процедуры.

1. По данным (1) об обучающей выборке объёма Q с помощью формул (2) и (3) подсчитать Ь расстояний между её элементами.

2. Полученный набор расстояний разделить на два множе

• / I, Л X

рых х . / = I,• • •,/7,. и V , / = 1,---,п2, являются упорядоченными по возрастанию расстояниями

элементов, принадле втором случае - разным подмножеств

3. Подсчитать Л(х>) и Л(у,) - частотности чисел х> и у ■. Очевидно, что

жества X — |х. | и У — |yj |, в кото-

у ¿оъ/

____1яются лтопяоочен/

• \

между парами элементов, принадлежащих в первом случае подмножествам , п, а во

учае - разным подмножествам. Подсчитать Л( х.) и Л( у ) - частотност

4. Сформировать множество Z

), Ь —£Л( у,) и Ь — Ь + Ь2.

] — 1

= хиг = ю, к = 1,{к<1\ + К), элементы которого 2к пронумерованы в порядке возрастания их значений, г1 <г2 <■ ■ ■<гь. Очевидно, что в связи с принятыми обозначениями есть либо число х £ X с частотой Л(х ), либо число у, е У с частотой

к 10 4 >0 у ¡0

Л(у, ), либо число х, — у,. , из которых х> с частотой Л(х. ), а у■ с частотой Л( у, ).

¡0 ' '00 ■00 Г '00 \ >00 / ^ ■00 V/ ■00 /

Числа гк , к = 1, •••,/7, разделяют числовую полуось г > 0 на интервал ) и к полуинтервалов [ z1, z2), ... , [ ) и [ , да). Функция "(у^), определенная на вещественной полуоси (0 , да), принимает целочисленные постоянные значения в интервале (0, z1) и на к полуинтервалах

z2), ... , [ VI,zh) и [Ч,да).

Из [1] следует, что эти значения таковы:

• "(у) = "х = А пРи Уе(0,z1);

• т(у) = т2 при уе[z1,z2), причём "2 = " + А1,

где

А =<

"(у) = "к при / Z! -1, ^ ), причём ?! = "-1 + А!

А'

хри = у , Л(у)-Л(х) при ^ = Х1 = у;

""'А"' ' ^ ^

-Л(х0 ) при ^-1 = х0 ,

-Л( х1) при

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Л( У1) щ

£

где

Ак -: =■

и к = 3,---,/г;

• и, наконец, т(у) = тк+1 = Ц на полуинтервале [ zк, да). 5. Вычислить значения "

мальное из них.

■,где к =ъщтттк и к= 1,•••,/? + !

Пусть это боде** г^где А;* г,

Л\ Л • * Д/У

аться величиной

стеризатора будет характеризоваться величиной

, =

а область оптимального значения у определяться

едыдущего пункта и выделить мини-

. В таком случае эффективность кла-

У опре • \

1 -". / Ц

из условия

0, z1), если !* =1,

1, гк ), если к* = к = 2, • • •, /?, [zh, да), если !* = к ' 1.

Этими результатами завершается исследование задачи А. Вопрос о приемлемости полученного решения зависит от величины .). Если эта величина оказывается в определенном смысле близкой к единице, то можно признать, что предложенная математическая модель удачно настроена

на данных обучающей выборки и тем самым откалиброванный кластеризатор можно использовать в качестве классификатора, подготовленного к выполнению своих функций.

3. Заключение. Настоящее исследование дополняет результаты, опубликованные в статьях [1, 2], не только в том, что в явном виде представляет значения "(у) для уе(0, z1),

'^) ПРИ к = 2,---,к и [гЛ,оо) , но также фиксирует тот факт, что оптимальное у"""' достигается не в отдельной точке, а в некотором интервале значений у .

В статьях [1, 2] отмечалось, что рассматриваемый классификатор успешно применялся для определения авторства текстовых фрагментов, извлечённых из относительно небольших коллекций художественных произведений на таджикском языке. При использовании в качестве количественных характеристик буквенных униграмм, биграмм и триграмм в [3] установлены следующие показатели эффективности ж классификатора при идентификации текстов различных объёмов, см. таблицу 1.

Таблица 1.

Значения ж в зависимости от длины текста (в словах)

Объём текста

Униграммы

Биграммы

_Триграммы

5000

1.00

__

1.00

2500

0.98

1250

0.98

625

0.93

300

00

V

1.00

1.00

.93_

82_

0,96

0.87

150

0.73

1 °.82

анными в таблице, уме анными в таблице, уме

0.84

В связи с результатами, показанными в таблице, уместно сослаться на монографию [4], посвященную проблеме идентификации автора текста. В ней, в частности, указывается, что для успешной идентификации необходимо 10000 слов для английского языка и 8000 слов для русского языка. Из таблицы следует, что вполне приемлемый уровень идентификации с помощью предложенного классификатора возможен даже при значительно меньших размерах текстов. Поскольку статистическое доказательство утверждаемых фактов подтверждалось на примере произведений таджик-

вляет проверка эффективности классификатора на тек-

ских писателе стах други

й, нес

¿3

омненный интерес пре, нных языков.

ЛИ

дставля дставля

Поступило 26.08.2017 г.

ЛИТЕРАТУРА

1. Усманов З.Д. ^граммы в распознавании однородных текстов. - Материалы 20 научно-практического семинара "Новые информационные технологии в автоматизированных системах" -М., 2017, с. 52-54.

2. Усманов З.Д. Классификатор дискретных случайных величин. - ДАН РТ, 2017, т.60, № 7-8, с. 291-300.

3. Косимов А.А. О минимальном объёме текста, необходимого для распознавания его автора - ДАН РТ, 2017, т.60, № 9, с.398-401.

4. Романов А.С., Шелупанов А.А., Мещеряков Р.В. Разработка и исследование математических моделей, методик и программных средств информационных процессов при идентификации автора текста. - Томск: В-Спектр, 2011, 188 с.

З.Ч,.Усмонов

АЛГОРИТМИ МИЗРОБКУНИИ КЛАСТЕРИЗАТОРИ БУЗУРГИ^ОИ

ТАСОДУФИИ ФОСИЛАДОР

Институти математика ба номи А Цураев, Академияи илм^ои Цум^урии Тоцикистон

Амсилаи якпараметраи математикии кластеризатори бузургихои тасодуфии фосиладор дида шудааст. Мизробкунии он мувофики маълумоти омории ба синфхо чудо карда шуда, бо

роди муайянкунии бехтарини кимати параметр хосил карда мешавад. Нишондихандаи таъсир

*рда шуда, андаи таъс

бахшии ба андоза гирифташудаи кластеризатор хисоб карда мешавад, ки хамчун таснифгар, барои мумайизон имконияти баходихии истифодабарии он аст.

Калима^ои калиди: бузургии тасодуфии фосиладор, ченкуни, кластеА

ст.

х, , шстеризатор, таснифгар.

астеризатор, таснифгар.

LD.Usmanov

)RITHM OF THE CLASIFIER

TUNING THE ALGORIT1__________________

OF DISCRETE RANDOM VARIABLES

a>v

AJuraev Institute of Mathematics, Academy of Sciences of the Republic of Tajikistan

ademy of Sciences of the

We consider a one-parameter mathematical model to a clusterizer of discrete random variables and tune it according to the training sample data, distributed by classes, in order to determine the optimal value of the parameter. We calculate the efficiency index of the calibrated clusterizer, that allows to assess the possibility of using it as a classifier.

Key words: discrete random variable, metric, cluster sifier.

i Надоели баннеры? Вы всегда можете отключить рекламу.