Научная статья на тему 'Классификатор дискретных случайных величин'

Классификатор дискретных случайных величин Текст научной статьи по специальности «Математика»

CC BY
185
39
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ДИСКРЕТНАЯ СЛУЧАЙНАЯ ВЕЛИЧИНА / МЕТРИКА / КЛАССИФИКАТОР / DISCRETE RANDOM VARIABLE / METRIC / CLASSIFIER

Аннотация научной статьи по математике, автор научной работы — Усманов З.Д.

На множестве дискретных случайных величин с возможными значениями среди чисел натурального ряда введена метрика, на основе которой исследуется вопрос об эффективности представления множества в виде совокупности непересекающихся подмножеств однородных элементов.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The classifier of discrete random variables

On the set of discrete random variables with possible values among m natural numbers we introduce the metric on the basis of which the problem of effectiveness of the representation to the set in the form of a collection of disjoint subsets of homogeneous elements is investigated.

Текст научной работы на тему «Классификатор дискретных случайных величин»

ДОКЛАДЫ АКАДЕМИИ НАУК РЕСПУБЛИКИ ТАДЖИКИСТАН _2017, том 60, №7-8_

ИНФОРМАТИКА

УДК 81'322::519.25

Академик АН Республики Таджикистан З.Д.Усманов

КЛАССИФИКАТОР ДИСКРЕТНЫХ СЛУЧАЙНЫХ ВЕЛИЧИН

Институт математики им. А.Джураева АН Республики Таджикистан

На множестве дискретных случайных величин с возможными значениями среди т чисел натурального ряда введена метрика, на основе которой исследуется вопрос об эффективности представления множества в виде совокупности непересекаю, ментов.

Ключевые слова: дискретная случайная величина, метрика, классификатор.

В настоящей статье критерий однородности Н.В.Смирнова, предназначенный для проверки гипотезы о принадлежности двух независимых эмпирических распределений одному и тому же закону распределения [1], в модифицированном виде приспособлен для классификации дискретных случайных величин.

1. Метризация множества дискретных случайных величин. Пусть V = (у) - множество дискретных случайных величин у с законами распреде

! : Р p . .

вает общие для всех v возможные зна*

(1)

в которой первая строка указывает общие для всех у возможные значения (среди т чисел натурального ряда , а вторая ихвероятности для конкретной у, причём

С величиной у свяжем функцию

дискретный аналог функции распределения. Пусть у1, у2 - произвольная пара эл>

ГI

f"" (*)=ЕАа) -

соответствующие им дискретные функции, а = 1,2 и л=1,- • ■ ,т .

Адрес для корреспонденции: Усманов Зафар Джураевич. 734063, Республика Таджикистан, г. Душанбе, пр. Айни, 299/1, Институт математики АН РТ. E-mail: zafar-usmanov@rambler.ru

Определение 1. Расстоянием между величинами v1 и v2 назовем положительное число Р (* , *2), определяемое по формуле

р (ух,^ = 4т/2 тах, ^-p£2})|,

(2)

то есть расстояние между дискретными случайными величинами (с одинаковым набором N возможных значений вычисляется как максимальное расстояние между их дискретными функциями

лементами из

F(1) (5) и Р(2) (5 ), помноженное на весовой коэффициент у/т / 2 .

Введенное формулой (2 расстояние между любыми

1

вращает последнее в метрическое пространство .

число.

у 11IV и, ЛУНVI

.......-V „

- некоторое положительное Определение 2. Пару величин * иу2 назовём у - однородными, если

рЧ]<-у &

2. Однородные дискретные случайные величины. Пусть у - неко

и у - неоднородными, если

> ■

Предположим, что {V^'^^^^(^авло^^^в^

Т Т Т М \ Г и ММ I \ 11 К V,!.-. 'Пи ! ГМГТМ '11111 ) \ I Г' //'^ ! I* 1 ... п ТТТТ/

объединения некоторых непе-дискретных случайных величин (с

ресекающихся подмножеств У(1>, состоящих из с/'"'. к = 1, • • •, /7.

одинаковым набором N возможных значений среди т первых чи

жно ли найти такое положительное чг

ментов V, и из одного и того же подмножества V , к = !,•••,и , будет выполняться неравен

ЗАДАЧА 1. Возможн

чисел натурального ряда .

число у, что для каждой пары эле-

ство

в то в к 1

|>2 из одного и того же подмножества

/V

пов V и *2 из разных подмножеств ( * е V(к1) и *2

ак для любо;

полняет

ы элементов

ивоп

оложное неравенство

*2)>У.

адача 1

(3)

V (к 2)

(4)

В случае если задача 1 имеет решение, элементы в пределах одного подмножества У(к) , к = 1,• • •,/7 , назовём однородными, а принадлежащие разным подмножествам - неоднородными. В этом случае формулы (1 - (4 следует воспринимать как аналитическую модель принятия решения об отнесении произвольно взятого элемента V либо к конкретному образу (тому или иному

1 Иными словами, используемое расстояние удовлетворяет трём аксиомам метрического пространства.

классу однородных случайных величин , либо ни к одному из них. Действительно, если при вычислении по формуле (2 расстояние от у до элемента какого-либо образа окажется меньше у, то именно этому образу будет принадлежать у. Если же подходящего образа найти не удаётся, то такой элемент не классифицируется.

Когда же задача 1 оказывается не разрешимой, имеет смысл

ЗАДАЧА 2. Найти такое значение у, при котором общее число т нарушений неравенств (3), (4) становится минимальным.

И в этом случае можно говорить об однородности и неоднородности тех пар элементов, для

число число т

и неоднородности тех пар элементов, дл которых выполняются неравенства (3), (4). Вместе с тем показатель т позволяет с помощью величины

ж—1-т/ L

оценить эффективность математической модели (1 - (4 для автоматического V на подмножества ,л.В этой формуле Ь — общее чис.т

ваемых в соотношениях (3), (4). Оно определяется как число сочета »

...•*■—.....™"г : -

(5)

1 = С к) =\^ к—^ к—^ V

Из формулы (5 следует, что ж может принимать значения из отр (ж — 0, если т — Ь, и ж — 1, если т — 0 реализуются на практш

множества рассматри-ного количества

то есть

(6)

езка [0, 1]. Крайние варианты

ктике, причём в первом из них классификатор абсолютно непригоден, а во втором - заслуживает самой высокой оценки.

удно уса

3. Вычисление у в частных случаях. Нетрудн

гановить, что суммарное число пар од-

нородных" случайных величин, участвующих в неравенстве (3 , равно

х вел

о пар, учитываемых в (4 , равно о пар, учитываемых в (4 , равно

(Г) -1),

где £ определяется по формуле (6 .

Обозначим через X — {х{ | и Y — (;

£2 — ,

^ — ^ ,, , = {у. } - два множества чисел, из которых , / = 1 ,•••,/?,. и , / = 1,-• *,/?2. являются упорядоченными по возрастанию расстояниями между парами дискретных случайных величин, принадлежащих в первом случае подмножествам Р-'*' , к = 1, а во втором случае — разным подмножествам. Пусть, кроме того, Л(х1) и Л(у ^) - частоты встречаемости чисел х± и у ■. Очевидно, что

Ь = £Л(хг) и ь2 =£Л( у).

1=1

Теперь рассмотрим некоторые простейшие случаи взаимного расположения множеств X и У с тем, чтобы на этих примерах понять особенности, возникающие при вычислении числа т нарушений неравенств (3 и (4 для тех или иных значений у . Пример 1. Пусть

хк < У^

вычисл вычисл

О-' ^ _

то есть числовые множества X и У не пересекаются, и X расположено на числовой оси левее У .

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Тогда в качестве оптимального у можно взять любое число из интервала (х,, у1) . Такое вает применимость математической модели (1 - (4 для классификации исходного множества V на

Очевидно, виде совокупно-

V

заданные подмножества ¥{к), к = 1,- ,п. однородных дискретных случайных величин. С

г^ш >—у ЛХ*/

что здесь т = 0 и в соответствии с (5 эффективность представления множества V в ви,

сти п классов ) равна ж = 1.

Пример 2. Если же множество V =

то приходится учитывать частоты Л(х, ) и Л(у1) встречаемости чисел х, и у1 среди расстояний р (V,, ), вычисляемых между парами элементов, принадлежащих в первом случае подмножествам У'к ' . к = 1,- • • ,п, а во втором случае — разным подмн

Если, например, Л( х, ) < Л(у1), то значение у = х, = у1 не подходит, поскольку в этом слу-

•V АО

чае Л(у1) расстояний у1 будут нарушать неравенство (4 , в то время как при выборе у = х, — е , где е - сколь угодно малое положительное число, лишь Л(х, ) расстояний х, не будут удовлетворять неравенству (3 . Минимальным будет т = Л( х, ) и потому п = 1 — Л( х, ) / Ь.

= х, , так и при у = у1, получаем т = Л (х, ) = Л(у1)

/'. Т

1ри Л(х, ) >Л(у1) следует выбрать у= х, = у1. Тогда минимальным будет т=Л(у1), поэтому ж = 1 — Л( у1) / Ь.

Пример 3. Рассмотрим еще один наглядный случай, определяемый соотношением

аЛ /> (

нству (3 . Минимальным будет т = Л( х, Если же Л(х, ) =Л(у1) , то, как при у ■ = 1 — Л(х,) / Ь. V /

При

у^2

< х

к

1=1

которое означает, что множества X и У не пересекаются и X располагается на числовой оси правее У .

Если положить х^ < у , то т — Ь2, поскольку неравенство (4 нарушается для всех у. е У, а неравенство (3 выполняется для всех х± е X , и потому вследствие (5 ж —1 — Ь2 / £ Если положить у^ <у< х1, то получим

=1 Ц2 '

Ь — Л\хг) при у— х1,

т —

и при укг <у<x1,

^ N 1 - при у—х1-0 при Уц <у<х1.

Если же взять у < у,, то т — Ц , поскольку неравенство (3 нарушается для всех х е X, а неравенство (4 выполняется для всех у. е У. Потому ж — 1 — Ь1 / Ь .

Если у — у1, то т — Ц +Л(ух) , поскольку неравенство (3 нарушается для всех х е X, а не-

ж — <

равенство (4 — только для Л(ух) расстояний у1. Потому ж — 1 — (Ц + Л( у1))/ Ь .

Теперь остаётся из полученных результатов выбрать такое у, при котором т принимает минимальное значение.

4. Прочие случаи взаимного расположения множеств X и У не столь наглядны для исследований, поэтому ограничимся описанием в общих чертах алгоритма для нахождения оптимального значения у , то есть по существу дадим решение задачи 2. Для этих целей представим исходные данные в виде, удобном для проведения надлежащих вычислений.

Обозначим через Z = X{JУ = =\,---,}г(}1<}\ + }г2), — объединение множеств X и

У , элементы которого zk пронумерованы в порядке возрастания их значений. Очевидно, что zk есть

либо число х. е X с частотой Л(х. ), либо число у, е У с частотой Л(у. ), либо число х, — у, ,

г0 4 г0 ' У .0 .0 ' 00 .00

из которых х с частотой Л рт, ^, а у^ с частотой Л (у]т ) • Числа гк . к = 1, • • •, И , разделяют чи-

т V4

словую полуось z >0 на интервал \0, 2Х) и к полуинтервалов [г2), ... , [zh_) и [zh,да) .

Поиск оптимального у производится по существу на основе метода полного перебора всех его возможных вариантов с последующим выбором такого значения, которому будет соответствовать минимальное число т нарушений неравенств (3 , (4 . Функция т — т(у является целочисленной, постоянной при изменениях аргумента у в пределах указанных интервала и полуинтервалов и имеет разрывы в точках гк, к = 1,Вследствие этого полный перебор составляют 2/? + 1 вариантов значений у, именно:

-значения ук, к = 1,- • •,/? + 1,. взятые произвольно из интервалов ). (г,, г,). ... , (гЛ1,гЛ), (zh,

- значения 1 = г,., А: = 1, • • •, /?. - абсциссы точек скачка функции г (;/).

Теперь покажем на примере конкретных у , каким образом производится подсчёт г . Начнём со значений у1 и у100 = г1. Первое значение принадлежит интервалу (0, ^) и удовлетворяет условию

;/" <. А: = 1,-• •,/?. Из этого следует, что ;/" <х), 7 = 1 и ^ <>';. / = !,•••,я2, то есть все не

равенства (3 нарушаются, однако все неравенства (4 выполняются. Поэтому т(у1 )= Ь1.

При у =у100 = выражение т(у100) зависит от того, какой из трех вариантов заключен в обозначении z1. Потому

Ь1 —Л( х1) при ^ = т{у°) = <А+Л(у) при Zl = у ,

Ь1—Л(х1) + Л(у1) при ^ = х1 = у1.

Обоснуем первую строчку этой формулы. В самом деле, условие у"" = =х1 значит, что < х. 7 = 2,- • •,/?|, и < _у/3 / = 1,- • -,/г2. Но тогда неравенство (3 выполняется только для расстояния х1, частота которого равна Л (х1), в то время как неравенство (4 имеет место для всех расстояний у^. Именно этот результат записан первой строкой формулы для т(у100). Аналогичным образом проверяются две другие строки формулы.

Теперь предположим, что при А: = 2,-• •,/? значения , ) для у~к_ 1 е (гк 2,гк1) , = 0. и

/ = 1,- • *, //2, то есть все не-

для ук—1 = ^—

и К = значен!

Л

ы. Тогда получим

=т(ук'—1) пРи ук е(

щя т ( ук°0) - следующие вычислительные форм;

'т(у°)—Л(х,0 )

е zk—^ zk

),

(7)

рормулы:

00

Л(У0 )

при ^ = X =ук ,

при ^ = у,п =ук

0 ) — Л( х,00 ) + Л( у, )

^ Zk = х,00 = уЛ0 =ук

Действительно, поясним, например, третью строчку этой формулы. В силу условия

расстояний х^ , число которых равно Л (х^ ), неравенство (3 имеет место,

у° = ^ = х00 = у,„„ для

в то время как для Л\х^ ) расстояний у неравенство (4 не выполняется. Именно этот результат записан третьей строкой формулы для т \у°0).

Остаётся вычислить т\у) - общее количество нарушений неравенств (3 и (4) в случае у — у°+1 е (,да). Аналогично формуле (7 получим

т\у°+1 )—т\Ун ) при у0+1 е\гк,да), •

более того, г\уА°+1)— Ц2 .

С учётом полученных результатов уточним свойства функции т\у) :

- т\у) определена на вещественной полуоси (0 , да);

- принимает целочисленные постоянные значения в интервалах \0, ), (

(гк, да);

- более того, т\у^)— Ц на интервале \0, ) и т\уй°+1) -

- и, наконец, т\у° )—т\у°—1) при ук

Из этого следует, что полны

г1) и т\

—1, гк ), к — ебор ва

знач

(гк—1, гк)■.

уинтервале [ гк ,да)

¿¡у

чение, именно: произво, нкциц^^^0 г/* кУ^

предполагалось ранее, а всего (0, г1) и к абсцисс точек ск

ется оптимальное у"....., при котором достигается наименьшее число т:Ы нарушений неравенств (3

у образуют не 2к + 1 его значений, как ьное значение у" из интервала И. Среди этих значений выбира-

(4 и, следовательно, максимально возможная эффективность ж:ссс математической модели (1 -(4)

для автоматического описания

к = \,-,п.

5. Классш

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

емлемая гипотеза

ложенного разбиения множества V на подмножества V'

(к)

ация текстов, [2]. Исходным пунктом в этом направлении служит вполне при-о том, что два текста одного автора являются "однородными", а двух разных авто-

емлемая гипотеза о том, что два текста ров - "не однородными".

При классификации на основе ф

статистической обработки ставится в со статистической обработки ставится в со

ормул (1) - (4) каждому тексту посредством предварительной статистической обработки ставится в соответствие количественный образ - закон распределения его :- грамм. Если речь идёт о символьных (буквенных : - граммах, то для их описания используется единый алфавит с одинаковым набором символов. При : = 1 алфавит униграмм совпадает с алфавитом языка; при : = 2 и : = 3 алфавиты биграмм и триграмм представляют собой а2 и а3 (а - число символов в алфавите языка всевозможных пар и троек символов.

При обращении к словоформным :-граммам следует учитывать, что их наборы для каждого текста, в общем случае, различаются как по числу, так и по составу своих элементов. Такая ситуация не приемлема для сравнения текстов и требует унификации их описательных характеристик, что

можно реализовать, например, путем выявления множества N - грамм для коллекции текстов в целом и использованием полученных данных в описании одних и тех же возможных значений в законах распределения каждого текста.

Итак, положим, что каждый текст из коллекции {Т} охарактеризован единым набором Nk -

грамм, к = 1,...,ш, N = {Nk}, со своими относительными частотами встречаемости ук > 0, удовле-

т

творяющими условию = 1.

Пусть Т - „ибо текст из коллекции {Т}. Будем „„^„в^ N-гpаммy „ дискре

ную случайную величину, принимающую в пределах Т возможные значения Nk , к = 1,..., ш, из

сте Т запи сте Т запи

набора N . Тогда закон распределения ^грамм в тексте Т записывается в следующем

ичном

виде:

N Л

N

1

1:

V >

Замещая обозначение Nk его индексом к, получи: него и дискретный аналог функции распределения N¡

} "ш

. . . 'ш.

бличное представление в форме (1 , а из

г

Итак, завершив надлежащим образом настройку ность оценить эффективность классификации коллекц

к=1

данных, мы получили возмож-стов в рамках математической модели

сификатора производилось на примере деся-от 5 авторов , написанных на таджикском

(1)-(4).

Компьютерное тестирование эффективност:

ти художественных произведениий (по 2 произве

\ \ ^^ • \ у

языке [3]. Априори предполагалось, что тексты одного автора однородны, а различных авторов не

однородны. Первое предположение обеспечивалось выполнением неравенства (3 , а второе - неравенством (4 .

При использовании буквенных униграмм их число ш приравнивалось 35 (таджикский алфавит только букв . Оптимальное значение у оказалось равным 0.07. Лишь для одного (3 не подтвердилось, т

содержит именно сто

автора неравенство (3 не подтвердилось, то есть два произведения этого автора были признаны не однородными. Следовательно, т = 1. И поскольку опытная коллекция была составлена из 10 произведений, то подсчет по формуле (6 общего числа их возможных пар приводил к значению Ь = 45. Из чего следовало, что эффективность предложенного классификатора равна ж = 0.977 (см. [3]).

При использовании буквенных биграмм (их число ш = 1225) оптимальное значение у оказалось равным 0.5. Как и в случае униграмм, лишь для одного автора неравенство (3 не подтвердилось. Следовательно, т = 1 и потому ж= 0.977 (см.[4]).

При использовании словоформных униграмм установлено, что : = 170958. Оптимальное значение у оказалось равным 1.95. Нарушение неравенств (3 и (4 произошло для одного автора двух

произведений и для одной пары произведений двух авторов. Следовательно, т — 2 и потому ж — 0.955 (см.[5]).

Таким образом, на экспериментальной коллекции текстов классификатор показал вполне приемлемую для практического использования эффективность. В этой связи представляет интерес оценить его эффективность в сравнении с другими методами, а также опробовать его на других естест-

з-мат.

венных языках и на текстах из различных отраслей знания.

Поступило

ЛИТЕРАТУРА

1. Большев Л.Н., Смирнов Н.В. Таблицы математической статистики.- М.: На литературы, 1983, 416 с.

2. Усманов З.Д. ^граммы в распознавании однородных текстов.- Мат-лы 20 научно-практ. семинара "Новые информационные технологии в автоматизированных системах".- М., 2017, с. 52-54.

3. Косимов А.А. Оценка эффективности использования униграмм при идентификации текста - ДАН РТ, 2017, т.60, № 3-4, с.112-115.

4. Ашурова Ш.Н., Косимов А.А. Оценка эффективности использования словесных униграмм при идентификации текста - Изв. АН Республики Таджикистан. Отд. физ.-мат., хим., геол. и техн. н., 2017, №1(160 , с.32-39.

5. Романов А.С., Шелупанов А.А., Мещеряков Р.В. Разработка и исследование математических моделей, методик и программных средств информационных процессов при идентификации автора

текста. - Томск: В-Спектр, 2011, 188 с.

онных про З.Ч,.Усмонов

кРИ БУЗУРГИИ ТАСОДУФИИ ФОСИЛАДОР

Ипсп^ * „ом» ^о» Ъ^» То_

Дар мачмуи бузургии тасодуфии фосиладор (дискрети) бо имконияти киматдо дар байни т катори ададдои натурали, ченкунИ чорИ карда шудааст. Дар асоси он суол оиди таъсирбахшии тасаввуроти мачмуъ дар намуди чамъ бурида нагузаштани элементдои якхела будаи зери мачмуъ, тадкикот гузаронида шудааст. Кадима^ои кадиди: бузургии тасодуфии фосиладор, ченкуни, таснифгар.

Z.D.Usmanov

THE CLASSIFIER OF DISCRETE RANDOM VARIABLES

A.Juraev Institute of Mathematics, Academy of Sciences of the Republic of Tajikistan

On the set of discrete random variables with possible values among m natural numbers we introduce the metric on the basis of which the problem of effectiveness of the representation to the set in the form of a collection of disjoint subsets of homogeneous elements is investigated. Key words: discrete random variable, metric, classifier.

A Jv JV

i Надоели баннеры? Вы всегда можете отключить рекламу.