Научная статья на тему 'Байесовская логистическая регрессия в задаче обучения распознаванию образов при смещении решающего правила'

Байесовская логистическая регрессия в задаче обучения распознаванию образов при смещении решающего правила Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
527
118
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РАСПОЗНАВАНИЕ ОБРАЗОВ / БАЙЕСОВСКИЙ ПОДХОД / ЛОГИСТИЧЕСКАЯ РЕГРЕССИЯ / СМЕЩЕНИЕ КОНЦЕПТА / ФУНКЦИИ БЕЛЛМАНА / PATTERN RECOGNITION / BAYESIAN APPROACH / LOGISTIC REGRESSION / CONCEPT DRIFT / BELLMAN FUNCTIONS

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Красоткина О. В., Турков П. А., Моттль В. В.

В данной работе рассмотрена задача обучения распознаванию образов, в которой влияние некоторого скрытого фактора приводит к изменению свойств генеральной совокупности. Описание генеральной совокупности построено на модели логистической регрессии. Свойство нестационарности, вносимое изменениями исследуемого концепта, понимается как разделяющая гиперплоскость, параметры которой изменяются во времени. В представленной постановке задачи обучения эти параметры описываются как марковские случайные процессы. Для оценивания параметров применяется байесовский подход к классификации.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Красоткина О. В., Турков П. А., Моттль В. В.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

BAYESIAN LOGISTIC REGRESSION IN THE PATTERN RECOGNITION PROBLEM UNDER CONCEPT DRIFT

We can face with the pattern recognition problems where the influence of hidden context leads to more or less radical changes in the target concept.Thispaper proposes the mathematical and algorithmic framework for the concept drift in the pattern recognition problems.The probabilistic basis described in this paper is based on the Bayesian approach by the logistic regression for the estimation of decision rule parameters.The pattern recognition procedure derived from this approach uses the general principle of the dynamic programming and has linear computational complexity in contrast to polynomial computational complexity in general kind of pattern recognition procedure.

Текст научной работы на тему «Байесовская логистическая регрессия в задаче обучения распознаванию образов при смещении решающего правила»

meaningful ones to analyze survival in research of patient group. The specific model has been tested and confirmed by simulation and real data.

Key words: dependences estimation, Cox proportional hazards model Bayesian ap-proach,feature selection, maximum likelihood principle.

Krasotkina Olga Vyacheslavovna, candidate of physical and mathematical sciences, docent, krasotkina@tsu.tula.ru, Russia, Tula, Tula State University,

Nguen Trong Tinh, master, nguyentrongtinh7512@yahoo.com, Russia, Tula, Tula State University,

Popov Vladimir Andreevich, master, dokwork@mmail.ru, Russia, Tula, Tula State University,

Mottl Vadim Vyacheslavovich, doctor of technical sciences, professor, vmottl@yandex.ru, Russia, Moscow, Computer Centre of RAS

УДК 004.93'11

БАЙЕСОВСКАЯ ЛОГИСТИЧЕСКАЯ РЕГРЕССИЯ В ЗАДАЧЕ ОБУЧЕНИЯ РАСПОЗНАВАНИЮ ОБРАЗОВ ПРИ СМЕЩЕНИИ

РЕШАЮЩЕГО ПРАВИЛА

О.В. Красоткина, П.А. Турков, В.В. Моттль

В данной работе рассмотрена задача обучения распознаванию образов, в которой влияние некоторого скрытого фактора приводит к изменению свойств генеральной совокупности. Описание генеральной совокупности построено на модели логистической регрессии. Свойство нестационарности, вносимое изменениями исследуемого концепта, понимается как разделяющая гиперплоскость, параметры которой изменяются во времени. В представленной постановке задачи обучения эти параметры описываются как марковские случайные процессы. Для оценивания параметров применяется байесовский подход к классификации.

Ключевые слова: распознавание образов, байесовский подход, логистическая регрессия, смещение концепта, функции Беллмана.

Введение

Обычно в задачах распознавания образов предполагается, что свойства генеральной совокупности неизменны на протяжении всего процесса обучения. Однако можно столкнуться с задачами иного рода, в которых влияние каких-то скрытых факторов может привести к большим или меньшим изменениям в генеральной совокупности и, как следствие, в ре-

177

шающем правиле. Для такой ситуации обычно используются термины «нестационарная генеральная совокупность» и «смещение концепта» (в иностранной литературе «non-stationary environment» и «concept drift» соответственно). Рассмотрим существующие методы решения задач распознавания образов такого вида, более подробный обзор можно найти, например, в [1]. Первую группу составляют методы, основанные на использовании одиночного классификатора. Обычно методы этой группы используют технологию скользящего окна для отбора группы новых объектов, на которых будет производиться обучение модели, количество объектов в группе называется длиной окна. Для одних методов этот параметр полагается постоянным на протяжении процедуры обучения (FLORA [2]), для других -переменным, в этом случае в них присутствует механизм обнаружения происходящих в генеральной совокупности изменений (ADWIN [4]). Методы второй группы построены как ансамбли классификаторов. Составляющие ансамбля комбинируются с помощью алгоритмов голосования или взвешенного голосования. Обновление ансамбля обычно производится одним из двух способов: повторное обучение всех классификаторов ансамбля на недавно поступивших данных (Accuracy Weighted Ensemble (AWE) [5]); обучение нового классификатора на поступивших данных с отбрасыванием одного из старых, наихудшего по какому-то критерию (streaming ensemble algorithm (SEA) [6]).

Можно отметить, что существующие на сегодняшний момент методы обучения распознаванию образов для нестационарной генеральной совокупности являются в той или иной степени эвристическими, причем конкретный набор эвристик определяется спецификой решаемой задачи. Данная статья предлагает математическое и алгоритмическое описание для задач распознавания такого вида. Представляемая вероятностная модель основана на байесовском подходе к методу логистической регрессии для нахождения параметров решающего правила. Полученная процедура распознавания образов построена на общем принципе динамического программирования и обладает линейной вычислительной сложностью в противоположность полиномиальной для общего случая процедуры распознавания.

Байесовский подход к распознаванию образов при смещении концепта

Пусть каждый объект генеральной совокупности шей представлен

точкой в линейном признаковом пространстве х(ш) = (V(®),...,xn(ш))

el", а его скрытая фактическая принадлежность к одному из двух классов описывается значением индекса класса у(ш) е {1, -1} .

Будем исходить из классического подхода к проблеме обучения распознаванию образов [7], согласно которому модель генеральной совокупности понимается как априори существующая дискриминантная функ-

ция, описываемая как гиперплоскость с направляющим вектором a и параметром положения b:

f(х(ю)) = aTx + b преимущественно > 0 если у(ю) = 1, и < 0, если у(ю) = -1.

Однако такая постановка задачи не учитывает смещения исследуемого понятия. Такое смещение приводит к изменениям генеральной совокупности и, следовательно, данная модель в виде разделяющей гиперплоскости также должна изменяться. Пусть поведение нестационарной генеральной совокупности описывается зависимой от времени гиперплоскостью ft (х(ю)) = aTt x + bt где at and bt - неизвестные функции времени.

Таким образом, каждый объект генеральной совокупности шеП рассматривается только вместе с моментом времени его получения (ю, t). В результате обучающее множество приобретает вид {(X, е Rn,x", Yt, 0}f=i> (XnYt) = {(xk nyk t)}^U " подмножество объектов,

поступивших в момент времени t.

Сформулируем вероятностную постановку задачи. Основываясь на методе логистической регрессии [3], запишем апостериорные вероятности классов y = +1 в следующем виде:

f (У} ,t 1 х/ ,t, at, bt) =1/

1 + exp

1

У/, t(aT х/, t + bt)

2a2

Для всего обучающего множества X,У, полученного в момент /, совместная функция вероятности:

Ф(У. IX., а., Ь) = П/(У,. I х,, а., Ь).

7=1

Ключевым элементом предлагаемого байесовского подхода является понимание зависящих от времени параметров гиперплоскости как случайных стационарных Марковских процессов

а. = да. _ + ^, М & ) = 0, М) = Л,

Ь = Ь._1 , М (V. ) = 0, М (V?) = й \ д = л/1 _ й ,0 < д < 1,

где дисперсии й и й' определяют скрытую динамику изменений в генеральной совокупности, ^ and vt - белый шум.

Априорная плотность распределения скрытой последовательности параметров гиперплоскости:

¥ (а,, Ь{, I = ) = П'' (а,, Ь{ \ aí_1, (а,, Ь{ \ aí_1, ^«

,=1

« ^а, \ а,\ Ъм, Л')

Лп/2(2л)п еХР

1 Г 1 „ , ^

X

(Ъ _ Ъ1)2

/ 1 _ _ *

х ехР (а, _ а,_1)Г(а, _ а,-1) V 2Л

Апостериорная плотность распределения этой последовательности будет пропорциональна следующему произведению:

Да,,Ъ, \ У,,, = 1,.. .,Т)« ¥(а,,Ъ,,, = Ф(У \ X,,а,,Ъ).

,=1

Искомые значения (а,Ъ)]= 1 находятся как максимум совместного распределения направляющего вектора, параметра положения и обучающей выборки:

т

Можно показать, что максимальная точка выражения (1) совпадает

(2)

с минимальной точкой следующего критерия:

т т

Зт [(а,, Ъ )Т=1] = Хс(а,, Ъ) + ХУ(а,-l, Ъ-l, а,, Ъ, ),

/=1 /=2

где первое слагаемое

N

N 1

с (а, Ъ) = X ^ (1 _ Л- (аТX + Ъ))

+

N

+ X ^

ехр

+ехр

^ (1 + (аГ х - + Ъ) )2

(3)

^ (1 _ (аГ х - + Ъ,) )2

описывает приближение наблюдаемого индекса класса Л , тогда как второе слагаемое

У,(а,-l, Ъ<-l, а, Ъ<) ~<Л ^а, _1)Т (а, -^/T-dа, _1) + "1 _ Ъ _1)2 2 а 2<2

отвечает за нестационарность параметров гиперплоскости.

Приближенная процедура динамического программирования

Можно показать, что критерий (2) является выпуклым и, следовательно, для его оптимизации может быть использован какой-либо метод выпуклой оптимизации. Однако при распознавании образов в нестационарной генеральной совокупности можно выделить две задачи: инкре-ментное обучение и проверку нестационарной модели по методу скользящего контроля. При инкрементном обучении объекты поступают на вход системы на протяжении длительного промежутка времени, за который

180

т

2

свойства анализируемого явления подвергаются изменениям. Решение такой задачи требует пересчета оптимальных значений целевых переменных в каждый момент времени, вычислительная сложность такого алгоритма пропорциональна квадрату длины обучающей выборки.

К счастью, критерий (2) принадлежит к классу парно-сепарабельных функций, естественным путем оптимизации которых является классическая процедура динамического программирования [15]. Центральная идея метода динамического программирования заключается в

понятии последовательности функций Беллмана J t (z) =

min Jt (zj,..., z), z e Z,s, s = 1,..., t -1, связанных с частичными критериями

zi ,...,z t-i

t t J(z^. . , zt) = XC(zs) + s(zs-l,Zs),

5=1 s=2

имеющими такую же структуру, как и полная целевая функция (2), но определенными на множестве переменных Zt = (z,s = 1,...,t). Нетрудно заметить, что

Jt (zl,..., zt) = Ct (zt) + Yt (zt-1, zt) + Jt-1 (z1,..., zt-1)

При t = 1, очевидно, что:

J^Z) = ^(z 1), (4)

а в последний момент времени t = T функция Беллмана определяется следующим выражением

J(zi,..., zT ) = JT (zi,..., zT ) (5)

тщтьно^войсщм1тщщуэ t

Фунд аменщдщд^Едщщ^щщщ^эеллм ана

^ + Jt-1(z t-1)

t = 2,.. ,,T, zt-1 e Zt-1

(6)

будем называть прямым рекуррентным соотношением [15], а функцию

(0 = ()) = argmin[у,^z) + ],zí_1 е (7)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

-1

будем называть обратным рекуррентным соотношением.

В основе процедуры оптимизации лежит предположение, что существуют, во-первых, достаточно эффективный способ решения частных задач оптимизации, входящих в (6) и, во-вторых, подходящая компактная форма представления функций Беллмана или обратных рекуррентных соотношений (7) позволяющая хранить эти функции в памяти.

Процедура оптимизации пробегает дважды по всем отсчетам вперед от начала к концу сигнала = 1,...,Т) и затем назад - от конца к началу (7 = 7',..., 1). Процедура начинается со значения первой функции Беллмана 1 = .7, (г,) = С, (г,) далее осуществляется пересчет функций Беллмана для

последующих отсчетов ( = 1,...,Т )в соответствии с прямым рекуррентным соотношением (6). При этом функции Беллмана или обратные рекуррентные соотношения (7) должны быть запомнены для всех 1 = . Функция Беллмана для последней переменной ,/7(г7), полученная на последнем шаге прямого хода алгоритма, непосредственно указывает ее оптимальное значение:

£г = а^ттЗт(ът),ът е Zг .

На обратном ходе, по мере того, как процедура последовательно проходит от конца сигнала к началу t = Т ,...,2, уже найденное оптимальное значение векторной переменной в каждой очередной вершине позволяет, в свою очередь, определить оптимальное значение переменной в непосредственно предшествующей вершине. Последовательное вычисление оптимальных значений переменных обеспечивается обратными рекуррентными соотношениями, найденными и сохраненными в процессе прямого хода алгоритма либо непосредственно в виде (7), либо косвенно определяемыми функциями Беллмана (6), запоминаемыми вместо них:

В [8] в дополнение к процедуре динамического программирования «вперед и обратно» предлагается процедура «вперед и навстречу». Для задач инкрементного обучения и проверки нестационарной модели указанная процедура имеет линейную вычислительную сложность относительно размера обучающего множества. Процедура динамического программирования основана на фундаментальном предположении о принадлежности значений всех переменных к некоторому конечному множеству, что позволяет пересчитывать функции Беллмана и определять их оптимальные значения. Однако, как показано в [9], если все составляющие парно-сепарабельной целевой функции являются квадратичными, то и функции Беллмана также являются квадратичными, их параметры можно легко пересчитывать, и соответственно может быть реализована процедура динамического программирования. К сожалению, часть (3) критерия (2) не является квадратичной, метод динамического программирования становится неприменимым. Для использования вычислительных преимуществ процедуры динамического программирования произведем замену неквадратичной составляющей (2) на ее подходящую квадратичную аппроксимацию. Тогда получим следующий критерий для минимизации (г, :

Т Т

3гт ) ) + &^ ) т1П , (8)

/=1 /=2 *1,--1т

где

у

7=^,-1 7=^,-1

Поскольку в оптимизационной задаче

Ошибка! Источник ссылки не найден. все составляющие парно-сепарабельной целевой функции являются квадратичными, то и функции Беллмана также являются квадратичными, их параметры можно легко пересчитывать и соответственно может быть реапизована процедура динамического программирования. Так, функции Беллмана будут определяться следующим выражением:

= (г, - г,)Т^({г( - г,) + с,, параметры которого для момента / = 1 будут принимать тривиальные значения:

¿=^=0^=0.

Тогда

<2, = <2,-1 (Аид+)-1 и+с>„

(В)

Формулы (8) позволяют рекуррентно пересчитать оптимальные значения целевых переменных г, в следующий момент времени и соответственно найти значения параметров решающего правила, основываясь только на их предыдущих значениях без необходимости хранения всей обучающей совокупности.

Экспериментальные исследования

Для экспериментального исследования предложенного метода была выбрана задача фильтрации сообщений электронной почты. Поскольку методы распространителей писем с рекламным содержимым постоянно совершенствуются, алгоритм их распознавания должен адаптироваться к происходящим изменениям. Таким образом, указанная проблема может трактоваться как задача распознавания при наличии изменений в исследуемом явлении.

В качестве данных для проведения экспериментов использовалось множество данных об электронных письмах из репозитория 11С1 [10]. В этом множестве содержатся записи о 4601 электронном сообщении, каж-

дое из которых описывается 58 признаками. Значения признаков, характеризующих объекты-письма, являются непрерывными и показывают частоту встречаемости отдельных элементов (слов или символов) в тексте письма или длину непрерывной последовательности прописных букв.

Кроме этого, о каждом письме известно, является ли оно рекламным («спам») или же нет. «Спам» составляет примерно 40\% всего множества данных.

Обучение проводилось на 3600 объектах, соответственно остальные 1001 объект составляли контрольную выборку. Полученные на контрольном множестве результаты сравнивались с результатами некоторых алгоритмов для распознавания при смещении решающего правила из программного пакета Massive Online Analysis (MOA) [11]. Полученные результаты представлены в таблице.

Первый метод - OzaBagASHT - метод bagging с адаптивными деревьями Хевдинга [12]; после достижения максимального размера дерево строится заново, начиная с корня. Для определения значения параметра, задающего максимальное количество листьев в дереве, была проведена серия экспериментов, оптимальное выбиралось по минимуму ошибки. Второй - OzaBagAdwin - bagging с использованием метода ADWIN [12], который позволяет обнаруживать и оценивать происходящие в генеральной совокупности изменения. Составляющими ансамбля являются деревья решений для потоковых данных, листья которых представляют собой адаптивные байесовские классификаторы. Число компонентов ансамбля выбиралось так же, как и в предыдущем случае, по минимуму ошибки на контрольном множестве и было равно 18. В качестве третьего алгоритма был выбран одиночный классификатор в форме дерева решений с адаптивным байесовским правилом SingleClassifierDrift с обнаружением изменений концепта методом EDDM [13]. Следующий алгоритм AdaHoeffdingOption-Tree представляет собой адаптивное дерево решений с дополнительными (option) узлами; максимальное количество таких узлов - 50. Последним алгоритмом, выбранным для сравнения, являлся ансамбль ограниченных деревьев Хевдинга [14], каждое из которых строится на своем наборе признаков, результат работы алгоритма определяется как объединение предсказанных каждым деревом вероятностей классов с использованием сигмовидного персептрона. Количество признаков в наборе для каждого классификатора принималось равным 2. Для описанного в данной статье метода (Norm Dist Classifier Drift) значения параметров C, d, d' выбирались также как и для предыдущих методов по минимуму ошибки на контрольном множестве: C = 1; d = 10"8; d' = 10"8.

Результаты работы некоторых методов для распознавания образов на данных электронных писем

Метод Доля ошибочно классифицированных объектов к их общему числу,%

OzaBagASHT 22,278

OzaBagAdwin 20,879

SingleClassifierDrift 39.361

AdaHoeffdingOptionTree 23.876

LimAttClassifier 29,271

NormDistClassifierDrift 14,785

Заключение

В данной работе рассмотрена задача обучения распознаванию образов в условиях смещения концепта. Представляемое обоснование основано на байесовском подходе к методу логистической регрессии для нахождения параметров решающего правила. Полученная процедура распознавания образов построена на общем принципе динамического программирования и обладает линейной вычислительной сложностью в противоположность полиномиальной для общего случая процедуры распознавания. Исследование метода на искусственных данных подтвердило его приспосаб-ливаемость к происходящим в генеральной совокупности изменениям. Сравнение с методами для задач со смещением концепта из состава программного пакета Massive Online Analysis (MOA) на данных, описывающих электронные письма, показало приемлемую вычислительную эффективность предложенного метода.

Список литературы

1. Polikar R. Incremental Learning of Concept Drift in Nonstationary Environments /R. Elwell [et al.]// IEEE Transactions on Neural Networks. 2011.

2. Learning in the presence of concept drift and hidden contexts / Widmer G. [et al.] //Machine Learning. 1996. Vol. 23. P. 69-101.

3. Pattern Recognition and Machine Learning (Information Science and Statistics) / Bishop C. M. [et al.]//Springer-Verlag New York, Inc. Secaucus, NJ, USA, 2006.

4. Bifet A. and Gavalda R. Learning from time-changing data with adaptive windowing // Proceedings of the SIAM International Conference on Data Mining, 2007.

5. Mining concept-drifting data streams using ensemble classifiers / Wang H. [et al.] // Proceedings of the 9th ACM SIGKDD international conference on Knowledge discovery and data mining. ACM Press. 2003. P. 226-235

6. A streaming ensemble algorithm (SEA) for large-scale classification / W.N. Street [et al.] // Proceedings of the 7th ACM SIGKDD international conference on Knowledge discovery and data mining. ACM Press. 2001. P. 377382

7. Vapnik V. Statistical Learning Theory. John-Wiley & Sons, Inc.,

1998.

8. Dynamic Programming Procedures in Nonstationary Signal Analysis / A. A. Kostin [et al.] // Pattern Recognition and Image Analysis, 2001. Vol. 11, No. 1. P. 205-208

9. Dynamic programming algorithms for analysis of nonstationary signals/ Kostin A. A. [et al.] // Computational Mathematics and Mathematical Physics. 2004.Vol. 44. No. 1.P. 62-77

10. Spambase Data Set http://archive.ics.uci.edu/ml/datasets/Spambase

11. Bifet A., Holmes G., Kirkby R., Pfahringer B. MOA: Massive Online Analysis http://sourceforge.net/projects/moa-datastream/ // Journal of Machine Learning Research (JMLR), 2010.

12. New ensemble methods for evolving data streams / A. Bifet [et al.] // Proceedings of the 15th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2009.

13. Learning with drift detection / J. Gama [et al.] // Proceedings of the SBIA Brazilian Symposium on Artificial Intelligence, 2004. P. 286-295.

14. Accurate Ensembles for Data Streams: Combining Restricted Hoeffding Trees using Stacking http: / / sourceforge .net/proj ects/mo a-dat astream/ / Bifet A. [et al.] // Journal of Machine Learning Research (JMLR), 2010.

15. Беллман Р., Калаба Р., Динамическое программирование и современная теория управления. М.: Наука, 1969. 118.

Красоткина Ольга Вячеславовна, канд. физ.-мат. наук, доц., krasotki-na@tsu.tula.ru, Россия, Тула, Тульский государственный университет.

Турков Павел Анатольевич, асп., pavel. turkov@,gmail. com, Россия, Тула, Тульский государственный университет

Моттль Вадим Вячеславоввич, д-р техн. наук, проф., vmottl@yandex.ru, Россия, Москва, Вычислительный центр РАН

BAYESIAN LOGISTIC REGRESSION IN THE PATTERN RECOGNITION PROBLEM

UNDER CONCEPT DRIFT

O. V. Krasotkina, P.A. Turkov, V.V. Mottl

We can face with the pattern recognition problems where the influence of hidden context leads to more or less radical changes in the target concept.Thispaper proposes the mathematical and algorithmic framework for the concept drift in the pattern recognition problems.The probabilistic basis described in this paper is based on the Bayesian approach

by the logistic regression for the estimation of decision rule parameters.The pattern recognition procedure derived from this approach uses the general principle of the dynamic programming and has linear computational complexity in contrast to polynomial computational complexity in general kind of pattern recognition procedure.

Keywords: pattern recognition, bayesian approach, logistic regression, concept drift, Bellman functions

Krasotkina Olga Vyacheslavovna, candidate of physical and mathematical sciences, docent, krasotkina@tsu.tula.ru, Russia, Tula, Tula State University.

Turkov Pavel Anatolevich, postgraduate, pavel.turkov@gmail.com, Russia, Tula, Tula State University

Mottl Vadim Vyacheslavovich, doctor of technical sciences, professor, vmottl@yandex.ru, Russia, Moscow, Computer Centre of RAS

УДК 519.688

БАЙЕСОВСКИЙ ПОДХОД К ОЦЕНИВАНИЮ ФАКТОРОВ, ВЛИЯЮЩИХ НА ПОЛОЖЕНИЕ САЙТА В РЕЗУЛЬТАТАХ

ПОИСКОВОГО ЗАПРОСА

О.В. Красоткина, Т.Ч. Нгуен, Е.А. Поленова, В.В. Моттль

Рассматривается задача построения модели регрессии с регулируемой селективностью в приложении к задаче оценивания порядка сайта в результате поискового запроса, основными особенностями которой являются малый объем обучающего множества, ранговая природа целевой переменной и богатое признаковое описание. Для оценки параметров регрессионной модели предлагается использовать байесовский подход, в котором критерий максимального правдоподобия строится на основании иерархической модели генеральной совокупности. Предложенный критерий обладает способностью подавлять факторы, несущественные для решаемой задачи. Корректность полученной модели подтверждается экспериментами на модельных и реальных данных.

Ключевые слова: оценивания порядка, сокращение признакового описания, байесовский подход, отбор признаков, принцип максимального правдоподобия.

Введение

Сегодня основным инструментом доступа к информации в интернете являются поисковые системы, которые принимая запрос пользователя, возвращают упорядоченный список web-страниц, содержащих необходимую для пользователя информацию. Каждая поисковая система имеет

i Надоели баннеры? Вы всегда можете отключить рекламу.