Научная статья на тему 'БАЙЕСОВСКАЯ ТЕОРИЯ ПРИНЯТИЯ РЕШЕНИЙ КАК ОСНОВА СТАТИСТИЧЕСКОЙ ТЕОРИИ РАСПОЗНАВАНИЯ ОБРАЗОВ'

БАЙЕСОВСКАЯ ТЕОРИЯ ПРИНЯТИЯ РЕШЕНИЙ КАК ОСНОВА СТАТИСТИЧЕСКОЙ ТЕОРИИ РАСПОЗНАВАНИЯ ОБРАЗОВ Текст научной статьи по специальности «Математика»

CC BY
275
28
i Надоели баннеры? Вы всегда можете отключить рекламу.
Журнал
Modern European Researches
Область наук
Ключевые слова
МАШИННОЕ ОБУЧЕНИЕ / ОБУЧЕНИЕ С УЧИТЕЛЕМ / КЛАССИФИКАЦИЯ / ТЕОРЕМА БАЙЕСА

Аннотация научной статьи по математике, автор научной работы — Панкратов Владимир Александрович, Тверская Елена Сергеевна

В работе представлен теоретический материал лекционного курса по машинному обучению. Данный материал является необходимым минимумом для дальнейшего освоения курса по статистической теории распознавания образов. В статье предложен байесовский подход классификации, приведено и обосновано байесовское решающее правило, минимизирующее ошибку решения и функцию риска.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Панкратов Владимир Александрович, Тверская Елена Сергеевна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «БАЙЕСОВСКАЯ ТЕОРИЯ ПРИНЯТИЯ РЕШЕНИЙ КАК ОСНОВА СТАТИСТИЧЕСКОЙ ТЕОРИИ РАСПОЗНАВАНИЯ ОБРАЗОВ»

Alexey V. Kavinov,

Candidate of Physical and Mathematical Sciences, Associate Professor, Moscow State Technical University named after N.E. Bauman, Moscow, Russia alekseyvladimirovich1@yandex. ru Mikhail A. Velishchanskiy,

Candidate of Physical and Mathematical Sciences, Associate Professor, Moscow State Technical University named after N.E. Bauman, Moscow, Russia velmiha@yandex. ru

On the problems of studying methods for calculating the limits of functions of several real variables Abstract. The study of mathematics is always topical, since, on the one hand, it is the language of science, and on the other, according to M. Lomonosov, "it puts the mind in order." Undeservedly, little attention is paid to calculating the limits of functions of several real variables when teaching students of technical specialties. Nevertheless, this branch of mathematics allows us to consider interesting problems that require non-standard solutions. The purpose of this article is to draw attention to this section. The article discusses the main methods for solving problems and provides some examples. Key words: limits, functions of several real variables.

БАЙЕСОВСКАЯ ТЕОРИЯ ПРИНЯТИЯ РЕШЕНИЙ КАК ОСНОВА СТАТИСТИЧЕСКОЙ ТЕОРИИ РАСПОЗНАВАНИЯ ОБРАЗОВ

Аннотация

В работе представлен теоретический материал лекционного курса по машинному обучению. Данный материал является необходимым минимумом для дальнейшего освоения курса по статистической теории распознавания образов. В статье предложен байесовский подход классификации, приведено и обосновано байесовское решающее правило, минимизирующее ошибку решения и функцию риска.

Ключевые слова

машинное обучение, обучение с учителем, классификация, теорема Байеса

АВТОРЫ

Панкратов Владимир Александрович,

кандидат физико-математических наук, доцент ФГБОУ ВО «Московский государственный технический университет им. Н. Э. Баумана», г. Москва v.a.pankratov@bmstu.ru

Тверская Елена Сергеевна,

кандидат физико-математических наук, доцент ФГБОУ ВО «Московский государственный технический университет им. Н. Э. Баумана», г. Москва e_tverskaya@bmstu.ru

Введение

В современном мире во многих областях человеческой деятельности все чаще стали возникать задачи требующие обработки данных. Необходимость решения таких задач остро стоит в медицине, биологии, химии, экономики и других областях прикладной науки. Многие из этих задач нет возможности решить известными методами

и алгоритмами. Это происходит из-за того, что изначально не известна природа полученных данных или о них известно настолько мало, что нет возможности построить математическую модель изучаемого процесса [1-4].

На помощь в решении таких задач в современном мире приходит Искусственный интеллект (Artificial intelligence, AI), а именно - машинное обучение (machine learning, ML). Это раздел искусственного интеллекта, который использует вычислительные методы и «опыт» прошлой информации для предоставления «точных» прогнозов на будущее.

Для реализации методов и алгоритмов машинного обучения требуется знание математического аппарата из многих разделов математики. Разнообразие методов, используемых в машинном обучении, определяется многообразием решаемых с его помощью задач. Именно поэтому в современном высшем техническом образовании необходимость курса машинного обучения является актуальной проблемой. Данный курс предъявляет высокие требования к математической и компьютерной грамотности студента и должен читаться на старших курсах бакалавриата и в магистратуре.

Структурная схема типов машинного обучения представлена на рис. 1.

Рис. 1. Структурная схема типов машинного обучения

Одной из наиболее актуальных задач машинного обучения является задача классификации (Classification), которая относится к одной из задач обучения с учителем (Supervised learning). Цель данной задачи состоит в том, чтобы определить к какому классу принадлежит данный объект. Существуют различные подходы к решению данной задачи. В данной работе будет рассмотрен байесовский классификатор.

1. Проверка простых гипотез

Очень важно для студентов при изложении материала о байесовском подходе в распознавании образов знать теорему Байеса. На данной теореме основан принцип пересмотра вероятностей при получении новых данных, который получил широкое применение в эконометрии и распознавании образов [5, 6]. Схема данного принципа продемонстрирована на рис. 2.

Рис. 2. Процесс пересмотра вероятностей при получении новых данных

В данной работе теорема Байеса будет сформулирована для непрерывного случая. Обозначим через I (у,в) совместную функцию плотности распределения вероятностей для вектора случайных наблюдений у и вектора параметров в, который тоже является случайным [7]. Тогда

I(Х,в) = I(у в))/(в) = I(в| у)/(у) .

Таким образом,

ту)-1^®. (1)

Последнее выражение можно переписать в виде

I (в I у) ~ I (у | в) I (в),

где /(в) - априорная ФПВ, а I(у |в) - функция правдоподобия.

1.1. Байесовское решающее правило, минимизирующее ошибку решения.

В процессе наблюдения получают множество чисел, которые составляют вектор наблюдений. Будем считать, что вектор наблюдений представляет собой случайный вектор с условной плотностью вероятностей, которая зависит от принадлежности вектора наблюдений к определенному классу [8].

Рассмотрим случай, когда множество классов, к которым может принадлежать объект равно двум: щ и щ. Пусть X - вектор наблюдений.

Основная задача - определить, к какому из двух классов щ или щ принадлежит вектор наблюдений. Решающее правило, основанное на вероятностях, можно записать следующим образом:

Р{со1\Х)^Р{со,\Х)^хЛС°х (2)

1®2

Применив теорему Байеса (1) для вычисления апостериорных вероятностей, данное решающее правило (2) можно переписать в виде

' 01

f(X\col)P(col)^f(X\co2)P(co2)^X&\^

Или

щ

V } f(X\co2)<P(col) \со2 у '

Величина l (X) называется отношением правдоподобия, а величину P(щ)/P(щ) называют пороговым значением отношения правдоподобия для данного решающего правила. Очень часто решающее правило (3) записывают в виде

{Р\С02)\ [С02

Выражение (4) называется байесовским решающим правилом минимизирующим ошибку решения.

Определим области Г и Г2 так, что

X еЦ, P (щ| X)> P (щ | X), X еГ2, P(щ| X)< P(щ | X).

Возможны два типа ошибок классификации: когда наблюдаемое значение X попадает в Г2, а истинное его положение в классе щ , либо когда значение X попадает

в Ц, а истинное его положение в классе с2. Данные события являются взаимоисключающими и составляют полное множество событий. Тогда вероятность ошибки решения можно вычислить следующим образом:

£ = P(X еГ21 с)P(с) + P(X еЦ | с2)P(с2) =

= P (с) j f (X | с) dX + P (ю2){ f (X | с) dX = P P (a2)z2 (5)

Г2 Г!

Полученный результат (5) для одномерного случая иллюстрируется на рис. 3. Два слагаемых в этом выражении, по существу, представляют площади, накрываемые «хвостами» функций Р/(X г = 1,2. В силу произвольности выбора областей Г и Г2 вероятность ошибки в примере не столь мала, как могла бы быть. Видно, что смещая границу области влево, можно свести к нулю площадь темного «треугольника» и тем самым уменьшить вероятность ошибки.

Р(С02)82 Р((01 )£|

Рис. 3. Составляющие вероятности ошибки

Рассмотрим пример, который стоит привести студентам для лучшего понимания темы. Пусть /(X , г = 1,2 - ФПВ нормальной случайной величины с вектором математического ожидания М , г = 1,2 и ковариационной матрицей £, г = 1,2 . Тогда, решающее правило (4) можно записать в виде

h (x) = - in i (x) = I (x -м- )T --1 (X -M- ) -1 (X -M2 )T Z21 (X -M2)+

1 —I i p (с)'

2 |ZJ>

^X е-

с

с

(6)

2| [ V 2/J 12

Уравнение (6) показывает, что решающая граница является квадратичной формой относительно вектора X. В случае равных ковариационных матриц £ = £2 = £ граница становится линейной функцией относительно X:

с

с

к(Х) = (М2 -Мх)Т 1Г*Х +1(М^М, -М2тЕ-1М2) ^ 1п*' ^

1.2. Байесовское решающее правило, минимизирующее функцию риска. Можно получить решающее правило исходя из иных соображений. Пусть, принимая решение, мы должны платить некоторый штраф, т. е. нести потери. Величина штрафа определяется тем, к какому истинному классу принадлежит классифицируемый объект. Фактически, можно ввести понятие штрафа, как некоторую функцию

л(а , связанную с принятием решения а при условии, что объект принадлежит

к классу aJ [9, 10]. Тогда можно ввести функцию условного риска, т. е. ожидаемые потери, связанные с совершением действия а :

Я (а, IX ) = ) Р (щ.^) . (7)

Общий риск определяется формулой

Я = |Я(а(X) | X)/ (X) dX. (8)

о

Если а(X) выбрать таким образом, что величина Я (а(X)| X) принимает

наименьшее значение для каждого X, то и общий риск (8) будет минимальным. Предположим, что

• - штраф за решение X е щ, если в действительности X е щ;

• ^ - штраф за решение X е а2, если в действительности X е щ;

• \2 - штраф за решение X ещ, если в действительности X ещ ;

• - штраф за решение X ещ, если в действительности X ещ . Пусть ошибочное решение штрафуется больше, чем правильное, т. е.

Я21 >¿1^ ^ 22 .

Тогда, согласно (7), условный риск запишем в виде

Я (а | X) = Р (щ | X) + \2Р (щ | X), Я (а21 X) = ЛцР щ | X) +Л22Р (©21X). Решающее правило минимизирующее риск заключается в следующем:

x ещ, я (а | x)< я (а | x), x ещ, я (а | x )> я (а | x).

Переписать его можно в виде

(А12-Л22)/(Х\СО2)Р(СО2)^(Л21-А11)/(Х\со1)Р(СО1).

Или

/(.X | со,) (\2-^Р(со2) Г со,

/(Х\а>2) ^ (^-ЛО^К) К ' (9)

Выражение (9) называется байесовским критерием минимизирующим риск.

Заключение

Применение байесовского классификатора требует знания априорных вероятностей Р(щ) и условных плотностей распределения/(X|щ) для каждого класса образов.

Основная трудность заключается в том, что в большинстве прикладных задач эти величины неизвестны. В некоторых задачах можно предположить некоторый вид функции плотности или, например, можно предположить, что плотности распределений имеют нормальный вид, но векторы средних значений и ковариационные матрицы неизвестны. В этом случае приходится обращаться к другим процедурам, разработанным для решения этой проблемы. Например, к процедурам оценки функций плотности распределения, а также оценке вектора средних значений или ковариационной матрицы.

ССЫЛКИ НА ИСТОЧНИКИ

1. Айвазян С. А., Бухштабер В. М., Енюков И. С., Мешалкин Л. Д. Прикладная статистика: классификация и снижение размерности. — М.: Финансы и статистика, 1989.

2. Вапник В. Н., Червоненкис А. Я. Теория распознавания образов. — М.: Наука, 1974.

3. Вапник В. Н. Восстановление зависимостей по эмпирическим данным. — М.: Наука, 1979.

4. Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning. — Springer, 2001. ISBN 0-387-95284-5.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

5. Савчук В. П. Байесовские методы статистического оценвания -М.: Наука, 1989. - 328 с.

6. Зельнер А. Байесовские методы в эконометрии / Зельнер А.; пер. с англ. Г. Г. Пирогов и Ю. П. Федоровский -М.: Статистика, 1980. - 438 с.

7. Теория вероятностей: учебник для втузов / Печинкин А. В., Тескин О. И., Цветкова Г. М. [и др.]; ред. Зарубин В. С., Крищенко А. П. - 3-е изд., испр. - М. : Изд-во МГТУ им. Н. Э. Баумана, 2004. - 455 с. : ил. - (Математика в техническом университете. Комплекс учебников из 21 выпуска ; вып. 16). - Библиогр.: с. 446-447. - ISBN 5-7038-2485-0.

8. Фукунага К. Введение в статистическую теорию распознавания образов / Фукунага А. -М.: Наука 1979. - 368 с.

9. Дж. Ту, Горсалес Р. Принципы распознавания образов. -М.: Мир 1978. - 411 с.

10. Дуда Р., Харт П. Распознавание образов и анализ сцен. -М.: Мир 1976. - 511 с.

Vladimir A. Pankratov,

Candidate of Physical and Mathematical Sciences, Associate Professor, Moscow State Technical University named after N.E. Bauman, Moscow, Russia ivankovpl@mail. ru Elena S. Tverskaya,

Candidate of Physical-Mathematical Sciences, Associate Professor, Moscow State Technical University named after N.E. Bauman, Moscow, Russia e tverskaya@bmstu.ru

Bayesian decision theory as the basis of the statistical theory of pattern recognition

Abstract. The paper presents the theoretical material of a lecture course on machine learning. This information is a necessary minimum for further learning the course on the statistical theory of pattern recognition. The article proposes a Bayesian classification approach and confirms a Bayesian decision rule that minimizes the decision error and the risk function.

Key words: machine learning, supervised learning, classification, Bayes' theorem.

РАЗЛИЧНЫЕ МЕТОДИКИ ПРЕПОДАВАНИЯ АНАЛИТИЧЕСКОЙ ГЕОМЕТРИИ ПЕРВЫМ ИНЖЕНЕРАМ РОССИЙСКОЙ ИМПЕРИИ ПО УЧЕБНИКАМ МАЮРОВА А.И. И СЕВАСТЬЯНОВА Я.А.

Аннотация

Статья посвящена двум оригинальным курсам аналитической геометрии, впервые изданным на русском языке в начале XIX века, «Вышняя геометрия в пространствах, или Приложение анализа к начертательной геометрии: С изложением теории дефилирования крепостных строений» Маюрова А.И. (1817) и «Начальные основания аналитической геометрии» Севастьянова Я.А. (1819). Оба автора являлись преподавателями Института корпуса инженеров путей сообщения. Изучается различная методика преподавания аналитической геометрии будущим инженерам.

Ключевые слова

аналитическая геометрия, методика преподавания, история образования, Институт корпуса инженеров путей сообщения, высшая школа, инженерное образование, Маюров А.И., Севастьянов Я.А.

i Надоели баннеры? Вы всегда можете отключить рекламу.