Научная статья на тему 'Применение байесовских подходов для классификации текстовых потоков'

Применение байесовских подходов для классификации текстовых потоков Текст научной статьи по специальности «Математика»

CC BY
148
18
i Надоели баннеры? Вы всегда можете отключить рекламу.
Область наук
Ключевые слова
КЛАССИФИКАЦИЯ / CLASSIFICATION / ТЕКСТОВЫЕ ПОТОКИ / TEXT STREAMS / НАИВНЫЙ БАЙЕСОВСКИЙ КЛАССИФИКАТОР / NAïVE BAYES CLASSIFICATOR / TF-IDF

Аннотация научной статьи по математике, автор научной работы — Субботин Артем Николаевич

В статье рассмотрена классификация текстовых потоков с помощью наивного байесовского классификатора и его модификация.. Предложен реальный классификатор, позволяющий обрабатывать текстовые потоки в режиме реального времени.I

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Субботин Артем Николаевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

n this article Naïve Bayes method modification for text streams classification is considered. A real-time text stream classifying machine proposed.

Текст научной работы на тему «Применение байесовских подходов для классификации текстовых потоков»

Таблица 4

Результаты расчета работы группы АТС в малой АТСПГ с учетом расписания (строительные |_,_,_,_грузы)___

№ АТС Ze,o, ед. Q, т. P, ткм Ьобщ, км Тн, ч оплачено Тн.ф, ч. отработано Кинт

1 5 7,5 112,5 135 8 6,9 0,863

2 5 7,5 112,5 135 8 6,9 0,863

3 5 7,5 112,5 135 8 6,9 0,863

4 5 7,5 112,5 135 8 6,9 0,863

5 4 6 90 105 8 5,4 0,675

6 4 6 90 105 8 5,4 0,675

7 4 6 90 105 8 5,4 0,675

8 4 6 90 105 8 5,4 0,675

9 4 6 90 105 8 5,4 0,675

10 4 6 90 105 8 5,4 0,675

I 44 66 990 1170 80,00 60,0 Кинт,ср = 0,750

Вывод: в случае перевозок торговых (строительных) грузов предельно возможный коэффициент использования оплаченного времени для единственного арендного АТС составляет 0,790 (0,860), для группы арендных АТС составляет в среднем 0,717 (0,750).

Библиографический список

1) Исследование проблем обеспечения эффективности и качества работы автомобильного транспорта. Исследование практики работы предприятий автомобильного транспорта в г. Омске в период с августа по сентябрь 2015 года. Отчет о НИР (промежуточный) / СибАДИ; Руководитель Е.Е. Витвицкий, отв. исполнитель Курбасова К.П.

- УДК 656.13., № ГР 115012130063, инв. № 216012010050 г. Омск, 2015 - 23 с.

2) ИП Былинков Е.А. [Электронный ресурс].

- Режим доступа: http://55kirpich.ru (дата обращения к ресурсу: 13.09.2015).

3) Витвицкий Е.Е., Юрьева Н.И. Практика оперативного планирования затрат на перевозку

грузов в городах / Е.Е. Витвицкий, Н.И.Юрьева // Вестник СибАДИ, выпуск 6 (28) -2012. - С. 18-24.

4) Витвицкий Е.Е., Трофимова Л.С. Классификация грузовых автотранспортных предприятий по сложности состава и функционирования в городах / Е.Е. Витвицкий, Л.С.Трофимова // Автотранспортное предприятие. №9 -2014. - С. 50-52.

5) Николин, В.И. Грузовые автомобильные перевозки: монография / В.И. Николин, Е.Е. Витвицкий, С.М. Мочалин. - Омск: изд-во «Вариант-Сибирь», 2004. - 480 с.

6) Витвицкий Е.Е.Теория транспортных процессов и систем (Грузовые автомобильные перевозки): учебник. - Омск: СибАДИ. - 2-е изд., испр. и доп. - 2014. - 216 с.

7) «Юнис - Лада Карго», мувинговая компания [Электронный ресурс]. - Режим доступа: http ://unis-lada. ru/грузовое-такси/ (дата обращения к ресурсу: 07.07.2016).

ПРИМЕНЕНИЕ БАЙЕСОВСКИХ ПОДХОДОВ ДЛЯ КЛАССИФИКАЦИИ _ТЕКСТОВЫХ ПОТОКОВ_

Субботин Артем Николаевич

Магистр технических наук, Нижегородский государственный технический университет

им. Р.Е.Алексеева

Ключевые слова: классификация, текстовые потоки, наивный байесовский классификатор, tf-idf.

Key words: classification, text streams, naïve Bayes classificator,, tf-idf.

АННОТАЦИЯ

В статье рассмотрена классификация текстовых потоков с помощью наивного байесовского классификатора и его модификация.. Предложен реальный классификатор, позволяющий обрабатывать текстовые потоки в режиме реального времени.

ABSTRACT

In this article Naïve Bayes method modification for text streams classification is considered. A real-time text stream classifying machine proposed.

Решение задачи классификации является важным, когда речь идет о больших объемах информации, трудно поддающихся ручной обработке, особенно если она имеет потоковый характер, как например в случае с потоками новостей. Каждый день генерируются десятки тысяч новостных со-

общений. Чтобы представлять их в удобочитаемом и доступном виде необходимо произвести классификацию этих сообщений по их тематикам.

В наивном байесовском классификаторе каждый документ рассматривается как множество терминов, где порядок этих терминов не имеет

значения[2]. Текстовый поток для данной задачи представляется как множество текстовых сообщений, получаемых из источников в случайные мо-

менты времени. При этом вероятность того, что данное сообщение из потока принадлежит определенному классу с равна:

Априорные вероятности классов Р(с^ рассчитываются как отношение количества документов в классе с^ общему числу документов коллекции[2].

Метод позволяет произвести процедуру классификации сравнительно быстро, это отвечает требованию оперативности алгоритма в контексте задачи классификации потоков текстовой информации в реальном времени.

Алгоритм обучения состоит в том, чтобы найти априорные вероятности Р(с), а так же вероятности признаков Р^^^для каждого класса. Вероятностями классификационных признаков здесь будут являться числовые характеристики термов сообщения.

Предлагаемая модифицированная модель НБК заключается в следующем. В традиционном наивном байесовском классификаторе мерой вероятности принадлежности считается частотность термина:

• Рассчитывать частотность термина для данного класса

• Рассчитывать обратную частотность термина в документах всей коллекции.

• Рассчитывать вес термина согласно правилам:

о Термин тем важнее для класса, чем чаще он используется в документах этого класса.

о Термин тем незначительнее для класса, чем чаще он используется в документах всей коллекции.

Обратная частотность термина в документах всей коллекции рассчитывается как

где tf(tk, С]) - количество вхождений термина документе класса су. Этот подход не учитывает частоту употребления термина в документах других классов обучающей выборки.

Предлагается следующий подход к расчету весов терминов для классов:

Здесь |Д| - количество документов всей коллекции, |йг з £¿1 - Количество документов, где встречается термин 1.

Перемножая частотность термина в классе и обратную частотность термина во всей коллекции мы получим большой вес для терминов, которые часто используются в данном классе, и редко используются в других классах, маленький вес для терминов, которые часто используются в документах всей коллекции [1].

Предлагается принять метрику ИЧ^ как меру вероятности принадлежности термина классу. Тогда байесовский классификатор будет выглядеть так:

Для проверки эффективности алгоритма было использовано тестовое множество корпуса новостей российских газет 90-х годов в размере 1000 статей [4].

Далее была проведена классификация этих статей с помощью традиционного наивного байесовского классификатора (НБК) и с помощью мо-

дифицированного наивного байесовского классификатора (МНБК).

В качестве характеристик, описывающих качество классификации использовались такие оценки, как полнота (recall), точностьфгеаБЮп) и F1-мера.

а обучающей выборки,:

Рисунок 1. Экспериментальные оценки рассмотренных алгоритмов.

Эксперимент показал, что характеристики эффективности модифицированного байесовского классификатора в целом выше, чем у традиционного байесовского классификатора.

Список литературы 1. Advanced Science and Technology Letters Classification Scheme of Unstructured Text Document using TF-IDF and Naive Bayes Classifier http://onlinepresent.org/proceedings/vol111_2015/50. pdf

2. Ljunglof P., Wiren M. Syntactic Parsing // Handbook of Natural Language Processing, Second Edition. 2nd ed. / Ed. by lndurkhva N., Damerau F.J. Chapman and llall/CRC, 2010.P. 59-92.

3. Автоматическая обработка текстов на естественном языке н компьютерная лингвистика: учеб. пособие / Большакова Е.И., Клышинский Э.С., Ландэ Д.В., Носков А.А., Пескова О.В., Ягу-нова Е.В. - М.: МИЭМ, 2011 - 272с.

4. Машинный фонд русского языка. // http ://cfrl.ruslang. ru/

_ОПТИМИЗАЦИЯ ПРОСТРАНСТВЕННОЙ ВИБРОИЗОЛЯЦИИ СЭУ

Фомичев Павел Аркадьевич,

канд. техн. наук, доцент кафедры инженерной математики НГТУ, доцент кафедры математики и естественных наук НГУЭУ,

г. Новосибирск, Фомичева Елена Валерьевна, канд. техн. наук, доцент кафедры математики и естественных наук НГУЭУ, г. Новосибирск,

[email protected]

АННОТАЦИЯ

Рассматривается методика расчета свободных колебаний судового двигателя в качестве пространственной виброизоляции объекта. Алгоритм преобразования частот вибрации в узком диапазоне задается изменением координат и углов установки таких виброизоляторов как пневмогидравлические виброизолирующие опоры. Предлагаемый метод пространственной оптимизации виброизолирующих систем нового поколения позволяет значительно улучшить качество виброизоляции судовых двигателей

ABSTRACT

The technique of account of free vibrations of the ship engine as spatial vibroisolated object is stated. The algorithm of the transformation of vibrations frequencies in a narrow range is given by a variation of coordinates and corners of installation such vibroisolators as pneumohydraulic vibroisolating support. The offered method of spatial optimization vibroisolating systems of new generation allows considerably improving vibroiso-lated quality of ship engines.

Ключевые слова: виброизоляция, пространственная оптимизация.

Keywords: vibroisolation, spatial optimization.

Среди требований к виброизоляции важнейшим является требование к диапазону расположения собственных частот колебаний. Геометрические особенности структуры системы виброизоляции и расположения виброизоляторов оказывают существенное влияние на статические и динамические свойства этих систем. Исследуем подвеску судового двигателя на упругих пневмо-гидравлических виброизолирующих опорах (ПВО)

как наиболее перспективных виброзащитных системах СЭУ нового поколения [1-3].

Задачу оптимизации будем решать для случая установки судового двигателя на четырех ПВО, расположенных таким образом, что две любые стоящие опоры попарно симметричны. Оптимизируемыми параметрами являются координаты и углы установки опор [4,5].

i Надоели баннеры? Вы всегда можете отключить рекламу.