Научная статья на тему 'Применение списочного декодирования в задаче классификации текстовых документов'

Применение списочного декодирования в задаче классификации текстовых документов Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
89
12
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
АВТОМАТИЧЕСКАЯ КАТЕГОРИЗАЦИЯ / ПОМЕХОУСТОЙЧИВОЕ КОДИРОВАНИЕ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Трифонов Петр Владимирович

Рассмотрена проблема автоматической классификации текстовых документов. Показано, что благодаря использованию помехоустойчивого кодирования можно добиться повышения точности классификации. Предложены новые алгоритмы обучения и классификации и проведен анализ их эффективности

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The problem of automatic text document categorization is considered. It is shown that the application of error correcting codes enables one to improve the categorization precision. Novel learning and categorization algorithms are proposed, and their efficiency analysis is presented

Текст научной работы на тему «Применение списочного декодирования в задаче классификации текстовых документов»

Таблица 2

Оценка внедрения модуля «Движение контингента»

Показатели Модель «как было» Модель «как будет»

Количество обрабатываемых документов за месяц, шт. 390 1264

Количество потерянных документов за месяц, шт. 12 0

Производительность труда сотрудников деканата, документ/ч 0,4 0,5

Производительность труда сотрудников ЛСС, документ/ч 2,4 7,9

преобразователя ресурсов, модель СМО, модель реактивного агента, модель ИА. Анализ рассматриваемых моделей показал, что все выделенные представления систем поддерживает только модель МППР.

Разрабатываемые в рамках программных продуктов BPsim ИА анализа и синтеза МППР предназначены для автоматизации работы аналитика

СПИСОКЛ

1. Андрейчиков, А.В. Интеллектуальные информационные системы [Текст]/А.В. Андрейчиков, О.Н. Андрейчикова.-М.: Финансы и статистика, 2006.-424 с.

2. Wooldridge, M. The Gaia Methodology for Agent-Oriented Analysis and Design [Текст]/М. Wooldridge, N. Jennings, D. Kinny//Journal of Autonomous Agents and Multi-Agent Systems 3.-2000.-P. 285-312.

3. Бугайченко, Д.Ю. Абстрактная архитектура интеллектуального агента и методы ее реализации [Текст]/Д.Ю. Бугайченко, И.П. Соловьев//Системное программирование.-2005.-№1.-С. 36-67.

4. Маслобоев, А.В. Гибридная архитектура интеллектуального агента с имитационным аппаратом [Текст]/А.В. Маслобоев//Вестник МГТУ-2009.-№1. -Т.12.-Вып.1.-Мурманск: МГТУ, 2009.-C. 113-124.

5. Рыбина, Г.В. Моделирование процессов взаи-

по проведению анализа исходной модели, выработке правил структурных и параметрических изменений, проведению синтеза исходной модели и генерации новых моделей, удовлетворяющих заданным критериям эффективности протекающих в системе бизнес-процессов.

Работа выполнена в рамках государственного контракта 02.740.11.0512.

модействия интеллектуальных агентов в многоагент-ных системах [Текст]/Г.В. Рыбина, С.С. Паронджанов// Искусственный интеллект и принятие решений. -2008. -№ 3. -С. 3-15.

6. Емельянов, В.В. Введение в интеллектуальное имитационное моделирование сложных дискретных систем и процессов. Язык РДО [Текст]/В.В. Емельянов, С.И. Ясиновский.-М.: АНВИК, 1998.-427 с.

7. Аксенов, К.А. Динамическое моделирование мультиагентных процессов преобразования ресурсов [Текст]/К.А. Аксенов, Н.В. Гончарова-Екатеринбург: ГОУ ВПО УГТУ-УПИ, 2006.-311 с.

8. Результаты обследования и формирования требований на создание единой ИС поддержки учебного процесса (с 15. 05. 2005 по 14. 02. 2006): Отчет по проекту № *01200601073/Г0У ВПО «УГТУ-УПИ» [Текст]/ Руко-вод. работы А.К. Аксенов. -Екатеринбург -2006.-119 с.

УДК 004.855.5

П.В. Трифонов

применение списочного декодирования в задаче классификации текстовых документов

Организация больших библиотек текстовых ния, причем для их эффективной работы необхо-документов (книг, статей, отчетов, архивов ново- димо наличие автоматизированных инструментов стей и т. п.) требует их тематического упорядоче- решения данной задачи. Ввиду отсутствия четких

критериев отнесения произвольного документа к той или иной категории до настоящего времени не удалось построить надежных алгоритмов решения этой задачи. Практически все известные методы автоматической классификации характеризуются достаточно большой вероятностью ошибки.

Широко распространенным методом борьбы со случайными ошибками в информационных системах является использование методов помехоустойчивого кодирования. В данной статье предлагается решение задачи автоматической классификации, в котором методы списочного декодирования, разработанные в теории корректирующих кодов, используются для повышения точности существующих алгоритмов классификации.

Статья организована следующим образом. В главе 1 описывается используемая модель представления документов. Предлагаемое решение задачи автоматической классификации изложено в главе 2. Численные результаты представлены в главе 3.

1. Представление данных для классификации

Предложения на естественных языках, как правило, могут быть описаны в виде некоторого марковского случайного процесса. Однако большой объем алфавита (т. е. словаря) и значительная глубина памяти этого процесса делают задачу нахождения его параметров практически неразрешимой. В связи с этим при решении задачи классификации обычно представляют текст в виде списка слов с указанием числа их вхождений. При этом устойчивые словосочетания могут рассматриваться как единые слова. Вместе с тем, многие общеупотребительные слова (союзы, предлоги и т. п.) несут крайне мало информации о тематической принадлежности документа. Поэтому они обычно исключаются из рассмотрения с целью упрощения последующей обработки. С другой стороны, различные грамматические формы слов, как правило, примерно равнозначны с точки зрения определения тематической принадлежности текста. Таким образом, целесообразно преобразование их на единой грамматической основе [2]. Результатом описанных преобразований является вектор g целых чисел (вектор признаков), указывающий количество вхождений в документ различных нетривиальных слов во всевозможных грамматических формах. Но даже

после применения описанных выше преобразований размерность этого вектора, т. е. число основ различных слов, встречающихся в обрабатываемых документах, остается чрезмерно большим. С целью повышения точности и скорости работы алгоритмов классификации целесообразно выделить те основы (ключевые слова), наличие или отсутствие которых в документах дает наибольшую информацию об их тематической принадлежности.

Пусть Б - множество документов и дана функция F(d): Б —>{0,1}, принимающая значение единицы тогда и только тогда, когда документ dеD содержит слово с номером г. Пусть Ср!) : Б —{0,1} — функция, принимающая значение единицы тогда и только тогда, когда документ dеD относится к категории . = 1..т. Значения этих функций являются случайными величинами, совместное распределение которых определяется свойствами рассматриваемого пространства документов Б. Факт наличия или отсутствия слова г в документе может быть использован для принятия решения о его принадлежности к категории только в том случае, если эти случайные величины являются зависимыми. Существуют различные подходы к отбору наиболее значимых компонентов вектора признаков, среди которых наибольшее распространение получили метод взаимной информации и критерий %2 [2]. Они сводятся к поиску г, соответствующих нескольким наибольшим значениям К^.(<3); С (с)) или Х2(^(йО; CCd)) соответственно. Здесь К(Т; В) =

.и Р{Т = а, В = Ь}

= > > Р{Т = а, В = Ь}1ов,—----—

ь=0 Р{ Т = а}Р{В = Ь}

взаимная информация случайных величин т и

2/Л.п\ Еа,Ь)

; N , — истин' а,Ь

В, и х (Т;В) =

а=0 Ь=0 Еа,Ь

ное количество в обучающем наборе документов с Т=а, В=Ь и ЕаЪ - математическое ожидание их количества, вычисленное в предположении о независимости случайных величин Т и В. Пусть Ф .. -множество отобранных таким образом признаков для категории.. Новый вектор признаков /составляется из компонентов исходного вектора g с номерами г е Ф..

Многочисленные эксперименты показывают, что для повышения точности классификации необходимо также ввести некоторую меру значимости для каждой компоненты сформированного описанным выше способом вектора признаков. Наибольшее распространение получила

схема взвешивания, известная как TF-IDF (term frequency-inverse document frequency) [2]. В соответствии с ней для каждого документа строится вектор взвешенных признаков с компонентами

N

h = f log —, i = 1..n, где N - общее число дог л ° n.

кументов в обучающем наборе; N. - число документов в нем, содержащих i-е отобранное ключевое слово; f - число вхождений i-го ключевого слова в рассматриваемый документ.

В результате описанных преобразований задача классификации текстовых документов сводится к задаче классификации векторов неотрицательных вещественных чисел.

2. Классификация с помощью

корректирующих кодов

Часто оказывается, что многие документы могут быть одновременно отнесены к нескольким категориям. В такой ситуации наиболее распространенным подходом к построению классификатора является построение m двоичных классификаторов, каждый из которых принимает решение о принадлежности или непринадлежности документа к соответствующей категории. Цель данной статьи — повышение точности автоматической многоклассовой категоризации.

Повышение точности категоризации может быть достигнуто путем построения нескольких элементарных двоичных классификаторов, совокупность решений которых используется для определения принадлежности документа к каждой из категорий. При этом каждой категории должна быть сопоставлена некоторая область в пространстве решений элементарных классификаторов, попадание в которую является достаточным условием для принятия решения о принадлежности документа к данной категории. Данный подход известен как помехоустойчивое выходное кодирование [1, 4]. Он предполагает построение таких решающих областей, как некоторых хем-минговых сфер с центрами, являющимися кодовыми словами корректирующего кода с подходящими параметрами. Более конкретно, каждой из категорий сопоставляется кодовое слово некоторого двоичного кода длины n. На этапе обучения производится построение n двоичных классификаторов некоторого типа, производящих распознавание каждого из символов кодовых слов. При предъявлении нового документа на этапе классификации формируется вектор оценок с.', после

чего находится ближайшее к нему кодовое слово и соответствующая ей категория. Таким образом, допускается возможность принятия некоторой частью элементарных классификаторов ошибочных решений, причем доля исправимых ошибок определяется минимальным расстоянием используемого корректирующего кода. При этом, однако, не удается обеспечить возможность отнесения документа одновременно к нескольким категориям. Кроме того, на этапе обучения из обучающей выборки приходится исключать документы, отнесенные к нескольким категориям. Данный подход не учитывает также расположение различных категорий в пространстве документов. В данной статье предлагается модификация метода помехоустойчивого выходного кодирования, позволяющая решить данную проблему.

Предлагаемый подход состоит в следующем. Сопоставим каждой категории некоторое кодовое слово с.=(с.1,с.2, ..., с П), ]=1..т, двоичного корректирующего кода длины п, так что различным категориям соответствуют различные кодовые слова.

Сопоставим /-му документу обучающего набора

щ

вектор меток (у.р ..., у.), где yik =

S=1

■сл.*

+ 0,5

щ

]— номер 5-й категории, сопоставленной документу, 5 = 1..м.. Видно, что эта схема сводится к голосованию по каждому символу кодовых слов, сопоставленных тем категориям, к которым относится данный документ. Введем также меру

*___ п ^

рассогласования А = . Чем она

; 5=1 к=1

меньше, тем точнее соответствует назначение кодовых слов реальному соотношению между различными категориями документов. Таким образом, возникает возможность оптимизации назначения кодовых слов категориям. Точное решение задачи минимизации функции А с учетом условия принадлежности векторов с. заданному коду требует значительных вычислительных затрат. В связи с этим возникает необходимость использования субоптимальных методов. Эксперименты показывают, что хорошие результаты могут быть получены путем построения нескольких случайных назначений и выбора из них того, которое соответствует наименьшему значению О. После нахождения субоптимального назначения меток могут быть построены п двоичных

классификаторов Ук : Ук(к(,)) ~у к = 1...п, где к() -взвешенный вектор признаков г-го документа и оператор ~ имеет смысл «почти для всех г». Найдем далее все кодовые слова, находящиеся в хем-минговых сферах заданного радиуса г с центрами (^(к®), ..., Уп(к('))). Выберем среди них те, которые попадают не менее чем в t таких сфер. Сопоставим каждому найденному таким образом кодовому слову список категорий, к которым относится г-й документ из обучающего набора. В результате модель, формируемая на этапе обучения, включает:

параметры элементарных классификаторов у(к) : Я+ — {0,1}, к = 1...п

список кодовых слов с. и соответствующих им категорий.

На этапе классификации документа, представленного в виде взвешенного вектора признаков к, воспользуемся построенными элементарными классификаторами для нахождения вектора (у1, ..., уп): ук=Ук(к). Далее найдем ближайшее к нему в метрике Хемминга кодовое слово с. и припишем классифицируемому документу категории, сопоставленные на этапе обучения этому кодовому слову.

Ключевой фактор, определяющий вычислительную эффективность вышеописанных процедур обучения и классификации, — наличие вычислительно простого алгоритма поиска кодовых слов используемого корректирующего кода, находящихся на заданном расстоянии г от вектора решений элементарных классификаторов. Для (п, К, с1) кодов БЧХ существует алгоритм решения данной задачи со сложностью, являющейся полиномиальной функцией от параметров кода, ( I-

[5]. В работах [7, 8]

Сравнение классификаторов

г п при — < —

п 2

1 1 - 2^ п

предложен быстрый алгоритм, позволяющий решить данную задачу с практически приемлемыми вычислительными затратами.

Основное отличие предлагаемого подхода от классического метода помехоустойчивого выходного кодирования состоит в том, что одной категории сопоставляется не одно, а несколько кодовых слов, причем их назначение производится с учетом реального взаиморасположения категорий в пространстве документов.

3. Численные результаты

Эффективность предложенного подхода была исследована на примере стандартной тестовой

Тип классификатора Точность Полнота

Метод опорных векторов без кодирования (гауссовское ядро) 0,86 0,88

Метод опорных векторов без кодирования (линейное ядро) 0,81 0,84

Метод опорных векторов (линейное ядро) с кодом БЧХ (1023, 16, 495) 0,92 0,63

Метод опорных векторов (линейное ядро) с кодом БЧХ (31, 11,9) 0,92 0,63

Метод опорных векторов (линейное ядро) с кодом БЧХ (127, 29,41) 0,96 0,56

коллекции Reuters-21578, широко используемой для сравнения качества различных классификаторов [2]. Она включает в себя как обучающий, так и контрольный наборы документов, причем многие документы отнесены одновременно к нескольким категориям. В качестве элементарных классификаторов были использованы машины опорных векторов с гауссовским и линейным ядрами [6]. Эффективность оценивалась в терминах точно-

сти Р =-

<Р №

и полноты = -

ЛГ

где

Np — число документов из контрольного набора, правильно опознанных как принадлежащие соответствующей категории; Np — количество документов; ошибочно отнесенных к этой категории; N/n — количество документов, ошибочно не отнесенных к ней. Полученные результаты были усреднены по всем категориям.

В таблице представлены результаты проведенных исследований. Видно, что применение предложенного подхода позволяет существенно повысить точность. Платой за это является некоторое снижение полноты классификации. Необходимо также отметить, что предлагаемый подход допускает использование элементарных классификаторов с линейным ядром, для которых обучение и классификация могут быть реализованы с использованием простых вычислительных алгоритмов.

В статье предложен новый метод решения задачи классификации текстовых документов с

обучением, основанный на использовании аппарата помехоустойчивого кодирования. Главное преимущество данного подхода, по сравнению с классическим методом помехоустойчивого вы-

ходного кодирования, — возможность отнесения одного документа к нескольким категориям.

Работа выполнена благодаря гранту Президента РФ для государственной поддержки молодых российских ученых № МК-1195.2009.9.

СПИСОК ЛИТЕРАТУРЫ

1.Dietterich,T.G. Solving multiclasslearningproblems via error-correcting output codes [TeKCT]/T.G. Dietterich// Journal of Artificial Intelligence Research.-1995.

2. Manning, C.D. Introduction to Information Retrieval [TeKCT]/C.D. Manning, P. Raghavan, H. Schuetze.-Cambridge University Press, 2008.

3. Masulli, F. Effectiveness of error correcting output coding methods in ensemble and monolithic learning machines [TeKCT]/F. Masulli, G. Valentini//Pattern Analysis and Applications.-2003.-Vol. 6. № 4.-P. 285-300.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

4. Lorena, A.C. A review on the combination of binary classifiers in multiclass problems [TeKCT]/A.C. Lorena, A.C.P.L.F. de Carvalho, J.M.P. Gama//Artificial Intelligence Review.-2008.-Vol. 30.-P 19-37.

5. Wu, Y. New List Decoding Algorithms for

Reed-Solomon and BCH Codes [Текст] /Y. Wu // IEEE Transactions On Information Theory.-2008. -Vol. 54.-№ 8.-P. 3611-3630.

6. Wang, L. Support Vector Machines: Theory and Applications [Текст] /L. Wang.-Springer, 2005.

7. Trifonov, P. Efficient Interpolation in the Guruswami-Sudan Algorithm [Текст]/Р. Trifonov//IEEE Transactions on Information Theory.-2010.-Vol. 56. -№ 9.-P. 4341-4349.

8. Trifonov, P.V. Another Derivation of Wu List Decoding Algorithm and Interpolation in Rational Curve Fitting [TeKCT]/P.V. Trifonov//Proc. of IEEE R8 International Conf. on Computational Technologies in Electrical and Electronics Engineering.-2010. -P. 59-64.

УДК 681.3

С.Ф. Тюрин, А.В. Греков, О.А. Громов

функционально-полныи толерантный элемент

Для повышения надежности цифровой аппаратуры часто используется троирование [1]. Это более чем трехкратная избыточность: необходимо три канала оборудования, мажоритарный элемент и три источника питания. При этом применяется мажоритарная функция:

^ = к!к2 V к1кз V К^

к1 = к2 = кз= к, где к1, к2, к3 - однобитовые результаты вычислений соответствующих трех каналов вычислений.

Эта функция обладает свойством толерантности к однократным отказам (сбоям) в одном из трех каналов: к(- (кг), к( -> 1, кг —» 0.

По существу, обеспечивается сохранение констант (0, 1).

Например, толерантность к константе «1» в канале № 1 обеспечивается следующим образом:

= 1к V к, V

2 V К3 V К2К3

= к V к V кк = к,

Толерантность к «0» в канале №1: z1 = 0КУ0кукк = 0У0УКК = К.

Кроме того, обеспечивается толерантность к инверсии в канале № 1 - к сбою:

z1 = ккуккукк = 0у0укк = к.

В случае, если «к» является функцией, например, выходом одновыходного комбинационного автомата, то сохранение этой функции обеспечивается только за счет троирования (мажоритиро-вания).

Менее затратным вариантом может быть обеспечение сохранения не самой функции, а лишь способности к ее восстановлению, например, за счет дополнительного времени, из оставшихся после отказа функций.

В [2-6] разработана концепция функционально-полного толерантного элемента (ФПТ элемента), сохраняющего не саму исходную функцию, а только лишь функциональную полноту при заданной модели отказов, например,

z

к1 к2 к3 к.

i Надоели баннеры? Вы всегда можете отключить рекламу.