Научная статья на тему 'О подходе к тематической классификации документов'

О подходе к тематической классификации документов Текст научной статьи по специальности «Математика»

CC BY
486
83
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ДОКУМЕНТ / КООРДИНАТНОЕ ИНДЕКСИРОВАНИЕ / МЕРА БЛИЗОСТИ / НОМИНАЛЬНАЯ ШКАЛА / DOCUMENT / COORDINATE INDEXING / MEASURE OF PROXIMITY / NOMINAL SCALE

Аннотация научной статьи по математике, автор научной работы — Федотов Анатолий Михайлович, Прозоров Олег Владимирович, Федотова Ольга Анатольевна, Бапанов Арсений Ауданбекович

Работа посвящена анализу подходов и алгоритмов классификации текстовых документов. Рассматривается подход к тематической классификации документов. Для этого используется специально построенная мера близости документов, учитывающая специфику предметной области. Значения весовых коэффициентов в формуле для вычисления меры близости определяются предполагаемой априорной достоверностью данных соответствующей шкалы.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Федотов Анатолий Михайлович, Прозоров Олег Владимирович, Федотова Ольга Анатольевна, Бапанов Арсений Ауданбекович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ON THE APPROACH TO THE THEMATIC CLASSIFICATION OF DOCUMENTS

The work is devoted to the analysis of approaches and algorithms for the classification of text documents. The approach to the thematic classification of documents is considered. For this purpose, a specially constructed measure of the proximity of documents is used, taking into account the specifics of the subject area. The values of the weight coefficients in the formula for computing the proximity measure are determined by the assumed a priori reliability of the data of the corresponding scale.

Текст научной работы на тему «О подходе к тематической классификации документов»

УДК 004.91

10 О О ^ А.

А. М. Федотов ' , О. В. Прозоров , О. А. Федотова ' , А. А. Бапанов

1 Институт вычислительных технологий СО РАН пр. Академика Лаврентьева, 6, Новосибирск, 630090, Россия

2 Новосибирский государственный университет ул. Пирогова, 2, Новосибирск, 630090, Россия

3 Государственная научно-техническая библиотека СО РАН

ул. Восход, 15, Новосибирск, 630090, Россия

4 Евразийский национальный университет им. Л. Н. Гумилева

ул. Сатпаева 2, Астана, 010000, Республика Казахстан

/ес1с>1сп>@п5с. ги

О ПОДХОДЕ К ТЕМАТИЧЕСКОЙ КЛАССИФИКАЦИИ ДОКУМЕНТОВ

Работа посвящена анализу подходов и алгоритмов классификации текстовых документов. Рассматривается подход к тематической классификации документов. Для этого используется специально построенная мера близости документов, учитывающая специфику предметной области. Значения весовых коэффициентов в формуле для вычисления меры близости определяются предполагаемой априорной достоверностью данных соответствующей шкалы.

Ключевые слова: документ, координатное индексирование, мера близости, номинальная шкала.

Введение

В процессе научной и, особенно, образовательной деятельности много времени и сил отнимает работа с литературными источниками: поиск необходимых документов, систематизация документов в соответствии с поставленной задачей. Для удовлетворения информационных потребностей современных пользователей необходима поддержка сложных функций поиска и классификации информации. Наиболее важной является задача систематизации ресурсов, для решения ее необходимо четко определить состав логико-семантических категорий (фасетов) и ключевых терминов (понятий), характеризующих эти категории.

Систематизация ресурсов осуществляется с помощью алгоритмов классификации и кластеризации.

Перед классификацией текстовые документы проходят этап координатного индексирования, после которого основное смысловое содержание текста выражается вектором весов или частот полнозначных слов (ключевых терминов). Следующим этапом после индексирования является этап классификации. На этом этапе необходимо определить алгоритм и меру близости, которые будут использоваться для классификации множества текстовых документов. В настоящее время существует множество алгоритмов, используемых для классификации документов: это алгоритмы, использующие разные меры близости, например алгоритм ^-ближайших соседей, алгоритм Роккио и др., и алгоритмы, использующие свои понятия о близости документов, например алгоритм Байеса, алгоритм деревьев принятия решений и др.

Федотов А. М., Прозоров О. В., Федотова О. А., Бапанов А. А. О подходе к тематической классификации документов // Вестн. НГУ. Серия: Информационные технологии. 2017. Т. 15, № 1. С. 79-88.

ISSN 1818-7900. Вестник НГУ. Серия: Информационные технологии. 2017. Том 15, № 1 © А. М. Федотов, О. В. Прозоров, О. А. Федотова, А. А. Бапанов, 2017

Работа посвящена анализу подходов и алгоритмов классификации текстовых документов.

Постановка задачи

1. Пусть имеется множество документов О = {йп , где N - общее количество документов, которое разбито на К множеств классов С = \Ск ^ , где К - количество классов. Множества Ск, вообще говоря, могут пересекаться.

2. Множество документов О, разбитое на К множеств классов С, может быть подготовлено двумя способами:

• эмпирически;

• аксиоматически.

При эмпирическом способе задание множества классов осуществляется экспертом на основе непосредственного сравнения общих свойств некоторого класса документов. Аксиоматическое задание множества классов осуществляется на основе анализа множества документов О при помощи ранее выработанных условий или правил, которым должен удовлетворять документ. На практике используется комбинация этих способов - над частью документов задается аксиоматическое отнесение к классам, а для документов, загружаемых пользователями, - эмпирическое.

Задачей классификации является отнесение нового документа а к какому-либо классу множества С. Каждый поступающий в систему документ должен автоматически соотноситься с одним или несколькими классами. Множество документов О называют обучающей выборкой.

Координатное индексирование

Индексирование - процесс выражения главного предмета или темы текста какого-либо документа в виде множества ключевых слов или дескрипторов [1]. Применяется для облегчения поиска необходимого текста среди множества других. Различают два основных типа индексирования: классификационное и координатное.

При классификационном индексировании, или классифицировании, тексты в зависимости от их содержания включаются в соответствующий класс (один или несколько), в котором собираются все тексты, имеющие в основном одинаковое смысловое содержание. Каждому такому тексту присваивается индекс этого класса, служащий далее его поисковым образом.

При координатном индексировании основное смысловое содержание текста выражается перечнем полнозначных слов, выбираемых либо из самого текста или его заглавия, либо из специального нормативного словаря (тезауруса). В первом случае такие лексические единицы называются ключевыми словами, а во втором - дескрипторами [1]. Каждое ключевое слово или дескриптор обозначает класс, в который потенциально входят все тексты, где в выражения основного смыслового содержания входит это слово. Логическое произведение классов, которые обозначены всеми словами, выражающими в совокупности основное смысловое содержание текста, образует некоторый сложный класс. Построенный таким способом сложный класс обозначается перечнем ключевых слов или дескрипторов, и этот перечень служит поисковым образом данного текста.

Основное преимущество координатного индексирования перед классификационным заключается в том, что координатное индексирование не создает никаких затруднений при поиске текстов по любому, заранее не предусмотренному сочетанию признаков.

Координатное индексирование состоит из нескольких этапов:

1) морфологический анализ текстов;

2) формирование списка ключевых терминов;

3) построение признакового пространства.

Морфологический анализ текстов (лемматизация). При автоматизации процесса координатного индексирования возникает задача идентификации слов текста на естественном языке, приведение их к нормализованному виду и сопоставление их с ключевыми терминами

из тезауруса. Она решается с использованием морфологического анализатора, в котором задаются морфологические признаки слов текста и определяются нормальные формы слов.

Морфологический анализ обеспечивает определение нормальной формы, от которой была образована данная словоформа, и набора параметров, приписанных данной словоформе. Это делается для того, чтобы ориентироваться в дальнейшем только на нормальную форму, а не на все словоформы, использовать параметры, например, для проверки согласования слов [2]. Использование тезауруса позволяет учесть синонимы в ключевых терминах [3].

Формирование списка ключевых терминов. Список ключевых терминов является основным ресурсом для работы алгоритма классификации или кластеризации, помимо самих текстовых документов.

В работе использовалось два способа формирования списка ключевых терминов:

1) на основе тезауруса;

2) на основе ключевых слов из текстовых документов обучающей выборки D.

При формировании списка ключевых терминов на основе тезауруса берется весь список ключевых терминов тезауруса, а при формировании списка ключевых терминов на основе ключевых слов из текстового документа задается порог встречаемости, начиная с которого слово попадает в список ключевых терминов.

Обозначим множество ключевых терминов, характеризующих тематику документов

T = \ti jM_i , (где M- общее количество ключевых терминов).

Построение признакового пространства. Признаковое пространство определяет данные, которые будут использованы для классификации или кластеризации. Примерами являются частоты встречаемости или веса ключевых терминов.

В случае построения признакового пространства на основе частот встречаемости ключевых терминов выполняется следующее: для каждого ключевого термина подсчитывается частота встречаемости этого термина в каждом отдельном текстовом документе. Эта частота используется для определения степени важности конкретного ключевого термина для текстового документа. Таким образом, для каждого текстового документа формируется вектор с частотами встречаемости ключевых терминов в этом документе. На основе этого вектора формируется некая «точка данных», соответствующая текстовому документу и представляемая в M-мерном пространстве, где M равно количеству ключевых терминов. У каждого текстового документа свой вектор. Именно эти векторы образуют множество объектов, которые и использует на входе алгоритм классификации или кластеризации для разделения текстовых документов.

Кроме частоты встречаемости ключевых терминов, показателем важности ключевого слова для текстового документа является вес. Вес ключевого термина может определяться разными способами. Он может быть задан экспертом или подсчитан на основе частот встречаемости. При подсчете веса на основе частот встречаемости может быть использована технология TF-IDF, которая определяет, что вес ключевого термина прямо пропорционален частоте встречаемости этого ключевого термина в текстовом документе, для которого определяется вес, и обратно пропорционален частоте встречаемости этого ключевого термина во всех остальных текстовых документах.

Схема взвешивания TF (term frequency - частота терма). Пусть fj - число вхождений

терминаа ti в документ d:. Тогда частота терма определяется как

где 0 < i < M, 0 < j < N. Отметим, что эта характеристика пропорциональна частоте встречаемости термина.

Схема взвешивания IDF (inverse document frequency - обратная частота термина) - инверсия частоты, с которой термин встречается в документах коллекции. Учет IDF уменьшает вес широкоупотребительных слов. Для каждого уникального термина в пределах конкретной коллекции документов существует только одно значение IDF:

TF(t d \ = —frL

где N - количество документов в коллекции, |(а с t¡ )| - количество документов, в которых

встречается ti (когда /г Ф 0), 0 < i < М.

Априорный вес некоторого термина пропорционален количеству употребления этого термина в документе и обратно пропорционален частоте употребления термина в других документах коллекции. Кроме того, априорный вес термина зависит от экспертной оценки его значимости.

Учет разделов текста. Документы помимо основного текста имеют некоторое структурное описание, называемое метаданными. К метаданным относятся: заголовок, список авторов, аннотация, авторские ключевые слова, классификационные коды, список литературы и, возможно, другие поля. При классификации эти разделы по другому обрабатываются. В работе используется индексация следующих типов метаданных: заголовок, аннотация, авторские ключевые слова, каждое со своим весовым коэффициентом.

Можно использовать список литературы, выделяя классы, которым принадлежит конкретная ссылка, но у нас для этого слишком мала обучающая выборка (394 документа). Индексация списка литературы ухудшает процедуру классификации.

Мера близости

Для того чтобы сравнивать два объекта, необходимо иметь критерий, на основании которого будет происходить сравнение, т. е. необходимо выбрать меру близости. Как правило, таким критерием является расстояние между объектами.

Мера близости определяет понятие сходства между сравниваемыми объектами. Причем сходство объектов может быть симметричным и несимметричным. Из названий ясно, что, допустим, симметричное сходство определяется тем, что для двух сравниваемых объектов А и В выполняется следующее: если А похож на В, то и В похож на А.

Если же признак, по которому определяется сходство, является отношением, то такое сходство может быть несимметричным. Для полного понимания этого утверждения можно привести пример. На множестве городов - административных центров субъектов Российской Федерации установим в качестве признака сходства близость расстояний между городами. С помощью географической карты нетрудно увидеть, что для Калининграда наиболее близкими (а следовательно, и сходными в заданном понимании) городами будут Псков и Смоленск. Однако для Пскова в качестве «наиболее сходных» городов будут названы отнюдь не Калининград, а Новгород и Санкт-Петербург, для Смоленска - Брянск и Калуга.

Таким образом, сходство определяется мерой близости. Выбор меры близости является важным моментом исследования, от которого решающим образом зависит окончательный вариант разбиения объектов на классы при заданном алгоритме разбиения. В каждой конкретной задаче этот выбор должен производиться по-своему в зависимости от целей исследования, физической и статистической природы вектора анализируемых объектов.

Предлагаемый подход к построению меры близости, используемой для классификации документов, основан на понятии толерантности документов [4].

Количественная характеристика меры близости определяется на множестве документов О следующим образом:

т : В х В ^[0,1],

причем функция т в случае полного сходства принимает значение 1, в случае полного различия - 0. Рассмотрим два документа а1 и а2.

Пусть Р = {р1 ^ - упорядоченный каким-либо образом (например, лексиграфически)

список ключевых терминов, входящих в оба документа, с учетом повторений (где М -общее количество ключевых терминов, с учетом повторений). Вычисление меры близости осуществляется по следующей формуле:

м

т Ц, С2 ) = (1, С 2),

1=1

где 1 - номер элемента метаданных (ключевого термина), mi (С1,С2) - мера близости по 1 элементу (иными словами по 1 шкале), аi - весовые коэффициенты. Поскольку в описываемой ситуации практически все шкалы - номинальные (состоящие из дискретных текстовых значений), то мера сходства по 1-й шкале определяется следующим образом: если значения 1-х элементов документов совпадают, то мера близости равна 1, иначе 0. Весовые коэффициенты должны удовлетворять следующим условиям:

м

Еа1 = 1' а1 =а;,

1 =1

если значение термина pi совпадает с значением термина pj.

Пусть Т = {¿к ^ - список уникальных ключевых терминов (список ключевых терминов,

формирующих признаковое пространство), входящих в оба документа, Мк - число повторений термина 4. Тогда меру близости можно переписать:

м

т (^ С 2 ) = Е(а к • Мк )(к/Мк )

к=1

где

ак - весовой коэффициент соответствующий значению термина 1к, тк - число совпадений термина ^к в документах С1 и С2.

Мы получаем новые весовые коэффициенты Рк =ак • Мк, которые характеризуют уже конкретный ключевой термин. Не трудно видеть, что

ЕРк=1.

к=1

Отметим, что здесь мы автоматически получаем, что весовой коэффициент пропорционален частоте встречаемости термина. Кроме того, при задании меры можно принять во внимание тот факт, что значения весовых коэффициентов Рк определяются предполагаемой априорной достоверностью данных соответствующей шкалы, и в определенных случаях один из коэффициентов может быть увеличен с пропорциональным уменьшением остальных. Например, полное (или даже «почти полное») совпадение значений какого-либо атрибута документа с1 и документа с2 может быть более весомо в случае, когда количество значений этого атрибута в документе с1 достаточно велико (по сравнению со случаем, когда документ с1 имеет всего одно значение).

Расстояние Евклида. Наиболее распространенная функция расстояния. Представляет собой геометрическое расстояние в многомерном пространстве:

ГМ

Р (^ С2 К КХ1к - Х2к )

V к =1

где

1) х1к, х2к - частота встречаемости (или вес) к-й термина 1-го (2-го) документа;

2) к = 1, 2, ..., М;

3) м - количество ключевых терминов (размерность пространства).

Широко используется в классификационных алгоритмах в качестве меры близости.

Алгоритмы, использующие меру близости

Пусть имеется множество документов В = {а?я ^ , где N - общее количество документов,

которое разбито на К множеств классов С = {Ск ^ , где К - количество классов.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Алгоритм к-ближайших соседей. Данный алгоритм является одним из самых простых алгоритмов классификации. Для классификации нового текстового документа необходимо выполнить следующие действия:

1) вычислить расстояние до каждого из документов множества В;

2) отобрать к документов, расстояние до которых минимально;

3) класс классифицируемого объекта - это класс, который наиболее часто встречается среди к ближайших соседей.

Таким образом, суть алгоритма к-ближайшего соседа: определение отношения документа к преобладающему классу его к соседей. Например, при параметре к = 1 алгоритм относит документ к классу самого ближайшего ему документа.

При к = 1 качество классификации будет низким, так как классификация зависит только от одного документа из обучающей выборки, а он может иметь неверную метку класса или быть нетипичным. При подборе параметра к обычно полагаются на опыт экспертов или на имеющиеся знания о решаемой задаче. Кроме того, число соседей можно подобрать на обучающем множестве так, чтобы максимизировать качество классификации.

Кроме точности классификации проблемой этого алгоритма является скорость классификации: если в обучающей выборке N документов, подлежит классификации К документов, а размерность пространства М, то количество операций для классификации может быть оценено как О(К • М • N).

Алгоритм Роккио. Данный алгоритм во многом аналогичен алгоритму к-ближайших соседей. Основным отличием является то, что алгоритм Роккио использует центроиды, которые соответствуют классам из обучающей выборки. Для каждого класса определен центроид или представитель класса (представитель класса обычно определяется с помощью эксперта). Центроидом класса Ск называется усредненный вектор частот встречаемости терминов или весов, который вычисляется по формуле

Д (Ск ) = Дг I а О * (а )

\ВС I

I Ск I

где ВСк - множество документов класса Ск, *(а) - нормализованный вектор документа а.

Правило классификации заключается в определении центроида д(Ск), к которому точка лежит ближе, чем к другим центроидам, и приписывании этой точки к классу Ск . Другими словами, новые документы классифицируются по ближайшему к ним центроиду.

Классификация Роккио проста в реализации, эффективна по скорости и весьма точна (точность зависит от выбора весовых коэффициентов задании меры близости и представителя класса - насколько точно он описывает класс).

Алгоритм «наивной» классификации. Пусть Т = ^^ - список уникальных ключевых

терминов, характеризующих классы С = |Ск ^ . На практике ключевые термины выбираются из тезауруса, характеризующего предметную область.

В каждом классе зададим с помощью эксперта веса ключевых терминов рт как веса, используемые по мере близости

М М

д?1, Ск )=£рт дт (1, ^к), £рт=1,

т=1 т=1

где дт (а1,ск) - мера сходства между документом и классом по т-му ключевому термину.

Поскольку в описываемой ситуации все шкалы - номинальные (состоящие из дискретных текстовых значений), то мера сходства по т-й шкале определяется следующим образом: если

значения т-х элементов совпадают (ключевой термин есть и в документе, и в характеристике класса), то мера близости равна 1, иначе 0.

Алгоритм достаточно прост. Вычисляются меры сходства между новым документом и всеми классами и выбирается класс, с которым сходство максимальное.

На практике документ принадлежит классу Ск, если мера близости превышает определенный порог. Экспериментально установлено, что этот порог > 0,7.

Логически этот алгоритм близок к алгоритму дерева принятия решений.

Алгоритмы, не использующие меру близости

Алгоритм «наивной» байесовской классификации. Байесовская «наивная» классификация основывается на следующих предположениях [5]:

1) использование всех ключевых терминов и определение всех зависимостей между ними;

2) наличие двух предположений относительно ключевых терминов:

• все ключевые термины являются одинаково важными;

• все ключевые термины являются статистически независимыми, т. е. вхождение одного ключевого термина в класс не зависит от другого.

Рассмотрим вероятность вхождения ключевого термина ^ е Т в класс Ск:

Р (Ск ) = У Яя , (1)

еТ

где Н - частота встречаемости ключевого термина ^ в документах класса Ск.

Другими словами, числитель описывает, сколько раз ключевое слово ^ встречается в документах класса Ск (включая повторы), а знаменатель - это суммарное количество встречаемости ключевых терминов во всех документах этого класса.

Определим условную вероятность Р (а|Ск ) встретить документ а в классе Ск. Алгоритм

Байеса представляет документ как набор ключевых терминов. Сделаем предположение, что условные вероятности встречаемости ключевых терминов в документе не зависят друг от друга. Исходя из этого, условную вероятность встречаемости документа можно определить как суммарную вероятность вхождения ключевых терминов документа а в класс Ск .

Р (а\Ск )= Р ( Ск )Р (Ск )...р (М(а) Ск )=П е_т(а)Р МСк ), (2)

где Т (а) - множество ключевых терминов, входящих в документ а .

Однако для этой формулы, если хотя бы один из ключевых терминов, входящих в документ а , не входит в класс Ск, то произведение Пет(а)Р (¿|Ск ), а следственно, и Р (а|Ск ) будут равны нулю. Это приведет к тому, что документ с этим ключевым термином нельзя будет классифицировать, так как он будет иметь нулевую вероятность для этого класса, что неверно, поскольку всегда существует вероятность, что документ принадлежит данному классу. Решением этой проблемы является аддитивное сглаживание (сглаживание Лапласа), идея которого заключается в допущении того, что хотя бы один из ключевых терминов из документа должен присутствовать в классе, т. е. прибавляем единицу к частоте каждого ключевого термина в формуле (1):

Р ((Ск ) = -

НСк + 1 НСк + 1

У, н +1 м+У, н

¿—и! еТ *ск еТ *ск

Данный подход дает смещение оценки вероятностей в сторону менее вероятных исходов. Таким образом, ключевые слова, которые не присутствуют в классе, получают пусть маленькую, но все же не нулевую вероятность.

Априорное распределение документов по классам определяется по формуле

Р (Ск ) = ^,

где |Ск| - количество документов из В, которым приписан класс Ск, N - количество документов в В.

Используя формулу полной вероятности, определяем вероятность принадлежности документа а классу Ск:

Р(Ск \а) = Р(а|Ск)Р(Ск).

Используя метод оценки максимального правдоподобия, рассчитываем вероятности для всех классов и выбираем класс, который обладает максимальной вероятностью:

стар = агвтахс^ ес [р (а|ск)Р (ск )]. (3)

Подставив выражение (2) в формулу (3), мы получим

с = ат тах

тар о с

Р (ск )Пгет(а)Р (фк )] .

Алгоритм деревьев принятия решений. Результат классификации, а также сам ее процесс, наглядно моделируется с помощью алгоритма деревьев принятия решений [5]. Обучающее множество для данного алгоритма представляет собой набор текстовых документов. На основе данного множества строится дерево, которое состоит из следующих составных частей: узлы - это термины документов, листья - метки классов, а ребра - веса терминов.

Пример дерева принятия решений с бинарными весами терминов:

Термин1

* А

Термин2

истина

Термин4 л

истина

С

с

ТерминЗ

ложь истина ложь

■1 Г

- 1

с С с

При обучении алгоритма выполняются следующие действия: рассматривают текстовые документы из обучающего множества, проверяют, все ли документы данного множества имеют одинаковую метку класса; если нет, то ищут термин, обладающий наибольшей различительной способностью для разделения этих документов на классы; получают два подмножества документов и строят их поддеревья, повторяя все сначала, пока не получат подмножество документов одного класса, тогда добавляют в соответствующее поддерево лист с меткой этого класса.

Классификация текстового документа происходит следующим образом: документ прогоняется по дереву, выбираются ветви, соответствующие терминам документа. В итоге документу присваивается класс, соответствующий достигнутому листу.

Заключение

В ходе работы были проанализированы алгоритмы классификации, рассмотренные алгоритмы протестированы в сочетании с различными мерами близости (расстояние Евклида и мера, основанная на номинальных шкалах).

Также реализован алгоритм классификации Байеса, который дает похожие результаты.

В результате проведенных экспериментов были сделаны следующие выводы:

1) перед процессом индексирования для повышения качества классификации из текстовых документов необходимо удалить список литературы;

2) перед процессом индексирования для алгоритмов, использующих частоты встречаемости ключевых терминов, из текстовых документов необходимо убрать название, аннотацию и авторские ключевые слова, поскольку они нарушают естественную частоту встречаемости (это ограничение не распространяется на алгоритмы «наивной» классификации и дерева решений);

3) классифицируемые текстовые документы должны быть примерно одинакового размера, иначе качество классификации падает по причине большой разницы в количестве ключевых слов (это ограничение не распространяется на алгоритмы «наивной» классификации и дерева решений);

4) списки ключевых слов классифицируемых текстовых документов должны быть нормированы перед процессом классификации;

5) при классификации алгоритмом Байеса может возникать проблема зануления вероятности вхождения текстового документа в некоторый класс, решением которой является аддитивное сглаживание (сглаживание Лапласа).

Также в процессе экспериментов была выявлена интересная закономерность: алгоритм классификации на основе частотной модели объединяет в одну группу статьи, написанные одним и тем же автором по одной и той же тематике. Это происходит по причине того, что каждый автор имеет уникальный словарный запас, который можно рассматривать как список ключевых слов для определения написанных им текстовых документов.

Тематическая классификация использовалась при формировании списков литературы из электронной библиотеки по учебному курсу «Информатика» 1. Лектором была охарактеризована каждая тема курса - ключевыми терминами из тезауруса по информатике. Проставлены коэффициенты значимости терминов для каждой темы, дальше был применен алгоритм «наивной» классификации для отбора публикаций из библиотеки. Публикации в библиотеке были предварительно проиндексированы с учетом тезауруса. В курсе 8 тем, тема характеризуется 5-12 терминами. Тестирование алгоритма дало хорошие результаты.

Алгоритм деревьев принятия решений на этом материале дал похожие результаты.

Список литературы

1. Михайлов А. И., Черный А. И., Гиляревский Р. С. Основы информатики. 2-е изд. М., 1968.

2. Федотов А. М., Тусупов Д. А., Самбетбаева М. А., Еримбетова А. С., Бакиева А. М., Идрисова А. И. Модель определения нормальной формы слова для казахского языка // Вестн. НГУ. Серия: Информационные технологии. 2015. Т. 13, № 1. С. 107-116. ISSN 1818-7900. EISSN 2410-0420.

3. Федотов А. М., Идрисова И. А., Самбетбаева М. А., Федотова О. А. Использование тезауруса в научно-образовательной информационной системе // Вестн. НГУ. Серия: Информационные технологии. 2015. Т. 13, № 2. С. 86-102. ISSN 1818-7900. EISSN 2410-0420.

4. Федотов А. М., Барахнин В. Б., Жижимов О. Л., Федотова О. А. Модель информационной системы для поддержки научно-педагогической деятельности // Вестн. НГУ. Серия: Информационные технологии. 2014. Т. 12, № 1. С. 89-101. ISSN 1818-7900. EISSN 24100420.

5. Большакова Е. И., Клышинский Э. С., Ландэ Д. В., Носков А. А., Пескова О. В., Ягуно-ва Е. В. Автоматическая обработка текстов на естественном языке и компьютерная лингвистика. М.: МИЭМ, 2011. 272 с.

Материал поступил в редколлегию 15.03.2017

1 http://fedotov.nsu.ru/info/

A. M. Fedotov 1 2, O. V. Prozorov 2, O. A. Fedotova 3, A. A. Bapanov 4

1 Insitute of Computational Technologies SB RAS 6 Acad. Lavrentiev Ave., Novosibirsk, 630090, Russian Federation

2 Novosibirsk State University 2 Pirogov Str., Novosibirsk, 630090, Russian Federation

3 State Public Scientific and Technical Library SB RAS 15 Voskhod Str., Novosibirsk, 630200, Russian Federation

4 L. N. Gumilyov Eurasian National University 2 Satpaev Str., Astana, 010000, Kazakhstan

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

fedotov@nsc. ru

ON THE APPROACH TO THE THEMATIC CLASSIFICATION OF DOCUMENTS

The work is devoted to the analysis of approaches and algorithms for the classification of text documents. The approach to the thematic classification of documents is considered. For this purpose, a specially constructed measure of the proximity of documents is used, taking into account the specifics of the subject area. The values of the weight coefficients in the formula for computing the proximity measure are determined by the assumed a priori reliability of the data of the corresponding scale.

Keywords: document, coordinate indexing, measure of proximity, nominal scale.

References

1. Mihailov A. I., Chernyh A. I., Gilyarevskiy R. S. Fundamentals of Informatics. 2 ed. Мoscow, 1968. (in Russ.)

2. Fedotov A. M., Tusupov D. A., Sambetbaeva M. A., Erimbetova A. S., Bakieva A. M., Idrisova I. A. The model for determining the normal form of a word for the Kazakh language. Vestnik NSU. Series: Information Technologies, 2015, vol. 13, no. 1, p. 107-116. ISSN 1818-7900. EISSN 2410-0420. (in Russ.)

3. Fedotov A. M., Idrisova I. A., Sambetbaeva M. A., Fedotova O. A. Use of the thesaurus in the scientific and educational information system. Vestnik NSU. Series: Information Technologies, 2015, vol. 13, no. 2, p. 86-102. ISSN 1818-7900. EISSN 2410-0420. (in Russ.)

4. Fedotov A. M., Barahnin V. B., Zhizhimov O. L., Fedotova O. A. Model of the information system for supporting scientific and pedagogical activity. Vestnik NSU. Series: Information Technologies, 2014, vol. 12, no. 1, p. 89-101. ISSN 1818-7900. EISSN 2410-0420. (in Russ.)

5. Bolshakova E. I., Klyshynskiy E. S., Lande D. V., Noskov A. A., Peskova O. V., Yaguno-va E. V. Automatic processing of texts in natural language and computer linguistics. Мoscow, 2011, 272 p. (in Russ.)

For citation:

Fedotov A. M., Prozorov O. V., Fedotova O. A., Bapanov A. A. On the Approach to the Thematic Classification of Documents. Vestnik NSU. Series: Information Technologies, 2017, vol. 15, no. 1, p. 79-88. (in Russ.)

i Надоели баннеры? Вы всегда можете отключить рекламу.