Проблема классификации текстов и дифференцирующие признаки

Поляков Игорь Викторович; Соколова Татьяна Владимировна; Чеповский Александр Андреевич; Чеповский Андрей Михайлович

УДК 519.248.6: 519.766.4

И. В. Поляков, Т. В. Соколова, А. А. Чеповский, А. М. Чеповский

Национальный исследовательский университет Высшая школа экономики ул. Мясницкая, 20, Москва, 101000, Россия

ПРОБЛЕМА КЛАССИФИКАЦИИ ТЕКСТОВ И ДИФФЕРЕНЦИРУЮЩИЕ ПРИЗНАКИ

Описан метод классификации текстов на естественных языках, основанный на методе взаимной информации. Показано, что псевдоосновы, выделенные аналитическим алгоритмом морфологического анализа, являются универсальными дифференцирующими признаками при классификации текстовых сообщений. Ключевые слова: классификация текстов, метод взаимной информации.

Введение

В информационных системах различного типа, предназначенных для обработки в автоматическом режиме больших объемов текстов на естественных языках, актуальны различные задачи распознавания текстовой информации [1; 2]. Задача классификации текстовых сообщений по тематике - это задача распознавания образов, которая может решаться с единых позиций теории информации и алгебраической теории [3-5].

Требование автоматизации процессов обработки текстовой информации придают особую важность проблемам классификации текстов на естественном языке по тематике, авторству, стилю и жанру письма.

Актуальной проблемой является классификация по тематической, психолингвистической направленности коротких текстов [6; 7], особенно состоящих из одного-двух предложений или даже нескольких слов. Такие тексты встречаются в комментариях к интернет-блогам, на форумах.

Принципы построения систем классификации больших объемов текстовой информации довольно универсальны [1; 5; 6]. Принадлежность к тому или иному классу определяется выделенными наборами признаков. Поэтому интерес представляют как алгоритмы решения данной задачи [6; 8-10], так и выбор тех дифференцирующих признаков, которые определяют отнесение текстов к заданным рубрикам [6; 8; 10]. Выбор дифференцирующих признаков является ключевым для создания методик классификации текстов на естественных языках, если алгоритм не опирается на сложную словарную систему, как в [9]. Отметим, что задача классификации и рубрикации текстов чаще всего привязана к конкретному естественному языку [6; 8; 10].

В случае текстов в качестве признаков обычно рассматриваются слова и взаимосвязанные наборы слов, содержащиеся в текстах. Отметим, что для решения задачи классификации текстов по авторству предлагалось использовать частоты проявления символов и сочетаний символов языка, применение буквосочетаний символов [8]. Исследования различных грам-

Поляков И. В., Соколова Т. В., Чеповский А. А., Чеповский А. М. Проблема классификации текстов и дифференцирующие признаки // Вестн. Новосиб. гос. ун-та. Серия: Информационные технологии. 2015. Т. 13, вып. 2. С. 55-63.

ISSN 1818-7900. Вестник НГУ. Серия: Информационные технологии. 2015. Том 13, выпуск 2 © И. В. Поляков, Т. В. Соколова, А. А. Чеповский, А. М. Чеповский, 2015

матических форм в качестве дифференцирующих признаков для тематической классификации текстов на русском языке проводились в [6; 10; 11]. Представляет интерес определение таких универсальных методов и дифференцирующих признаков, которые могут рассматриваться с позиций единых методик для различных естественных языков.

В [10; 12] задача идентификации языка и классификации текстов решалась на базе вероятностной модели строки текста и Байесовского классификатора.

В данной работе мы рассматриваем методику классификации текстовых сообщений на различных естественных языках на базе метода взаимной информации с целью выявить нарушения законодательства в сети Интернет и анализируем выбор наиболее эффективных и универсальных дифференцирующих признаков.

Сформулируем основные положения метода взаимной информации, основанного на алгебраической теории информации [5] и алгебраической теории распознавания образов [3; 4].

Информационная матрица

Введем обозначения для количественных характеристик документов, которые характеризуются Ь признакамиX (у = 1, ..., Ь) и могут принадлежать К классам У, (/ = 1, ..., К):

^У - количество документов, принадлежащих классу У1, содержащих признак X;

Ву - количество документов, не релевантных классу У, содержащих признак X; - количество документов, принадлежащих классу У,, не содержащих признак X;

Вец - количество документов, не релевантных классу У, и не содержащих признак X].

Общее количество текстов, принадлежащих к классу У,:

1 = XX + Ц. (1)

Общее количество текстов, не принадлежащих к классу У,:

В = ВХ + в;. (2)

Условная вероятность того, что текст, содержащий признак X, принадлежит классу У,:

Р (У<Х)

IX

щХ + вX

(3)

Условная вероятность того, что текст, содержащий признак X, не принадлежит классу Уг-:

Р(^у )1 - Р (у^]. ) RBX_. (4)

У у

Условная вероятность того, что текст, не содержащий признак X, принадлежит классу У:

щ;

в (К )=1у. (5)

у у

Условная вероятность того, что текст, не содержащий признак X, не принадлежит классу У:

в;

в(Уí|Xу ) - в ((|Xу)= 1у: (6)

у У

Для оценки соответствия документа заданному классу вводится критерий релевантности, который показывает соответствие получаемого результата желаемому. Предполагаем, что признак Xу тем более релевантен классу Уг-, чем выше вероятность непринадлежности классу при отсутствии признака и принадлежности классу при наличии признака. С другой стороны, признак Xу тем более релевантен классу Уи чем ниже вероятность принадлежности классу при отсутствии признака и непринадлежности классу при наличии признака.

Тогда коэффициент релевантности определится как отношение произведений вероятностей:

0 р (у^У )в(у^У ) щт (7)

р* = р (X )в (X ) BX/B;-BXЦ. ()

Для оценки взаимосвязи между признаками используется коэффициент корреляции, который определим как фита-коэффициент (phi-coefficient) Пирсона [13]:

(RXBe - ReBX )

в.. - У v v х v ' . (8)

Значения данного коэффициента изменяются в интервале [-1,1]. Значения, близкие к 1, показывают сильную взаимосвязь признаков класса.

Для обоих введенных коэффициентов (релевантности и корреляции) справедливо утверждение, что большие их значения соответствуют признакам, наиболее точно характеризующим данный класс.

Элементы информационной матрицы I. определяются как пара - коэффициент релевантности и коэффициент корреляции:

Ix = К, в. }. (9)

Принадлежность документа к данному классу будет определяться наличием в нем признаков, релевантных данному классу и коррелирующих с признаками рассматриваемого класса, а также отсутствием нерелевантных признаков и признаков, не коррелирующих с признаками данного класса.

Алгоритмы обучения и классификации

На основании (1)-(9) можно сформулировать алгоритм обучения системы классификации. Алгоритм 1. Алгоритм обучения системы классификации.

Для каждой пары Y, X. (класс, признак) по формулам изложенным выше вычислим коэффициенты релевантности (7) и корреляции (8):

Рх = вхщ'

(RXBe - ReBX )

\ У V ч ч )

Сформируем информационную матрицу, состоящую из найденных коэффициентов:

^ ={р V ,8 V ).

Процедура обучения завершается. Результатом процедуры обучения является данная матрица.

Определим показатели соответствия классам для анализируемого «-го текста, имеющего т„] - количество вхождений /-го признака в анализируемый п-й текст.

Коэффициент релевантности текста относительно класса Yi запишется как скалярное произведение вектора признаков «-го текста {т«} и строки коэффициентов релевантности, соответствующей классу Yi в информационной матрице:

= Е)=1(Р/ • т/ ).

Считается, что п-й текст релевантен классу если

а« е Вг = [<",о),

где - область значений коэффициента релевантности, характеризующих принадлежность к ^му классу.

Порог релевантности:

5> = ¿Г.

Коэффициент корреляции текста относительно класса Yi запишется как скалярное произведение вектора признаков «-го текста {т«} и строки коэффициентов корреляции, соответствующей классу Yi в информационной матрице:

е«=Е ]=1(8/ •т«/у.

Считается, что n-й текст коррелирует с классом Y7, если

w Rjiawwuivi i WWJIJ'I

е. еG =Гgmin,да),

т 7 |_0 7 5 J ?

где G - область значений коэффициента корреляции, характеризующих принадлежность к 7-му классу.

Порог корреляции:

min

Ji=g . .

Пороги релевантности и корреляции служат параметрами, управляющими точностью обучения и классификации.

В процессе классификации каждого текста вычисляются его коэффициенты релевантности и корреляции относительно каждого из классов. Документ относится к тем классам, для которых произошло превышение пороговых значений как по коэффициенту корреляции, так и по коэффициенту релевантности.

Алгоритм 2. Алгоритм классификации n-го документа:

для каждого признака Xj найдем вектор \mnj J,

для каждого класса Yi вычислим векторы

считаем, что п-й текст релевантен 7-му классу.

Суть алгоритма состоит в нахождении признаков, имеющих вхождения в данный текст. После этого коэффициенты релевантности и корреляции текста с данным классом вычисляются как суммы соответствующих коэффициентов для данного класса по всем вхождениям признаков. Если по обеим характеристикам произошло превышение пороговых значений, то текст относится к данному классу.

Пороговые значения для каждого класса могут быть заданы пользователем или же рассчитаны автоматически по обучающей выборке (таким образом, чтобы высокий процент документов, принадлежащих классу У,, при последующей классификации были отнесены к этому классу).

Показатели качества классификации

Оценку качества распознавания кодировки естественного языка и тематики текстов будем производить по аналогии с оценками качества документальных информационно-поисковых систем, предлагаемых в [1; 2].

В результате процедуры распознавания каждый из анализируемых файлов относится к конкретному 7-тому классу У7 (набору файлов). В каждом 7-м наборе N файлов содержится 17 файлов, которые соответствуют данному 7-му набору файлов (с текстами соответствующей тематики).

Для тестирования выбирается некоторая исходная коллекция. Исходная тестовая коллекция содержит вполне определенные наборы объемом Ы1 каждого 7-го типа файлов, принадлежащих классу У7. Для каждого используемого тестового корпуса можно подсчитать и число файлов, не соответствующих 7-му типу файлов (не принадлежащих 7-му классу У7 ). Данные величины определяются только для размеченной тестовой коллекции.

Для оценки качества распознавания используются следующие показатели: коэффициент релевантности, коэффициент полноты, усредненная точность.

Точность классификации для данного класса (коэффициент релевантности) при определении заданного 7-го типа файлов измеряет в результирующем 7-м наборе объемом N файлов долю файлов, которые действительно являются файлами данного типа и измеряются количеством 17 файлов с текстами, соответствующих 7-му классу:

if Cm е Di and е.т е G.:

п

А, =—. (10)

' N

В задачах информационного поиска аналог введенного коэффициента релевантности (10) иногда называют точностью информационного поиска, а в задачах классификации аналогичный коэффициент носит название точность классификации для данного класса.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Коэффициент полноты при создании , -го набора файлов измеряет, какую долю количество П файлов данного типа из результирующего , -го набора составляет в исходном тестовом наборе файлов ,-го типа объемом Ш,13:

С =А_

' Ш13 "

I

Усредненная точность определяется как взвешенная гармоническая средняя коэффициента релевантности и коэффициента полноты. Будем использовать для оценок сбалансированную точность, которая предполагает равный вес, как для коэффициента релевантности, так и для коэффициента полноты:

р = .240.. (11)

, А + С

Все приведенные коэффициенты - коэффициенты релевантности, полноты, усредненная точность - можно рассматривать как вероятностные оценки качества работы процедур, программного обеспечения распознавания.

Рассмотрим способ оценки взаимного качества классификации различными алгоритмами с различными дифференцирующими признаками. Будем называть конкретным «классификатором» один из методов классификации (байесовский классификатор или классификатор на основе взаимной информации) с конкретным набором признаков.

Для сравнения работы различных классификаторов на реальном потоке данных введем коэффициент сравнения результатов работы двух классификаторов, обозначив их символами а и Ь:

, , ч А п Д| п \аЬ]

Р ( у = П4| = ПН ' (12)

где

А - множество текстов, принадлежащих к классу , согласно классификатору а; В - множество текстов, принадлежащих к классу , согласно классификатору Ь; П \а 1 - количество текстов, отнесенных классификатором а к классу ,; П \аЬ1 - количество текстов, отнесенных классификаторами а и Ь к классу ,. Р (Ь|а) показывает отношение количества текстов, отнесенных к классу , классификаторами и а и Ь, к количеству всех текстов, отнесенных к классификатором а.

Результаты экспериментальных исследований

Рассмотрим следующие варианты дифференцирующих признаков для русского языка с введенными обозначениями: N - существительные; NA - существительные и прилагательные; NAV - существительные, прилагательные и глаголы; NNP - существительные и именные группы; VVP - глаголы и глагольные группы; Stem - псевдоосновы словоупотреблений текста, полученные алгоритмами аналитического морфологического анализа [14; 15].

Для перечисленных выше дифференцирующих признаков рассмотрим два алгоритма классификации: байесовский метод, реализованной на основе предложенной в [10; 12] модели строки текста; метод взаимной информации, описанный в данной статье. Первый метод обозначим префиксом B, а второй - префиксом I. Конкретным классификатором будем называть совокупность метода классификации (префиксы B и I) и набор дифференцирующих признаков (идентификаторы N, NA, NAV, NNP, VVP, Stem).

Обучение классификаторов проводилось на созданных экспертами выборках текстов объемами: для русского языка - 57,3 Мб; башкирского - 1,87 Мб; татарского - 2,68 Мб. Обуче-

ние осуществлялось для следующих классов: наркотики; насилие, жестокость; национализм, социальная рознь; отрицание традиционных ценностей; порнография; терроризм; фашизм; экстремизм. Классы определялись необходимостью выявления тематик, которые интересны для задачи определения нарушений законодательства в текстах в мировой сети электронной коммуникации и носят несколько условные названия.

Результаты классификации текстов методом на основе взаимной информации по рубрикам нарушения законодательства в сети Интернет для перечисленных выше дифференцирующих признаков приведены в табл. 1. Эксперименты проводились на подготовленном экспертами тестовом наборе данных, составляющем в сумме 300 файлов текстовой информации. В табл. 1 приведены значения усредненной точности (11) для полноты и точности, подсчитанных для случаев отнесения текста хотя бы к одному из рассматриваемых классов.

Очевидно, что учет различных морфологических признаков оказывает различное влияние на показатели классификации в зависимости от класса. Для некоторых тематик могут оказывать положительное влияние на показатели классификации существительные и именные группы (например рубрика «фашизм»), а на определение некоторых тематик (например рубрики «наркотики», «фашизм») отрицательное влияние оказывает учет глагольных групп.

В табл. 2 приведены значения коэффициента сравнения (12) для набора классификаторов, которые демонстрируют, насколько совпадают результаты классификации для разных методов с различными наборами дифференцирующих признаков. Результаты получены для конкретной рубрики «терроризм» на реальном наборе текстов с сайтов Интернета общим объемом текстов около 100 000 суммарным объемом около 2 Гб. При обработке такого объема текстов отнесенными к каждой рубрике получалось от 200 текстов байесовским классификатором на основе псевдооснов до почти 5 000 текстов при учете глаголов и глагольных групп.

Таблица 1

Значение усредненной точности для классификации текстов методом на основе взаимной информации для различных дифференцирующих признаков

Рубрика N ^ ^У NNP УУР 81еш

Наркотики 0,666 0,666 0,654 0,719 0,617 0,765

Насилие, жестокость 0,901 0,893 0,863 0,896 0,823 0,913

Национализм, социальная рознь 0,796 0,827 0,841 0,755 0,808 0,804

Отрицание традиционных ценностей 0,806 0,763 0,780 0,778 0,865 0,862

Порнография 0,832 0,876 0,902 0,829 0,847 0,754

Терроризм 0,938 0,929 0,923 0,888 0,828 0,905

Фашизм 0,974 0,903 0,968 0,977 0,681 0,909

Экстремизм 0,638 0,660 0,707 0,724 0,750 0,740

Таблица 2

Сравнения классификаторов для текстов на русском языке, отнесенных к классу «терроризм»

Р В ЫЛ В ЫЫР В УУР I ЫЛ I ЫЫР I УУР В Б1вт I Б1вт

В ЫЛ 1 0,875 0,609 0,336 0,447 0,358 0,87 0,32

В ЫЫР 0,875 1 0,638 0,340 0,456 0,366 0,852 0,303

В УУР 0,750 0,786 1 0,364 0,447 0,398 0,852 0,345

I ЫЛ 0,839 0,857 0,739 1 0,942 0,829 0,833 0,908

I ЫЫР 0,821 0,839 0,667 0,681 1 0,650 0,815 0,648

I УУР 0,786 0,804 0,710 0,729 0,777 1 0,833 0,761

В Б1вт 0,839 0,821 0,667 0,321 0,427 0,336 1 0,317

I Б1вт 0,821 0,804 0,710 0.921 0,893 0,878 0,833 1

Таблица 3

Сравнения классификаторов для текстов на башкирском языке, отнесенных к классам «терроризм» и «экстремизм»

P B Stem I Stem Ngram B Stem I Stem Ngram

терроризм экстремизм

B Stem 1,000 0,500 0,625 1,000 0,800 0,769

I Stem 0,571 1,000 0,500 0,667 1,000 0,675

Ngram 0,714 0,500 1,000 0,833 0,800 1,000

В табл. 3 приведены значения коэффициента сравнения (12) результатов распределения текстов на башкирском языке байесовским классификатором и методом взаимной информации с использованием в качестве дифференцирующих признаков псевдооснов, выделенных в автоматическом режиме алгоритмом аналитического морфологического анализа. Для сопоставления классификаторов в табл. 3 помещены результаты сравнения с классификатором на основе учета буквосочетаний символов (обозначено Л^гат) по методике работ [10; 12].

Рассматривая табл. 2, можно сделать вывод о том, что большинство классификаторов дают близкое отнесение файлов к одному классу для различных дифференцирующих признаков. Явно завышается по сравнению с другими классификаторами количество отнесенных к рубрике файлов при учете глагольных групп. Очевидно, что использование псевдооснов в качестве дифференцирующих признаков дает результаты, хорошо согласующиеся с классификаторами на основе других дифференцирующих признаков, что подтверждается приведенными в табл. 2 и 3 значениями. Поэтому можно делать вывод о возможности использования псевдооснов словоупотреблений в качестве дифференцирующих признаков при тематической классификации текстов.

Заключение

Тестирование на реальных данных проводилось для текстов на русском, английском, татарском и башкирском языках по тематикам наркотики, насилие, национализм, отрицание ценностей, порнография, терроризм, фашизм, экстремизм.

Тестирование на реальном потоке русскоязычных текстов показывает достаточно хорошее совпадение результатов одного и того же классификатора с различными наборами дифференцирующих признаков, включающих такие признаки, как существительные, именные группы, прилагательные. Явно ухудшают результаты классификации по некоторым тематикам учет глагольных групп. Сравнительно высокие результаты получаются при использовании псевдооснов в качестве дифференцирующего признака.

По результатам исследований утверждается, что псевдоосновы, выделенные аналитическим алгоритмом морфологического анализа, являются универсальными дифференцирующими признаками при классификации текстовых сообщений на различных естественных языках.

Список литературы

1. Корнеев В. В., Гареев А. Ф., Васютин С. В., Райх В. В. Базы данных. Интеллектуальная обработка информации. М.: Нолидж, 2001. 496 с.

2. Маннинг К., Рагхаван П., Шютце Х. Введение в информационный поиск. М.: ИД Виль-ямс, 2014. 528 с.

3. ЖуравлевЮ. И. Избранные научные труды. М.: Магистр, 1998. 420 с.

4. Журавлев Ю. И. Об алгебраическом подходе к решению задач распознавания и классификации // Проблемы кибернетики. 1978. Вып. 33. С. 5-68.

5. Гоппа В. Д. Введение в алгебраическую теорию информации. М.: Наука, 1995. 112 с.

6. Бабенко М., Куршев Е., Одинцов О., Сулейманова Е., Чеповский А. Система классификации текстов информационных сообщений на русском языке «АКТИС» // Тр. Междунар. конф. «Программные системы: теория и приложения». М.: Физматлит, 2004. Т. 2. С. 7-20.

7. Мбайкоджи Э., Драль А. А., Соченков И. В. Метод автоматической классификации коротких текстовых сообщений // Информационные технологии и вычислительные системы 2012. № 3. С. 93-102.

8. Батура Т. В. Формальные методы определения авторства текста // Вестн. Новосиб. гос. ун-та. Серия: Информационные технологии. 2012. Т. 10, вып. 4. С. 81-94.

9. Боярский К. К., Каневский Е. А., Саганенко Г. И. К вопросу автоматической классификации текстов // Экономико-математические исследования: математические модели и информационные технологии. VII. СПб.: Нестор-История, 2009. С. 252-273.

10. Гусев С. В., Поляков И. В., Чеповский А. М. Применение статистической модели текста в информационных системах // Ершовская конференция по информатике 2011. Рабочий семинар «Наукоемкое программное обеспечение». Новосибирск, 2011. С. 69-72.

11. Андреев А. М., Березкин Д. В., Сюзев В. В., Шабанов В. И. Модели и методы автоматической классификации текстовых документов // Вестн. МГТУ им. Н. Э. Баумана. Сер. «Приборостроение». 2003. № 4. С. 64-94.

12. Гусев С. В., Чеповский А. М. Модель для идентификации естественного языка текста // Бизнес-информатика. 2011. № 3 (17). С. 31-35.

13. Chen P. Y., Popovich P. M. Correlation. Parametric and Nonparametric Measures. Sage university papers series // Quantitative applications in the social sciences, 07-139. Thousand Oaks, CA: Sage, 2002. 95 p.

14. Болховитянов А. В., Чеповский А. М. Методы автоматического анализа словоформ // Информационные технологии. 2011. № 4 (176). С. 24-29.

15. Болховитянов А. В., Чеповский А. М. Алгоритмы морфологического анализа компьютерной лингвистики: Учеб. пособие. М., 2013. 198 с.

Материал поступил в редколлегию 22.04.2015 I. V. Polyakov, T. V. Sokolova, A. A. Chepovskiy, A. M. Chepovskiy

National Research University Higher School of Economics 20 Myasnitskaya Str., Moscow, 101000, Russian Federation

[email protected]

TEXT CLASSIFICATION PROBLEM AND FEATURES SET

This paper presents a text classification method based on mutual information method. It was shown that word stems are universal features for text classification problem.

Keywords: Text classification, Mutual information method.

References

1. Korneev V. V., Gareev A. F., Vasutin S. V., Rihe V. V. Bazi dannikh. Intellektual'naya obrabotka informacii. Moscow, Izdatel'stvo Nolidg, 2001, 496 p. (In Russ.)

2. Manning K., Ragkhavan P., Shutze K. Vvedenie v informacionniy poisk. Moscow, ID Vilyams, 2014, 528 p. (In Russ.)

3. Guravlev Yu. I. Izbrannie nauchnie trudi. Moscow, Izdatel'stvo Magistr, 1998, 420 p. (In Russ.)

4. Guravlev Yu. I. Ob algebraicheskom podkhode k resheniu zadach raspoznovaniya i klassifikacii. Problemi kibernetiki, 1978, no. 33, p. 5 68. (In Russ.)

5. Goppa V. D. Vvedenie v algebraicheskuyu teoriu informacii. Moscow, Nauka, 1995, 112 p. (In Russ.)

6. Babenko M., Kurshev E., Odincov O., Syleimanova E., Chepovskiy A. Systemi klassifikacii tekstov informacionnikh soobsheniy na russkom yazike «AKTIS». Trudi megdunarodnoi

konferencii «Programmnie systemi: teoriya i prilogeniya», Moscow, Fizmatlit, 2004, vol. 2, p. 7-20. (In Russ.)

7. Mbaikodgy A., Dral A. A., Sochenkov I. V. Metod avtomaticheskoi klassifikacii korotkikh tekstovikh soobsheniy. Informacionnie tekhnologii i vichislitel'nie systemi, 2012, no. 3, p. 93-102. (In Russ.)

8. Batura T. V. Formal'nie metodi opredeleniya avtorstva teksta. Vestnik of Novosibirsk State University. Series: Information Technology, 2012, vol. 10, no. 4, p. 81-94. (In Russ.)

9. Boyarskiy K. K., Kanevskiy E. A., Sagaenko G. I. K voprosu avtomaticheskoi klassifikacii. Akonomiko-matematicheskie issledovaniya: matematicheskie modeli i informacionnie tekhnologii. VII. St.-Petersburg, Nestor-Istoriya, 2009, p. 252-273. (In Russ.)

10. Gusev S. V., Polyakov I. V., Chepovskiy A. Primenenie statisticheskoi modeli teksta v informacionnikh systemakh. Ershovskaya konferenciya po informatike 2011. Rabochiy seminar «Naukoemkoe programmnoe obespechenie». Novosibirsk, 2011, p. 69-72. (In Russ.)

11. Andreev A. M., Berezkin D. V., Suzev V. V., Shabanov V. I. Modeli i metodi avtomaticheskoi klasssifikacii tekstovikh dokumentov. Vestnik Bauman MGTU. Ser. «Priborostroenie», 2003, no. 4, p. 64-94. (In Russ.)

12. Gusev S. V., Chepovskiy A. M. Modeli dlya identifikacii estestvennogo yazika teksta. Biznes-informatika, 2011, no. 3 (17), p. 31-35. (In Russ.)

13. Chen P. Y., Popovich P. M. Correlation. Parametric and Nonparametric Measures. Sage university papers series. Quantitative applications in the social sciences, 07-139. Thousand Oaks, CA, Sage, 2002, 95 p.

14. Bolkhovityanov A. V., Chepovskiy A. M. Metodi avtomaticheskogo analiza slovoform. Informacionnie tehnologii, 2011, no. 4 (176), p. 24-29. (In Russ.)

15. Bolkhovityanov A. V., Chepovskiy A. M. Algoritmi morfologicheskogo analiza komp'uternoi lingvistiki. Moscow, 2013, 198 p. (In Russ.)

Проблема классификации текстов и дифференцирующие признаки Текст научной статьи по специальности «Компьютерные и информационные науки»

TEXT CLASSIFICATION PROBLEM AND FEATURES SET

Текст научной работы на тему «Проблема классификации текстов и дифференцирующие признаки»