Научная статья на тему 'Дискриминантный анализ технических коротких текстов'

Дискриминантный анализ технических коротких текстов Текст научной статьи по специальности «Математика»

CC BY
318
42
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КЛАССИФИКАЦИЯ КОРОТКИХ ТЕКСТОВ / ОПРЕДЕЛЕНИЕ ВЕСА ТЕРМИНОВ / СИНГУЛЯРНОЕ РАЗЛОЖЕНИЕ / ДИСКРИМИНАНТНЫЙ АНАЛИЗ / ЭЛЕМЕНТАРНЫЕ ФУНКЦИИ ФИШЕРА / МЕТОД K-БЛИЖАЙШИХ СОСЕДЕЙ / CLASSIFICATION OF SHORT TEXTS / DEFINING THE WEIGHT OF TERMS / SINGULAR DECOMPOSITION / DISCRIMINANT ANALYSIS / FISHER ELEMENTARY FUNCTIONS / K-NEAREST NEIGHBOR METHOD

Аннотация научной статьи по математике, автор научной работы — Боровский Андрей Викторович, Раковская Елена Евгеньевна, Бисикало Артем Леонидович

Большое внимание к обработке текстовой информации для формирования тематических групп и систематизации документов, обусловленное развитием и ростом популярности Интернета как средства коммуникации, требует категоризации коротких технических текстов, которая, в свою очередь, характеризуется сложностью традиционных подходов (проведением предобработки и «оцифровки» документов, идентификацией «классифицирующих» признаков, выбором методов классификации). Специфичность исследования на каждом этапе обусловлена характеристикой текста: небольшим размером, употреблением сходной лексики, наличием большого количества узкоспециальных символов и обозначений, синонимией терминов. Предложено описание процедуры подготовки текстов к анализу, снижения размерности матрицы «термин документ» с помощью сингулярного разложения, позволяющего решить задачу малоранговой аппроксимации исходной матрицы. Применяемые методы классификации метод k-ближайших соседей и дискриминантный анализ с использованием элементарных функций Фишера. В процедуре классификации по методу Фишера используются дискриминантные переменные и прием максимизации различий между классами для получения функции классификации. Объект относится к тому классу, для которого значение классифицирующей функции является наибольшим. Дана оценка полученных результатов, отмечается недостаточная точность классификации при применении меры TF IDF в условиях эксперимента. Для улучшения качества классификации предложен комбинированный метод, в рамках которого предлагается на первом этапе провести селекцию слов при помощи меры TF IDF, на втором этапе применить словарь терминов и словосочетаний для классификации текстов. На основании полученных данных предлагается провести классификацию методами дискриминантного анализа и k-ближайших соседей. В будущем планируются уточнение и доработка предлагаемого комбинированного метода.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

DISCRIMINANT ANALYSIS OF THE TECHNICAL SHORT TEXTS

Today much attention is paid to processing textual information in order to form thematic groups and to systematize documents. This is stipulated by growing popularity of the Internet as a means of communication and requires to categorize short technical texts, which, in turn, is characterized by complexity of traditional approaches preprocessing and digitization of documents and identification of "classifying" features. Specificity of the study at each stage is determined by the characteristics of the texts small size, similar vocabulary, a large number of highly specialized symbols and signs, synonymity of terms.There has been suggested the procedure of preparing texts for analysis, reducing the dimensions of "term-document" matrix using singular decomposition method which allows to solve the problem of small-rank approximation of the original matrix. There are classification methods used such as k-nearest neighbors method and discriminant analysis based on Fisher elementary functions (texts on assignment of instruments was taken as an example). The Fisher classification procedure uses discriminant variables and the approach of maximizing the differences between classes to obtain the classification function. An object belongs to the class for which the value of classifying function is the greatest. There has been given assessment of the results obtained and the inadequate accuracy of classification when applying TF-IDF measure under experimental conditions. To improve the quality of classification, a combined method has been proposed to select words at the first step using TF-IDF measure. The dictionary of terms and phrases is to be used at the second stage for classifying texts. According to the obtained data, it has been offered to carry out classification by discriminant analysis and k-closest neighbors method. The proposed combined method is planned to be refined and upgraded in the future.

Текст научной работы на тему «Дискриминантный анализ технических коротких текстов»

КОМПЬЮТЕРНОЕ ОБЕСПЕЧЕНИЕ И ВЫЧИСЛИТЕЛЬНАЯ ТЕХНИКА

DOI: 10.24143/2072-9502-2018-2-53-60 УДК 004.93

А. В. Боровский, Е. Е. Раковская, А. Л. Бисикало ДИСКРИМИНАНТНЫЙ АНАЛИЗ ТЕХНИЧЕСКИХ КОРОТКИХ ТЕКСТОВ

Большое внимание к обработке текстовой информации для формирования тематических групп и систематизации документов, обусловленное развитием и ростом популярности Интернета как средства коммуникации, требует категоризации коротких технических текстов, которая, в свою очередь, характеризуется сложностью традиционных подходов (проведением предобработки и «оцифровки» документов, идентификацией «классифицирующих» признаков, выбором методов классификации). Специфичность исследования на каждом этапе обусловлена характеристикой текста: небольшим размером, употреблением сходной лексики, наличием большого количества узкоспециальных символов и обозначений, синонимией терминов. Предложено описание процедуры подготовки текстов к анализу, снижения размерности матрицы «термин - документ» с помощью сингулярного разложения, позволяющего решить задачу малоранговой аппроксимации исходной матрицы. Применяемые методы классификации - метод k-ближайших соседей и дискриминантный анализ с использованием элементарных функций Фишера. В процедуре классификации по методу Фишера используются дискриминантные переменные и прием максимизации различий между классами для получения функции классификации. Объект относится к тому классу, для которого значение классифицирующей функции является наибольшим. Дана оценка полученных результатов, отмечается недостаточная точность классификации при применении меры TF - IDF в условиях эксперимента. Для улучшения качества классификации предложен комбинированный метод, в рамках которого предлагается на первом этапе провести селекцию слов при помощи меры TF - IDF, на втором этапе применить словарь терминов и словосочетаний для классификации текстов. На основании полученных данных предлагается провести классификацию методами дискриминантного анализа и k-ближайших соседей. В будущем планируются уточнение и доработка предлагаемого комбинированного метода.

Ключевые слова: классификация коротких текстов, определение веса терминов, сингулярное разложение, дискриминантный анализ, элементарные функции Фишера, метод k-ближайших соседей.

Введение

В связи с развитием Интернета и применением его в качестве средства коммуникации или электронной коммерции появились специфические лингвистические объекты, представленные в виде коротких текстов (КТ) - новостные ленты, блоги, сообщения в социальных сетях, обзоры продукции и реклама [1]. Очень часто технические КТ встречаются в проектном деле. Все эти информационные объекты различаются по тематике, типу, смысловой и эмоциональной окраске, стилю и другим критериям. Большое количество разнообразных интернет-ресурсов, содержащих КТ, обусловливает необходимость их обработки и анализа, например, для создания тематических подборок, рубрикации документов, составления рейтингов, подбора контекстной рекламы и фильтрации спама [2]. Особый интерес для исследователей представляют КТ технической направленности [2, 3], которые содержатся в тематических форумах, тезисах научных работ, аннотациях, реферативно-библиографических изданиях, каталогах, рубрикаторах, базах данных (БД) оборудования и пр.

Технические КТ, как и научно-техническая информация в целом [4], характеризуются рядом специфических особенностей:

- информационная насыщенность текста и связанное с ней применение специальных терминов, символов и знаков, а также формул, таблиц, рисунков, чертежей, схем, графиков и пр.;

- лаконичность и краткость изложения материала, использование сокращений слов и словосочетаний, замена часто повторяющихся слов аббревиатурами;

- последовательная манера изложения, официально-деловой стиль.

При систематизации технических КТ применение основных характеристик сходства - частоты терминов в документе, частоты документов, содержащих термин, - может быть недостаточно эффективным [1-3, 5]. Наибольшие трудности возникают при использовании инверсной частоты документов для слов-вхождений, меры TF- IDF (Term Frequency-Inverse Document Frequency):

TF - rnF = Д (tj.) togfj,

где fd (tj) - частота термина tj в документе dt (Term Frequency); f (tj) - частота документов

с термином tj (Document Frequency); N - число документов.

Сложность применения инверсной частоты обусловлена низкими значениями частоты термина в коротком документе, чаще всего fd (tj ) = 1,2.

Небольшой размер текстов характеризуется смысловой насыщенностью, в связи с чем затруднено определение «базовых признаков» документов для определения сходства с учетом тематики текста, жанра, целевой аудитории. В данном случае возможно использование некоторых стилистических особенностей, например, сокращения слов, акценты на словах, а также применение признаков в виде знаков обозначения валют, процентов, математических формул и т. п.

Короткие тексты, особенно тексты узкой направленности (narrow-domain short text), содержат часто повторяющиеся «штампы», распространенные речевые обороты, специфическую терминологию - «В статье представлены ...», «Статья посвящена ...», «Имеется много ...», «Измеряемая величина» и пр. Как правило, 10-20 % слов из полного списка встречаются в каждом документе [3], т. е. совокупности КТ имеют сильные пересечения в используемом множестве слов. Разница между документами заключается не в выборе терминов, а в их пропорции. Это приводит к нестабильным и неточным результатам классификации текстов.

Характер источников КТ (различных видов веб-приложений) определяет изменчивость, динамичность и разнообразие самих документов. Это обстоятельство усложняет формирование больших обучающих выборок и, следовательно, препятствует созданию точных моделей категоризации.

Целью данной статьи является определение меток классов КТ узкой направленности, представляющих собой описание назначения датчиков давления.

Для достижения поставленной цели необходимо решение следующих задач:

- подобрать методы предварительной обработки текстов (стемминг, удаление стоп-слов и пр.);

- провести классификацию документов;

- проанализировать влияние методов преобразования данных о частоте встречаемости слов на результат категоризации.

Для проведения классификации КТ была использована информация из БД оборудования (табл. 1).

Таблица 1

База данных оборудования*

Датчик давления Измеряемое давление Назначение датчиков давления

ДДА Избыточное Датчики давления в амортизаторе ДДА предназначены для измерения избыточного давления; являются составной частью системы контроля параметров шасси СДАИ.406231.026 (система СКПШ) и эксплуатируются в ее составе.

ДАЕ 002 Абсолютное Датчики давления ДАЕ 002 предназначены для измерения абсолютного давления и преобразования его в цифровой последовательный код.

ДДВ 020 Избыточное Датчики давления ДАЕ 020 предназначены для измерения избыточного давления.

Bm 1201 Избыточное Датчики давления частотные Вт 1201 предназначены для измерения избыточного давления и преобразования его в частоту.

Bm 1202 Избыточное Датчики давления частотные Вт 1202 предназначены для измерения избыточного давления и преобразования его в частоту.

Окончание табл. 1

Датчик давления Измеряемое давление Назначение датчиков давления

PTE5000, PIE, P1A Избыточное Датчики давления PTE5000, Р1Е, P1A предназначены для измерения и непрерывного преобразования избыточного давления жидкостей и газов в нормированный выходной сигнал постоянного тока или напряжения.

ДЛ 001 Избыточное Датчики давления ДЛ 001 предназначены для измерения избыточного давления, формирования и передачи параметров измеряемого давления в виде цифрового сигнала по интерфейсу RS-485.

ДПС 025 Быстропеременное Датчики давления ДПС 025 предназначены для измерения быстропере-менных давлений с амплитудой от 0,12 до 5,6 МПа при статическом давлении от 22,4 до 125 МПа в жидких и газообразных средах.

Bm 222M Абсолютное Датчики абсолютного давления Bm 222M предназначены для измерения абсолютного давления газообразных сред.

* Фрагмент.

Минимальная длина текстов для анализа составляет 76 символов, максимальная -около 600 (табл. 1).

Предобработка текстов

Характер исследуемых КТ обусловливает определение значимых признаков для проведения классификации.

Проблема наличия большого количества речевых «штампов» и слов общеупотребительной лексики решалась введением порога частот встречаемости слов [5, 6], т. е. из анализа удалялись самые редкие и наиболеее часто встречающиеся слова. Были определены значения порога частот встречаемости: минимальное - термин встречается менее чем в 1 % документов выборки, максимальное - термин встречается более чем в 65 % документов, - что адекватно отражает частотные характеристики наиболее значимых терминов конкретных текстов.

Для анализа документов использовались лексемы, написанные буквами русского алфавита, соответственно, многочисленные цифровые обозначения приборов, латинские аббревиатуры, знаки препинания, символы, обозначения единиц измерения удалялись.

В контексте решаемой задачи учитывалась специфическая синонимия терминов, например, «дифференциальное давление» - «разность давлений». Кроме того, из данных для анализа удалялись «стоп-слова», т. е. слова, не имеющие смысловой нагрузки для технических текстов (предлоги, союзы и пр.).

В результате были получены тексты, на основе которых составлялась матрица частот вхождений слов «термин - документ». Для уменьшения размерности матрицы применялось сингулярное разложение (Singular Value Decomposition (SVD)) [7]:

C = UWVT,

где C - исходная матрица «термин - документ» размерностью m х n; U - m x m-матрица, столбцы которой являются собственными ортогональными векторами матрицы CCT; V - n x n-матрица, столбцы которой являются собственными ортогональными векторами матрицы CTC; W - диагональная m х n-матрица с диагональю из невозрастающих чисел о1, ..., or, равных ar = , т. е. Oj > о2 > о3 > ... > or, где - собственные значения матриц CCT и CTC; r - ранг матрицы С; CT - транспонированная матрица C.

Для нахождения матрицы Cp, являющейся малоранговой аппроксимацией матрицы C [7, 8], по матрице Wстроилась матрица Wp с заменой нулями (r - p) наименьших значений. По полученным матрицам (U, VT, Wp) вычислялась матрица Cp = U Wp VT.

Дискриминантный анализ

Наличие большого количества входных переменных после «оцифровки» текстов дает возможность применения дискриминантного анализа, который связан с получением одной или нескольких функций, позволяющих отнести некоторый объект к одной из групп (классов).

В классическом дискриминантном анализе [9, 10] классификация проводится с помощью линейной комбинации дискриминантных переменных (Xb X2, ..., Xp). Линейная комбинация

подбирается таким образом, чтобы максимизировать различия между классами и минимизировать дисперсию внутри классов.

Для нахождения функции классификации применяется подход, основанный на определении функции плотности нормально распределенных классов /1 (X), f2 (X), ..., fk (X), где X = (Х1, Х2, ..., Хр) - вектор дискриминантных переменных [11, 12]. Предполагается, что

объект относится к тому классу, для которогоfk(X) имеет наибольшее значение.

Формально эту процедуру можно описать следующим образом. Для р-мерного нормального распределения с вектором средних црх1 и ковариационной матрицей ^ р хр

f (X)= (2п)-2' |Е|-1/2exp

- 2 (X) '£-1 (X-Ц*)

где |е| - определитель ковариационной матрицы; Е-1 - обратная матрица.

После преобразования - удаления констант, логарифмирования [12] - получаем выражение /к (X) = 'Е- 'Е-1Цк. Заменив векторы средних и ковариационную матрицу их

°ценками (цк = Xk =(XкП

Xkp ) и £), получим:

fk (X ) = XkЕ-'X - 2Xk' Е"X.

Введем обозначения ьк = Xк' е-1 и ько =--2Xk' Е~1:хк, где ьк = (ЬШ ькр) и ько - коэффициенты к-й классифицирующей функции /-го объекта (элементарные функции Фишера):

/.к (х) = Ько + + ьк2X2 +... + Vр.

Коэффициенты Ьы и Ьк0 определяются выражениями

К =(n -gwj lxjk;

bk 0 =-0,5 X p=A,X#,

где n - общее число объектов всех классов; g - число классов; Wj - элемент матрицы, обратной к внутригрупповой матрице сумм попарных произведений W.

Классификация КТ выполнялась на основе матрицы частот слов «термин - документ» Cp с предварительным преобразованием данных:

1) без преобразования (бинарные значения: «1» - слово встречается в документе, «0» - не встречается);

2) с логарифмическим преобразованием; значения TF - IDF (определение веса термина с учетом его частоты во всех документах).

Классы текстовых документов определялись как характеристики вида измеряемого давления описанных датчиков: 1-й класс - избыточное давление; 2-й класс - абсолютное давление; 3-й класс - динамическое давление; 4-й класс - без указания вида давления; 5-й класс - абсолютное, избыточное, дифференциальное давление.

Результаты вычисления параметров функций классификации без преобразования исходных данных приведены в табл. 2.

Таблица 2

Коэффициенты функций классификации текстов о назначении приборов

Класс Переменная"^^_ Класс «1» Класс «2» Класс «3» Класс «4» Класс «5»

Xi 166,8334 201,2125 34,576 56,7252 508,775

X2 -57,4644 -69,5657 -40,629 -14,5528 -159,745

X3 10,1298 -35,6508 44,397 12,0078 -42,786

Окончание табл. 2

Класс Переменная^^^ Класс «1» Класс «2» Класс «3» Класс «4» Класс «5»

X, 3,5302 77,3975 -240,029 -20,7028 121,439

X -35,8392 -7,4478 -72,443 -12,5255 -31,731

X, -15,2625 11,2764 -64,525 -6,2505 2,770

Х7 -20,9876 -74,6343 11,447 -2,5727 -139,218

Х8 -24,3535 -11,2977 -30,575 -0,0766 -43,848

X, -42,0514 3,8375 -32,974 -11,6697 -53,158

Xio 18,4265 42,2728 -24,321 -3,6249 70,392

Constant -6,6420 -11,2501 -18,513 -4,2123 -38,562

По полученным функциям можно вычислить классы для новых наблюдений. Например, для класса «1» функция классификации (табл. 2) будет иметь вид

¡х = 166,8334 X! -57,4644 х2 + 10,1298х3 + 3,5302 х4 +... +18,4265 х10 -6,6420.

Максимальное вычисленное значение функции определяет принадлежность нового наблюдения к тому или иному классу.

Точность классификации текстов с различными методами преобразования исходных данных показана в табл. 3.

Таблица 3

Точность классификации текстов методом дискриминантного анализа и k-ближайших соседей

—^^^^ Показатель Метод ~~ Абсолютные значения частот вхождения слов Бинарные значения Логарифмические преобразования Значения TF - IDF

Дискриминантный анализ, % 90,0 85,0 95,0 40,0

Метод k-ближайших соседей, % 90,9 90,9 81,8 54,5

В результате анализа было установлено, что КТ о назначении приборов могут быть классифицированы с использованием классифицирующих функций Фишера. Удовлетворительные результаты (точность классификации 85 % и выше) получены с применением абсолютных значений частот слов, а также с бинарным логарифмическим преобразованием.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Использование меры TF - IDF в условиях проведенного эксперимента дает недостаточную точность классификации (40 %).

Метод k-ближайших соседей

Для проведения классификации были подобраны методы, которые учитывают «размытость» границ классов, наличие большого количества нехарактерных, выпадающих точек [7, 13]. Так, в методе k-ближайших соседей (KNN) границы классов определяются локально, все пространство разбивается на сегменты смежных классов. В варианте с одним ближайшим соседом текст относится к определенному классу в зависимости от информации о его ближайшем соседе. При k > 1, в соответствии с гипотезой о пространственной компактности и классах, исследуемому документу будет присвоен тот же класс, что и документам обучающей выборки локальной области.

Для классификации методом k-ближайших соседей использовались те же данные, с такими же зависимыми и независимыми переменными, что и в дискриминантном анализе. Количество ближайших соседей - 1, метрика расстояния - расстояние Евклида.

Из результатов проведенных исследований (табл. 3) следует, что преобразование исходных частот слов имеет большое значение при классификации текстов о назначении приборов. Самая низкая точность классификации была получена при использовании оценки важности термина TF - IDF.

Заключение

Категоризация коротких текстов с применением технологий, основанных на использовании частотных характеристик терминов в текстах, требует учета специфичности анализируемых объектов.

При определении признакового пространства текстов особое внимание уделяется наличию распространенных речевых оборотов, профессиональных синонимических терминов, цифровых символов, обозначений, представленных в виде сочетаний букв русского и латинского алфавитов.

Влияние многочисленных речевых повторов уменьшалось введением порога встречаемости терминов. Специфическая синонимия терминов учитывалась при составлении словаря синонимов. Проблема наличия большого количества латинских обозначений решалась применением символов только русского алфавита.

Выбор методов классификации определялся многомерностью входных переменных (по матрицам частот «термин - документ») и наличием категориальной выходной переменной -метки класса. При этом принималась во внимание размытость границ классов и присутствие нетипичных, выпадающих точек.

В результате проведенного исследования получены неудовлетворительные результаты с применением преобразования данных TF - IDF.

При расчете TF - IDF, в классическом варианте, веса терминов имеют высокие значения, если термин часто встречается в небольшом количестве текстов, и низкие значения, если термин редко встречается в тексте или встречается во многих текстах.

В анализируемых текстах каждое слово, как правило, встречается один раз. При

fd. (tj ) = 1 значение TF — IDF = fd (tj ) log—n—) в большей степени зависит от частоты доку-

7 ()

Í

ментов, содержащих термин

i N

log

f (',)

Для уменьшения эффекта «независимости» частоты

термина в документе и улучшения результатов классификации необходимо применить комбинированный метод. На первом этапе произвести селекцию слов при помощи меры TF - IDF, на втором этапе применить словарь терминов и словосочетаний для классификации текстов. Далее, по полученным данным, провести классификацию методом дискриминантного анализа и k-ближайших соседей. В будущем планируется уточнение и доработка предлагаемого комбинированного метода.

СПИСОК ЛИТЕРА ТУРЫ

1. Cagnina L., Errecalde M., Ingaramo D., Rosso P. A discrete particle swarm optimizer for clustering short text corpora // Proc. of the 3rd International Conference on Bioinspired Optimization Methods and their Applications (BIOMAO8). Ljubljana, Slovenia, 2008. P. 93-10.

2. Ramírez-de-la-Rosa G., Montes-y-Gómez M., Solorio T., Villaseñor-Pineda L. A document is known by the company it keeps: neighborhood consensus for short text categorization // Lang Resources and Evaluation. 2012. Vol. 47. P. 127-149.

3. Pinto D., Rosso P., Jiménez H. A Self-Enriching Methodology for Clustering Narrow Domain Short Texts // Computer Journal. 2011. Vol. 54. No. 7. P. 1148-1165.

4. Кожина М. Н., Дускаева Л. Р., Салимовский В. А. Стилистика русского языка. М.: ФЛИНТА: Наука, 2008. 464 с.

5. Барсегян А. А., КуприяновМ. С., Степаненко В. В. Технологии анализа данных: Data Mining, Visual Mining, Text Mining, OLAP. СПб.: БХВ-Петербург, 2007. 384 с.

6. Боровский А. В., Раковская Е. Е., Бисикало А. Л. Кластеризация информации баз данных оборудования // Изв. Байкал. гос. ун-та. 2016. Т. 26. № 5. С. 805-810.

7. Маннинг К. Д., Рагхаван П., Шютце Х. Введение в информационный поиск. М.; СПб.; Киев: Виль-ямс, 2011. 520 с.

8. Вержбицкий В. М. Вычислительная линейная алгебра: учеб. пособ. М.: Высш. шк., 2009. 351 с.

9. Ким Дж.-О., Мьюллер Ч. У., Клекка У. Р. и др. Факторный, дискриминантный и кластерный анализ. М.: Финансы и статистика, 1989. 215 с.

10. Айвазян С. А., Бухштабер В. М., Енюков И. С. и др. Прикладная статистика. Классификация и снижение размерности. М.: Финансы и статистика, 1989. 606 с.

11. Рао С. Р. Линейные статистические методы и их применения. М.: Наука, 1968. 548 с.

12. Большаков А. А., Каримов Р. Н. Методы обработки многомерных данных и временных рядов: учеб. пособ. М.: Горячая линия-Телеком, 2007. 522 с.

13. Боровиков В. П. STATISTICA. Искусство анализа данных на компьютере. СПб.: Питер, 2003. 686 с.

Статья поступила в редакцию 05.03.2018

ИНФОРМАЦИЯ ОБ АВТОРАХ

Боровский Андрей Викторович — Россия, 664003, Иркутск; Байкальский государственный университет; д-р физ.-мат. наук, профессор; профессор кафедры информатики и кибернетики; [email protected].

Раковская Елена Евгеньевна — Россия, 664003, Иркутск; Байкальский государственный университет; аспирант кафедры информатики и кибернетики; [email protected].

Бисикало Артем Леонидович — Россия, 664003, Иркутск; Иркутский государственный университет; канд. хим. наук, доцент; доцент кафедры аналитической химии; [email protected].

A. V. Borovsky, E. E. Rakovskaya, A. L. Bisikalo DISCRIMINANT ANALYSIS OF THE TECHNICAL SHORT TEXTS

Abstract. Today much attention is paid to processing textual information in order to form thematic groups and to systematize documents. This is stipulated by growing popularity of the Internet as a means of communication and requires to categorize short technical texts, which, in turn, is characterized by complexity of traditional approaches - preprocessing and digitization of documents and identification of "classifying" features. Specificity of the study at each stage is determined by the characteristics of the texts - small size, similar vocabulary, a large number of highly specialized symbols and signs, synonymity of terms.There has been suggested the procedure of preparing texts for analysis, reducing the dimensions of "term-document" matrix using singular decomposition method which allows to solve the problem of small-rank approximation of the original matrix. There are classification methods used such as k-nearest neighbors method and discriminant analysis based on Fisher elementary functions (texts on assignment of instruments was taken as an example). The Fisher classification procedure uses discriminant variables and the approach of maximizing the differences between classes to obtain the classification function. An object belongs to the class for which the value of classifying function is the greatest. There has been given assessment of the results obtained and the inadequate accuracy of classification when applying TF-IDF measure under experimental conditions. To improve the quality of classification, a combined method has been proposed to select words at the first step using TF-IDF measure. The dictionary of terms and phrases is to be used at the second stage for classifying texts. According to the obtained data, it has been offered to carry out classification by discriminant analysis and k-closest neighbors method. The proposed combined method is planned to be refined and upgraded in the future.

Key words: classification of short texts, defining the weight of terms, singular decomposition, discriminant analysis, Fisher elementary functions, k-nearest neighbor method.

REFERENCES

1. Cagnina L., Errecalde M., Ingaramo D., Rosso P. A discrete particle swarm optimizer for clustering short text corpora. Proc. of the 3rd International Conference on Bioinspired Optimization Methods and their Applications (BIOMAO8). Ljubljana, Slovenia, 2008. Pp. 93-10.

2. Ramírez-de-la-Rosa G., Montes-y-Gómez M., Solorio T., Villaseñor-Pineda L. A document is known by the company it keeps: neighborhood consensus for short text categorization. Lang Resources and Evaluation, 2012, vol. 47, pp. 127-149.

3. Pinto D., Rosso P., Jiménez H. A Self-Enriching Methodology for Clustering Narrow Domain Short Texts. Computer Journal, 2011, vol. 54, no. 7, pp. 1148-1165.

4. Kozhina M. N., Duskaeva L. R., Salimovskii V. A. Stilistika russkogo iazyka [Stylistics of the Russian Language]. Moscow, FLINTA-Nauka Publ., 2008. 464 p.

5. Barsegian A. A., Kupriianov M. S., Stepanenko V. V. Tekhnologii analiza dannykh: Data Mining, Visual Mining, Text Mining, OLAP [Technologies for a data analysis: Data Mining, Visual Mining, Text Mining, OLAP]. Saint-petersburg, BKhV-Peterburg Publ., 2007. 384 p.

6. Borovskii A. V., Rakovskaia E. E., Bisikalo A. L. Klasterizatsiia informatsii baz dannykh oborudovaniia [Clustering information of databases of equipment]. Izvestiia Baikal'skogo gosudarstvennogo universiteta, 2016, vol. 26, no. 5, pp. 805-810.

7. Manning K. D., Ragkhavan P., Shiuttse Kh. Vvedenie v informatsionnyi poisk [Introduction into information retrieval]. Moscow, Saint-Petersburg, Kiev, Vil'iams Publ., 2011. 520 p.

8. Verzhbitskii V. M. Vychislitel'naia lineinaia algebra: uchebnoe posobie [Computing linear algebra: teaching aid]. Moscow, Vysshaia shkola Publ., 2009. 351 p.

9. Kim Dzh.-O., M'iuller Ch. U., Klekka U. R. i dr. Faktornyi, diskriminantnyi i klasternyi analiz [Factor, discriminant and cluster analysis]. Moscow, Finansy i statistika Publ., 1989. 215 p.

10. Aivazian S. A., Bukhshtaber V. M., Eniukov I. S. i dr. Prikladnaia statistika. Klassifikatsiia i snizhenie razmernosti [Applied statistics. Classification and reducing of dimensions]. Moscow, Finansy i statistika Publ., 1989. 606 p.

11. Rao S. R. Lineinye statisticheskie metody i ikh primeneniia [Linear statistical methods and their application]. Moscow, Nauka Publ., 1968. 548 p.

12. Bol'shakov A. A., Karimov R. N. Metody obrabotki mnogomernykh dannykh i vremennykh riadov: uchebnoe posobie [Methods of processing many-dimensional data and time series]. Moscow, Goriachaia liniia-Telekom Publ., 2007. 522 p.

13. Borovikov V. P. STATISTICA. Iskusstvo analiza dannykh na komp'iutere [The art of data analysis on a computer]. Saint-Petersburg, Piter Publ., 2003. 686 p.

The article submitted to the editors 05.03.2018

INFORMATION ABOUT THE AUTHORS

Borovskii Andrei Viktorovich - Russia, 664003, Irkutsk; Baikal State University; Doctor of Physical and Mathematical Sciences, Professor; Professor of the Department of Computer Science and Cybernetics; [email protected].

Rakovskaia Elena Evgenievna - Russia, 664003, Irkutsk; Baikal State University; Postgraduate Student of the Department of Computer Science and Cybernetics; [email protected].

Bisikalo Artem Leonidovich - Russia, 664003, Irkutsk; Irkutsk State University; Candidate of Chemical Sciences, Assistant Professor; Assistant Professor of the Department of Analytical Chemistry; [email protected].

i Надоели баннеры? Вы всегда можете отключить рекламу.