Представления текстовых документов в виде строковых векторов для задач классификации. Модификация методов классификации для работы со строковыми векторами

Ляпин А.М.

Следует °™етить, чт° введение в систему щ = щ (^) + щ , у = у (ю0) + у , W = W0 (ет0) + W ■

уравнений слагаемого определяющего переносное гг гт , „

где U, V, W -выражения для сферической оболочки виброускорение позволяет определить именно не , ^

„ являются функциями от частоты вибрации основания

контролируемую погрешность прибора. Так как погрешности, связанные с постоянной вибрацией ®о , Uo (®о) (ао)>К - функции, определяющие можно компенсировать на этапе предварительной влияние переносного виброускорения, Щ,у,W -обработки информации, а возникновение дополни-

функции определяющие поведение стоячей волны без

тельного переносного виброускорения приводит к

учета вибрации основания

появлению дополнительной погрешности.

...... ,„. Заключение. Основным результатом работы яв-

Решение системы (1) с учетом (2) осуществля-

ляется построенная модель, которая может служить

ется методом Бубнова-Галеркина, при чем искомые

основой для проверки экспериментальных данных

функции представляются в виде разложения по вто-

конкретной модели волнового твердотельного ги-

рой форме собственных колебаний.

_ ,, роскопа. Построенная модель позволяет произво-

В результате определен коэффициент прецессии ^

дить оценку влияния вибраций на показания вол-

стоячей волны в резонаторе с учетом вибрации ос-

нового твердотельного гироскопа на этапе разра-нования может быть представлен в виде: „

ботки блоков на основе ВТГ исходя из сведений об

\v(U в W ' в\ ' Ode уровне вибраций на целевом объекте.

J ( cos sln )sln Результаты, отраженные в данной статье полу-

BF = - , чены при поддержке Минобрнауки РФ в сфере науч-

I^у2+(/2ной деятельности - задание № 9.2108.2017/ПЧ.

о

ЛИТЕРАТУРА

1. Возможность построения миниатюрных блоков измерителей угловых скоростей повышенной надежности для космических объектов на базе поплавковых ДУС с использованием современной элементной базы. / Л.Я. Калихман, Д.М. Калихман, А.В. Полушкин, Ю.В. Садомцев, Р.В. Ермаков, С.Ф. Нахов // 14 Санкт

- Петербургская Международная конференция по интегрированным навигационным системам. - СПб.: Изд -во ЦНИИ «Электроприбор», 2007. С. 29-37.

2. Применение микропроцессоров в схемотехнических решениях прецизионных кварцевых маятниковых акселерометров / Д.М. Калихман, Л.Я. Калихман, Ю.В. Садомцев, А.В. Полушкин, Р.В. Ермаков, С.Ф. Нахов, В.Ю. Чеботаревский // В сборнике: Юбилейная XV Санкт-Петербургская международная конференция по интегрированным навигационным системам. Сборник материалов. ГНЦ РФ ФГУП ЦНИИ "Электроприбор". Санкт-Петербург, 2008. С. 173-176.

3. Журавлев В.Ф., Климов Д.М. Волновой твердотельный гироскоп. - М.: Наука, 1985.

4. Матвеев, В.А. Навигационные системы на волновых твердотельных гироскопах / В.А. Матвеев, Б.С. Лунин, М.А. Басараб, - М.: ФИЗМАТЛИТ, 2008. - 240 с.

5. Лунин Б.С., Матвеев В.А., Басараб М.А. Волновой твердотельный гироскоп. Теория и технология.

- М.: Радиотехника, 2014. - 176 с.

6. Требухов А.В., Бахонин К.А., Редькин С.П., Некрасов А.В. Разработка БИНС на основе твердотельного волнового гироскопа // Материалы конференции "Навигация, гидрография и океанография -2011", Санкт-Петербург, 2011.

7. Lynch D.D. Hemispherical resonator gyro // IEEE Trans. Aerosp. Elecrton. System. 1984. - № 17. - P. 432 - 433

8. Vibration-included drift in the hemispherical resonator gyro // Proc. Of the Annual Meeting of the Institute of Navigation, 23-25 June, 1987. - Dayton, Ohio. - P. 34 - 37.

9. Меркурьев И.В,, Подалков В.В. Динамика микромеханического и волнового твердотельного гироскопов. - М.: ФИЗМАТЛИТ, 2009. - 228 с. - ISBN 978-5-9221-1125-6

10. Мартыненко, Ю.Г. Управление нелинейными колебаниями вибрационного кольцевого микрогироскопа / Ю.Г. Мартыненко, И.В. Меркурьев, В.В. Подалков // Изв. РАН. МТТ, - 2008, -№3. - С.77-89.

11. Особенности применения микромеханических инерциальных датчиков при эксплуатации на летательных аппаратах вертолетного типа / Р.В. Ермаков, Д.В. Кондратов , А.А. Львов, Е.Н. Скрипаль // Труды Международного симпозиума НАДЕЖНОСТЬ И КАЧЕСТВО. Пенза. Издательство ПГУ.- 2 017. - Т. 2. -С.122-124

12. Методы и результаты испытаний инерциальных датчиков, предназначенных для эксплуатации на летательных аппаратах вертолетного типа / Р.В.Ермаков, А.Н.Попов, Е.Н.Скрипаль, Д.М.Калихман, Д.В.Кондратов, А.А.Львов // XXIV Санкт-Петербургской международной конференции по интегрированным навигационным системам. - СПб.: Изд - во ЦНИИ «Электроприбор», 2017. С. 244 - 248

13. Балабан О.М., Львова Е.В., Серанова А.А., Томашевский Ю.Б. Исследования измерителей мощности в режиме несинусоидальных сигналов // Труды Международного симпозиума НАДЕЖНОСТЬ И КАЧЕСТВО. Пенза, 2017. Т. 2. С. 124 - 128.

14. Особенности применения микромеханических инерциальных датчиков при эксплуатации на летательных аппаратах вертолетного типа / Р.В. Ермаков, Д.В. Кондратов, А.А. Львов, Е.Н. Скрипаль // Труды международного симпозиума Надежность и качество. 2017. Т.2. С. 122-124

УДК: 004.021, 004.048 Ляпин А.М.

ФГБОУ ВО «Пензенский государственный университет», Россия, Пенза

ПРЕДСТАВЛЕНИЯ ТЕКСТОВЫХ ДОКУМЕНТОВ В ВИДЕ СТРОКОВЫХ ВЕКТОРОВ ДЛЯ ЗАДАЧ КЛАССИФИКАЦИИ. МОДИФИКАЦИЯ МЕТОДОВ КЛАССИФИКАЦИИ ДЛЯ РАБОТЫ СО СТРОКОВЫМИ ВЕКТОРАМИ

Изучив текущие исследования в области классификации текстовых документов методами интеллектуального анализа данных, основанными на векторном представление входных данных, выявлено, что некоторые методы негативно реагируют на вектора больших размеров с разреженным распределением, и требуют значительное количество системных ресурсов для выполнения расчётов. Предложено изменить стандартное представление документов в виде числовых векторов на представление в виде строковых векторов. Также предложены модифицированные версии двух наиболее используемых методов классификации, которые в качестве входных данных используют строковые векторы. Разработана новая функция "среднего семантического подобия". Данная функция используется в модифицированных методах, что позволяет сделать их более устойчивыми к разреженным данным. Экспериментально показано, что предложенные версии имеют более высокий показатель точности и полноты классификации, а также требуют меньше системныхресур-сов.

Ключевые слова:

ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ, ЧИСЛОВЫЕ ВЕКТОРЫ, СТРОКОВЫЕ ВЕКТОРЫ, МАТРИЦА ПОДОБИЯ, ФУНКЦИЯ СРЕДНЕГО СЕМАНТИЧЕСКОГО ПОДОБИЯ

Введение

Классификация тестовых документов или сообщений относится к процессу назначения исходному тексту одного или нескольких предопределенных классов. Для обучения классификатора используется обучающий набор классифицированных документов, которые подготавливаются заранее вручную. Обученный классификатор позволяет классифицировать новые документы автоматически. [1] Таким образом процесс классификации текста можно разделить на три этапа:

- предварительное определение классов и подготовка набора обучающих документов,

- процесс обучение классификатора

- классификация новых документов.

Традиционно в методах, основанных на векторном представление входных данных, документы кодируются в числовые векторы на основе выбранного критерия. В больших документах некоторые слова извлекаются как кандидаты для определения значимых слов. Существует несколько подходов к определению значимых слов. Самыми традиционными считаются TF-IDF, частота использования, коэффициент усиления информации и хи-квадрат. [2] Однако представление текста в виде числовых вектор влечёт две проблемы.

Первая проблема - это огромная размерностью векторов. Эта проблема возникает при обработки большого количества документов или, когда затруднительно выбрать значимые слова из текста. Количество слов-кандидатов, извлеченных из текста, часто достигает нескольких десятков тысяч. Даже если выбрать только некоторые из них, используя специальные алгоритмы отбора, количество значимых слов достигает нескольких сотен. Это порождает большой домен допустимых слов, большинство из которых не употребляются в каждом документе. В результате количество значимых слов будет меньше, чем кандидатов, но их количество будет по-прежнему велико по отношению к размерности входных данных.

Вторая проблема, присущая кодированию текстов в числовые вектора - это разреженное распределение. Данная проблема относится к векторам в которых нулевые значения доминируют над ненулевыми. Часто, нулевые значения составляют более 90% каждого числового вектора, представляющего документ. [4] Причина в том, что каждое слово, имеет очень малый охват в представленном документе и ещё меньший в рамках всего домена.

Представленная идея состоит в том, чтобы представлять документы в виде строковых векторов вместо числовых. Строковый вектор является упорядоченным конечным набором слов. В строковом векторе слово задается как элемент вектора, в то время как в числовом векторе элементом является числовой атрибут или признак обрабатываемого документа. Также особенностью строковых векторов, может быть то, что порядок следования элементов может быть определён разными грамматическими или статистическим критериями.

В рамках представленной методологии предлагается функция, необходимая для обучения и классификации текстов с помощью алгоритмов машинного обучения на основе векторов. Предлагаемая функция называется "средним семантическим подобием". Данная функция будет численно определять степень подобия между двумя строковыми векторами в рамках определённого домена.

Вторая идея, предлагаемая в рамках исследования, заключается в улучшении существующих алгоритмов интеллектуальной обработки данных для работы со строковыми векторами. В автоматическом режиме будет построена матрица подобия слов из исходных данных и на основе функции "среднего семантического подобия" будут модифицированы методы K-ближайших соседей (k-nearest neighbors, KNN) и опорных векторов (support vector machine, SVM).

Определение строковых векторов

Строковый вектор определяется как упорядоченный конечный набор строк. Строковые векторы являются структурированными данными, хранящие

необработанные данные, и их следует отличать от других структурированных данных таких, как числовые векторы и мешок слов (bags of words).

Строковый вектор обозначается как упорядоченное конечное множество строк str = [str^, str2,... , str„]. Строка, являющаяся элементом вектора, представляет собой комбинацию букв алфавита данного языка и означает слово на естественном языке. Поскольку элементы в векторе упорядочены, то два вектора с одинаковыми элементами, но разными по порядку следования элементов рассматриваются как разные. Конечное число элементов в строковом векторе называется размерностью строкового вектора. Например, [компьютер, информационная, система], [индустрия, бизнес, компания] и [ДНК, биология, РНК] являются примерами трехмерного строкового вектора.

Представление текстовых документов в виде строковых векторов обладает несколькими преимуществами. Первое преимущество состоит в том, что данное представление позволяет избежать большой размерности домена и разреженного распределения векторов. Второе преимущество заключается в том, что строковые векторы являются более прозрачным представления документов, чем числовые векторы. Как следствие легче угадать содержание документов только по их векторному представлению. Третье преимущество заключается в том, что отслеживать ход классификации становится намного проще, поскольку входные данные имеют понятное человеку представление.

Представление документов в виде строковых векторов

В данном исследовании в качестве правила упорядочивания элементов вектора выбран статистический критерий - частота употребления слова в документе, по причине относительно легкой и понятной реализацией данного критерия. Первый элемент — это наиболее часто употребляемое слово в документе, а последней - наименее употребляемое, соответственно, в каждом векторе слова расположены в нисходящем порядок их частот.

Преобразование текстового документа в вектор производится поэтапно. Первым этапом является токенизация. Токенизация относится к процессу сегментации длинного текста в слова с помощью разделяющих символов, чаще всего пробелов или символов пунктуации. [2] Следующим этапов является Стемминг (Stemming)[4]. На данном этапе каждое слова преобразуется в его изначальную форму. То есть слова во множественной форме преобразуются в единственную форму, глагола заменяются инфинитивной формой и так далее. Последним этапом является удаление шумовых слов (стоп-слова stop word). Шумовые слова - это слова, которые используются только для грамматических конструкций, и не имеют отношения к содержанию текста. [5] Результатом прохождения всех этапов является набор слов, определяющие домен исходного документа. Далее подсчитывается количество употреблений каждого слова в полученном наборе. Это численное значение является частотой употребления слова в документе. Слова в списке сортируются в нисходящий порядок частоты употребления.

Матрица подобия

Матрица подобия строится из набора слов, полученных после обработки всех исходных документов. Матрица подобия является квадратной матрицей, где каждая запись указывает на семантическое подобие между двумя словами, являющимися строками и столбцами матрицы. Формализуется матрица подобия следующим образом:

511, S12, .■■, S1n

S21, S22, .■■, S2n

Sn2, ..., SnnJ

В приведенной выше матрице n указывает на общее количество слов в наборе, соответственно размер матрицы равен n*n. В матрице подобия столбцы и строки соответствуют словам из набора, i-й столбец, и i-я строка соответствуют одному

и тому же слову, ху является элементом матрицы подобия и указывает на семантическое подобие между словом, которое соответствует ^му столбцу и словом, которое соответствует ^й строке. Каждый элемент вычисляется по формуле:

БIт( ) = Б,, =--—---— ,

где обозначает количество документов, в

которых присутствуют оба слова, и обозначает количество документов, в которых при-

сутствует слово wt, а df(wj) обозначае

ство документов

т количе-

в которых присутствует слово

Первое свойство матрицы подобия состоит в том, что она симметрична. Следующие выражение применимо к каждой записи матрицы подобия: Sij = Sjt, 1<i,j <n

Ниже показано, что матрица подобия является симметричной.

2 х df(wt, Wj) 2 х df(w,, wt)

Sij = df(wt) + df(Wj) = df(wj) + df(wt) = Sji

Из приведенного выше выражения следует, что df(wt, Wj), и df(wj,wt) означают количество документов, включающих оба слова, wt и wj. Коммутативный закон математики гласит, что результат операции остается неизменным независимо от взаимного порядка элементов. Применив данный закон получим: df(wt,wj) = df(wj,wt)

Второе свойство матрицы подобия состоит в том, что все диагональные элементы равны 1, то есть значение stt равно 1. Данное свойство матрицы формально описывается следующим выражением: 2 х df(wt, wt) 2 х df(wt) S i i = dfw + df(wt) = 2 х df(wt) = 1

В приведенном выше выражении df(wt,wt~) совпадает с df(wt), так как df(wt,wt) и df(wt) означает количество документов, использующих слово wt. Это свойство показывает, что независимо от значения слов в рамках контекста, они рассматриваются как идентичные, как синтаксически, так и семантически.

Среднее семантическое подобие

Предполагается, что документы содержит согласованный и лаконичный текст. То есть слова, которые используются в одних и тех же документах, имеют сходные или согласующиеся значения. Семантическое подобие между двумя словами зависит от этой характеристики.

Два строковых вектора обозначаются следующим образом:

Stri = [still, S tri2,-,S tTioi, S tT2 = [S t^S t^,-, S t^a]

Подобие пары векторов, обозначается sim(str11,str21), sim(str12,str22), ..., sim(stria,str2a) и

вычисляется путем получения значений, из матрицы подобия на пересечении строки и столбца заданных слов. Если такого слова нет, то значение равно нулю. Среднее семантическое подобие между двумя строковыми векторами вычисляется по выражению:

a

s im(str1, str2) = 1^sim(str1t, str2t) t=i

где m( r1 , r2 ) обозначает подобие между двумя строками r1 и r2 , полученное из матрицы подобия. Поскольку семантические подобие слов приведено как нормализованное значение, то результирующее значение вычисляется как среднее значение.

Среднее семантического подобие двух строковыми векторами обладает следующими свойствами:

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

- Среднее семантическое подобие между двумя идентичными строковыми векторами равно 1, так как подобие каждой пары слов равно 1.

- Можно применить коммутативный закон:

s i m(str1,str2) = sim(str2,str1),

так как семантическое подобие рассчитывается с использованием матрица подобия, которая является симметричной.

- Входными данными может быть только два строковых вектора, поскольку матрица подобия задана как двумерный массив.

- Результатом является нормализованное значение .

Модифицированная версия метода KNN Для проведения классификации документов, распределение которых априори не известно или не согласовано с нормальным законом распределения, используют различные подходы к непараметрической оценке плотности распределения. Среди них наиболее широкое распространение получил метод к-го ближайшего соседа (для краткости будем приводить англоязычную аббревиатуру названия метода -КШ), которая определяется исходя из выраже-ния[7]

р(хМ)=1 кр-1 л = 1,...,М,

где кр - параметр близости соседа; N - величина выборки, У(кр,Ы,х) - объем множества всех элементов обучающей выборки, расстояние которых до точки х в Р-мерном пространстве меньше или равно Чаще всего в качестве функции дистанции используется функция расстояния в Евклидовом пространстве.

Далее описана модифицированная версия метода КШ, где документы представлены строковыми векторами, а в качестве функции дистанции используется среднее семантическое подобие.

Метод KNN относится к определению класса на основе выбранных соседях. К задается как параметр и указывает количество соседей, которые выбраны для классификации. Класс нового документа определяется большинством классов К ближайших соседей. Однако в стандартной версии метода, игнорируется приоритет или вес выбранных соседей. [6]

Предлагаемый метод будет учитывать приоритет среди соседей на основе их расстояние от классифицируемого документа. Различные веса будут соответствовать соседям в зависимости от их подобия с классифицируемым документом. Для каждого класса вычисляется сумма весов ближайших соседей. Класс документа определяется максимальным значением суммы.

Проведём сравнение между традиционной и модифицированной версией КШ. В традиционной версии входными данными являются числовые векторы, тогда как модифицированная версия использует строковые векторы. В качестве функции дистанции в традиционной версии метода используется расстояние в евклидовом пространстве, в модифицированной версии используется среднее семантическое подобие. В традиционной версии присутствуют две основные проблемы, которые присущи кодированию документов в виде числовых векторов Модифицированная версия метода БУМ Основная идея метода машины опорных векторов ^УМ классификатора) - отображение исходных векторов в пространство более высокой размерности и поиск разделяющей гиперплоскости с максимальным зазором в этом пространстве. [8] Суть работы стандартного классификатора для случая двух

классов можно представить с использованием следующего выражения:

/(х,Ш) = з1дп(д(х,Ш)), где д(х,Ш) =< х,Ш > +Ь, где параметры W (вектор весов) и Ь (свободный коэффициент) определяются процедурой обучения. Границы решения классификатора д(х, Ш) = 0 представляют собой гиперплоскость порядка Ь-1 в L-мерном пространстве.

Проведём сравнение между традиционной и модифицированной версией БУМ. В традиционной версии метода входными данными являются числовые векторы, тогда как в модифицированной версии, входными данными являются строковые векторы. В традиционной версии, доступны три типа ядер, в то время как в модифицированной версии используется функция среднего семантического подобия. Традиционная версия достаточно толерантна к

большой размерности числовых векторов, но сохраняет нестабильность, связанную с разреженным распределением числовых векторов. [8] Модифицированная версия решает обе проблемы путем кодирования документов в строковые векторы.

wj.

Результаты

Рассмотрим сравнение результатов традиционной версии и модифицированной версии метода КШ. Исходные документы были закодированные в строковые и числовые векторы. После чего коллекцию документов разделили на обучающий набор и тестовый набор. Фактически, все документы разделены на 10 классов. В качестве критерия отбора значимых слов была выбрана частота употребления слов в документе.

Число ближайших соседей, заданных как параметр KNN установлено в значение 3. В традиционной версии документы кодируются в 100-, 250- и

500-мерные числовые векторы. В модифицированной версии документы кодируются в 10-, 25-, 50-мерные строковые векторы. То есть размерность векторов уменьшена примерно в 10 раз, что сделает алгоритм более стабильным и надежным.

Для оценки результативности методов используется Е1 метрика. Результаты представлены на рисунке 1. Видно, что значение Е1 метрики выше после в модифицированной версии метода. Поэтому в рамках данного набора можно сделать вывод, что предлагаемая версия является более надежной с входными данными меньшего размера.

Традиционная версия

Модифицированная версия

100/10 ■250/25

500/50

Рисунок 1 - значение Е1-метрики для традиционной и модифицированных версий метода КШ

Рассмотрим сравнение результатов традиционной версии и модифицированной версии метода БУМ. Как и в предыдущем эксперименте, набор документов кодируются в числовые векторы и строковые векторы. В традиционной версии БУМ в качестве функция ядра используется скалярное произведение.

Результаты представлены на рисунке 2. Как и в предыдущем эксперименте, значение Е1 метрики выше. Поэтому можно сделать вывод, что модифицированная версия метода является более надежной, и более терпима к разреженным данным.

Традиционная версия

Модифицированная версия

100/10 ■250/25

500/50

Рисунок 2 - значение Е1-метрики для традиционной и модифицированных версий метода БУМ

Заключение

Предложено новое представления документов в виде строковых векторов для задач классификации текстов. Определена новая функция среднего семантического подобия, которую можно использовать как функцию дистанции в методе КШ и как функцию ядра в методе БУМ. Экспериментально доказано, что модифицированные версии методов КШ и БУМ

основанные на использовании строковых векторов вместо числовых являются более стабильными, надёжными и затрачивают меньшее количество системных ресурсов.

Благодарности

Результаты работы получены при финансовой поддержке РФФИ в рамках грантов № 16-07-00031, 18-07-00975.

ЛИТЕРАТУРА

1. Что такое Data Mining. URL: http://www.iso.ru (дата обращения: 13.04.2018).

2. Мошина О.В., Гордеева О.А., Применение методов семантического анализа текстовой информации, "Труды международного симпозиума Надежность и Качество", 2017, Т.1

3. Финн В.К. Об интеллектуальном анализе данных // Новости искусственного интеллекта. 2004. №

3.

4. BaseGroup Labs. Технологии анализа данных. URL: http://www.basegroup.ru (дата обращения: 15.04.2018).

5. Финогеев А.А., Финогеев А.Г., Распределенная обработка данных в беспроводных сенсорных сетях на основе мультиагентного подхода в туманных вычислениях, "Труды международного симпозиума Надежность и Качество", 2016, Т.1

6. Замятин А.В. Введение в интеллектуальный анализ. Учебное пособие. 2016.

7. Шапиро Е.И. Непараметрические оценки плотности вероятности в задачах обработки результатов наблюдений // Зарубежная радиоэлектроника. 2000. № 2.

8. Wang L. (ed.). Support vector machines: theory and applications. Springer Science & Business Media, 2005.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Ляпин А.М.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Ляпин А.М.