Научная статья на тему 'Исследование методов машинного обучения в задаче автоматического определения тональности текстов на естественном языке'

Исследование методов машинного обучения в задаче автоматического определения тональности текстов на естественном языке Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
2043
246
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МАШИННОЕ ОБУЧЕНИЕ / АНАЛИЗ ТОНАЛЬНОСТИ / ЛОГИСТИЧЕСКАЯ РЕГРЕССИЯ / ДЕРЕВЬЯ ПРИНЯТИЯ РЕШЕНИЯ / МЕТОД ОПОРНЫХ ВЕКТОРОВ / K-БЛИЖАЙШИХ СОСЕДЕЙ / RANDOM FOREST

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Ермаков П. Д., Федянин Р. В.

В данной статье приводится исследование применения различных методов машинного обучения в задаче автоматического определения тональности текстов и сравниваются результаты их работы. В статье приводится исследование влияния параметров различных методов машинного обучения на результаты решения данной задачи. Также в статье приводится перечень мер изменения пространства признаков модели и исследуется влияние данных мер на результаты определения тональности.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Ермаков П. Д., Федянин Р. В.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Исследование методов машинного обучения в задаче автоматического определения тональности текстов на естественном языке»

Исследование методов машинного обучения

в задаче автоматического определения тональности текстов на естественном языке

Ермаков П.Д., Федянин Р.В.

МГТУим. Н.Э.Баумана ermakov.pd@mail. ru, roma.fedyanin@mail. ги

Аннотация. В данной статье приводится исследование применения различных методов машинного обучения в задаче автоматического определения тональности текстов и сравниваются результаты их работы. В статье приводится исследование влияния параметров различных методов машинного обучения на результаты решения данной задачи. Также в статье приводится перечень мер изменения пространства признаков модели и исследуется влияние данных мер на результаты определения тональности.

Ключевые слова: машинное обучение, анализ тональности, логистическая регрессия, деревья принятия решения, метод опорных векторов, random forest, k-ближайших соседей

1 Введение

Анализ тональности текстов является одной из распространенных задач компьютерной лингвистики. С увеличением пользовательской активности в сети (социальные сети, блоги, форумы, онлайн системы отзывов на фильмы, рестораны и др.) необходимость в данной задаче лишь растет, как и требования к ее точности.

В данной работе приводится исследование применимости широкого спектра методов машинного обучения для задачи определения тональности текста на естественном языке, сравниваются результаты их работы и анализируется зависимость этих результатов от входных параметров.

2 Машинное обучение

Базовые понятия машинного обучения:

• X - множество объектов (например, тексты на естественном языке);

• У - множество допустимых ответов (например, тональность текста: позитивный или негативный);

• у*: X Y - целевая функция (target function), значения которой известны лишь на конечном подмножестве X (например, тексты для которых заранее определена тональность).

Задачей машинного обучения является построение решающей функции (decision function) а: X У, которая бы приближала целевую

функцию. В задаче тональности решающая функция должна ставить тексту (не только множество текстов, для которых известно значение целевой функции) некую тональность [Воронцов, 2011].

2.1 Машинное обучение применительно к обработке текстов

В задачах обработки естественного языка и информационного поиска часто используется модель bag of words. Bag of words - это упрощенная модель представления данных о текстовом документе, в ней текст представляется в виде "мешка слов" (набора слов) без учета грамматики и порядка, а сохраняется лишь частота вхождения каждого слова в данный документ. Данная модель широко используется в методах классификации документов, где признаком для обучения классификатора является частота вхождения каждого слова. Также модель, копирующая подход bag of words, была применена в компьютерном зрении [Sivic et al., 2008].

Все исследования, упомянутые в данной статье, проводились на следующих англоязычных корпусах текстов:

1. Корпус отзывов о фильмах, входящий в состав библиотеки NLTK, 2000 текстов, в среднем 3500 символов в тексте;

2. Корпус из лексического семантического тезауруса SentiWordNet, 2000 текстов, в среднем 150 символов в тексте.

Все результаты, приведенные в данной статье, получены на корпусе 1. Результаты, полученные на корпусе 2, показали схожие результаты и потому не приводятся в данной статье.

2.2 Логистическая регрессия

Логистическая регрессия {Logistic regression) - это метод построения линейного классификатора, позволяющий оценивать апостериорные вероятности принадлежности объектов классам [Воронцов, 2011].

Вероятность наступления события у = 1 вычисляется по формуле

Р{у=1|х} = Я», (1)

где /(z) - логистическая функция (сигмоида): 1

Hz) =-, (2)

' w 1 + е~я

z = 8Тх = 01х1 + ■■■ + впх71, (3)

где х1(, хп - независимые переменные и 91 4— + 0п коэффициентов регрессии.

Переменные хг, являются признаками объекта х (в нашем

случае текста на естественном языке) из множества X [Воронцов, 2011].

Для уменьшения эффекта переобучения на практике часто рассматривается логистическая регрессия с регуляризацией. Регуляризация заключается в том, что параметры рассматриваются как случайный вектор с некоторой заданной априорной плотностью распределения. В качестве

Исследование методов машинного обучения в задаче автоматического определения

тональности текстов на естественном языке_

априорного распределения часто выступает многомерное нормальное распределение с нулевым средним, соответствующее априорному убеждению о том, что все коэффициенты регрессии должны быть небольшими числами, в идеале — многие малозначимые коэффициенты должны быть нулями. В этом случае, метод называется L2-регуляризованной логистической регрессией. Если использовать распределение Лапласа, как априорное, вместо нормального, то данная вариация логистической регрессии называется Ll-регуляризованной.

Результаты работы метода логистической регрессии зависят от выбора нормы регуляризации (L1 или L2) и параметра регуляризации. В качестве параметра регуляризации выступает плотность регуляризации С: чем меньше значение параметра С, тем сильнее регуляризация [Википедия, Логистическая регрессия].

2.3 Сравнение работы L1- и Ь2-регуляризованной логистической регрессии

В качестве первого исследования было произведено сравнение результатов работы методов L1- и Ь2-регуляризованной логистической регрессии при равных значениях плотности регуляризации.

На рис. 10 приведены кривые Precision-Recall, кривые Fl-меры и ROC-кривые для L1- и Ь2-регуляризованных логистических регрессий со значением плотности регуляризации равным С= 1.

Рис. 10 Кривые Precision-Recall, F1-Recall и ROC-кривая для L1- и L2-регуляризованных логистических регрессий

Для L1- и Ь2-регуляризованной регрессии значения показателя AUC на тестовой выборке получились равны 0.91217 и 0.9313 соответственно.

Получившиеся результаты не дают возможности сделать однозначный выбор в пользу одного из методов, поэтому необходимо провести исследование зависимости значения показателя A UC от значения плотности регуляризации логистической регрессии.

Плотность регуляризации С в данном исследовании принимала значения из ряда геометрической прогрессии от 2~10 до 215 со знаменателем прогрессии 20Л, т.е. [2"10, 2"9-9,... ,214-9,215].

Вся выборка делилась на обучающие и тестовые данные в соотношении 70/30. Для каждого параметра путем перекрестной проверки (cross-validation) с количеством блоков равным 10 на обучающей выборке высчи-тывалось среднее значение показателя AUC (среднее от всех значений показателя A UC полученных на каждом из 10 проходов перекрестной проверки). Происходил поиск параметров логистической регрессии: вида нормы регуляризации и плотности регуляризации, дающее максимальное среднее значение показателя A UC. На рис. 11 представлена зависимость среднего значения показателя AUC и разброса значений показателей AUC полученных на всех проходах перекрестной проверки от значения плотности регуляризации для L1- и Ь2-регуляризованной логистической регрессии.

— Avg. AUC for L1

— Avg. AUC for L2

GL50

2е Z1 Z4 Z3 ^ j1 24 2я 2е 2й1 2й 2м С {negulHrizBtlDn parameter)

Рис. 11. Зависимость показателя A UC от плотности регуляризации для L1- и L2-регуляризованной логистической регрессии

Оптимальные значения плотности регрессии С для каждой из норм регуляризации логистической регрессии, среднее значение показателя A UC полученное при перекрестной проверке на обучающей выборке (70%) (Avg. AUC) и значения показателя AUC полученные на тестовой выборке (30%) при оптимальных параметрах плотности регрессии С (Test AUC) представлены в таблице 1.

Таблица 4. Значение показателя A UC для оптимальных параметров логистической

регрессии каждого вида нормы регуляризации

Норма С Avg. AUC Test AUC

L1 1024 0.93445 0.93445

L2 2-5.1 0.93395 0.93395

3 Изменение пространства признаков

3.1 Изменение способов вычисления признаков

В предыдущих исследованиях признаками выступали все слова из корпуса текстов, а значениями признаков - количество употребления слова в тексте.

Было проведено исследование работы метода Ь2-регуляризованной логистической регрессии на пространстве признаков, значения которых были вычислены следующими способами:

• частотный {freq) - количество употреблений слова в тексте (используемый в предыдущих исследованиях);

• бинарный (binary) - 1 - если слово присутствует в тексте, 0 -если слово отсутствует;

• логарифм частоты (logfreq) - вычисляемое по формуле:

log freq = to (freq + l)y (4)

где freq - количество употреблений слова в тексте;

• tf-idf- значение признака вычисляется по формуле:

nw ]Д]

tf - idf = TF * IDF = ■ log (5)

Zfe»fe

где - количество употреблений слова в тексте, ¿¿k ^к

- общее

количествос слов в тексте, \В \ - количество текстов в корпусе, \di с w| - количество текстов, содержащих слово w.

На рис. 12 показаны кривые, отражающие результаты проведенного исследования.

Рис. 12 Кривые Precision-Recall, F1-Recall и ROC-кривая работы Ь2-регуляризованной логистической регрессии для различных способов вычисления значений признаков

Значения показателя AUC для различных способов вычисления значений признаков приведены в таблице 2.

Таблица 5. Значения показателя A UC для разных типов значений признаков

Способ вычисления значений признаков AUC

Freq 0.93395

Binary 0.94535

Logfreq 0.94387

tf-idf 0.87628

По полученным результатам можно сделать вывод, что способы подсчета значений признаков binary и logfreq позволили улучшить результаты работы метода Ь2-регуляризованной логистической регрессии, а использование меры tf-idf не принесло положительных результатов.

3.2 Уменьшение пространства признаков

Модель bag of words выделяет большое количество признаков. Например, в работе с корпусом из 2000 небольших текстов было выделено почти 40000 признаков. Большое количество признаков, особенно редко встречающихся, создают для классификатора "шум". Также большое количество признаков приводит к значительному замедлению работы большинства методов машинного обучения.

3.2.1 Выбор наиболее частотных признаков

Значениями признаков является количество употреблений слова в тексте, т.е. его частотность. Самым простым способом сократить пространство признаков, в данном случае, является использование наиболее частотных слов корпуса в качестве признаков.

На рис. 13 и в таблице 3 приведена зависимость значения показателя AUC от количества признаков, выбранных как самых частотных слов корпуса, для L1- и Ь2-регуляризованной логистической регрессии. Количество признаков менялось от 500 до 30000 с шагом 500.

0L94 0.92

а» о.вя

ам авг

DLBO

О 5000 U300D L50ÜD Z300D 2500D 3Q00D

Number of fEütms

Рис. 13. Зависимость значения показателя AUC от количества признаков

П-1-■-1-■--—■-п

Logistic: Regression (L2-regularization)

Logistic Regression (Ll-mgularization)

■ ■ ■ ■

Исследование методов машинного обучения в задаче автоматического определения

тональности текстов на естественном языке_

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Таблица 6. Значения показателя А17С для разного количества признаков

Количество признаков LI L2

5000 0.92785 0.93085

13000 0.93838 0.93373

10000 0.93230 0.93379

15000 0.93489 0.93373

20000 0.93845 0.93391

25000 0.92780 0.93397

29000 0.93991 0.93390

Таблица 7. Значения показателя А11С для разных типов пространства признаков

Тип пространства признаков AUC

All 0.93395

without stop-words 0.92099

Stemming 0.92297

stemming without stop-words 0.90917

Как можно судить по результатам, приведенным в таблице 2 и Рис. 13, Ь2-регуляризованная логистическая регрессия дает более предсказуемые результаты при увеличении числа признаков и не так чувствительна к значению плотности регуляризации. Эти факты являлись основанием для выбора метода Ь2-регуляризованной логистической регрессии как основного в дальнейших исследованиях.

3.2.2 Стемминг и удаление стоп-слов

Одними из частых способов уменьшения пространства признаков являются удаление стоп-слов и/или взятие в качестве признака основы слова путем стемминга или лемматизации. Стоп-слова - это слова, которые самостоятельно не несут смысловой нагрузки, это предлоги, причастия, междометия, цифры, частицы и т.п. В качестве определения основы слова применялся стемминг, основанный на алгоритме Портера.

На рис. 14 представлены результаты работы Ь2-регуляризованной логистической регрессии на всех словах (all), на словах за исключением стоп-слов (w/o stop-words), на основах слов (w/ stemming) и на основах слов за исключением стоп-слов (w/stemming w/o stop-words).

аЗ

00

dl

w/o stop-words

w/ stemming

w/ stemming w/o stop-words

oo аз 04 ае о.в lo

Recall

аз

aoi

dl

w/o stop-words

w/ stemming

w/ stemming w/o stop-words

oo аз а4 об ов lo

Recall

d I

w/o stop-words

w/ stemming

w/ stemming w/o stop-words

~ао аз 04 ae ав lo

False Positive

Рис. 14 Кривые Precision-Recall, F1-Recall и ROC-кривая для разных типов

пространства признаков

Как видно из таблицы 4, метод Ь2-регуляризованной регрессии показал лучшие результаты при использовании всех оригинальных слов в качестве признаков, а удаление стоп-слов, стемминг, их комбинация лишь ухудшили результаты работы метода.

3.2.3 Выбор наиболее значимых признаков по результатам обучения логистической регрессии

Логистическая регрессия, как видно из формулы (3), задает каждому признаку вес - значимость признака для модели. Данная особенность позволяет легко интерпретировать результаты логистической регрессии: чем больше модуль веса признака, тем значимее данный признак для модели. Стоит отметить что деревья решений также имеют данную особенность. В таблице 5 представлен список 20 важных признаков выявленных Ь2-логистической регрессии.

Выдвинем гипотезу, что для анализа тональности текста важны не все признаки, а лишь значимые, значимость которых можно выявить построением Ь2-регуляризованной логистической регрессии.

Для проверки данной гипотезы было проведено исследование: по обучающей выборке строилась Ь2-регуляризованная логистическая регрессия и выделялось ограниченное число признаков, значимых для данной модели. Следующим шагом было построение Ь2-регуляризованной регрессии на уменыпеном пространстве признаков. Проверка построенной модели на тестовой выборке давала возможность оценить качество построенного классификатора.

Из рис. 15 видно, что уменьшение пространства признаков до 1000 данным методом не ухудшает результаты работы, но и не улучшает их. Данный подход по уменьшению пространства признаков может применяться перед любым методом машинного обучения, что особенно

Исследование методов машинного обучения в задаче автоматического определения

тональности текстов на естественном языке_

актуально для методов, которые сильно чувствительны к количеству признаков.

Таблица 8. Наиболее значимые признаки, выделенные после обучения Ь2-

регуляризованной логистической регрессией

Значимые слова с положительным значением Значимые слова с отрицательным значением

Слово Bee Слово Bee

Fun 0.22772 bad -0.34578

Great 0.20050 worst -0.23972

Well 0.17918 unfortunately -0.22826

american 0.15442 plot -0.20347

Jackie 0.14424 only -0.20172

Job 0.13945 nothing -0.19425

movies 0.13638 script -0.18455

excellent 0.13114 boring -0.16792

Mulan 0.13064 director -0.15444

memorable 0.12936 have -0.15028

0.95

ОВД

GLBA

0.В0

GL75

- - Lng.Regr (L2) with variable N features

— Lng.Regr (L2) on all features

23 Z* i1 21 ^ ^ 2й1 2й 2й 213 2м 2й 2й

Number of fEfltaiES

Рис. 15. Зависимость показателя AUC от количества признаков, выбранных после обучения Ь2-регуляризованной логистической регрессией для нового обучения

3.3 Увеличение пространства признаков 3.3.1 N-граммы

В описанных выше экспериментах признаками для методов машинного обучения являлись слова. В задачах обработки текста на естественном языке также популярно представление документов в виде набора слов и N-грамм, где N-граммы — фиксированные последовательности слов длины N. Для N = 2 такая последовательность называется биграммой, для N = 3 - триграммой. Например, для фразы "Почём опиум для народа" биграммами будут: "Почём опиум", "опиум для", "для народа" и триграммы: "Почём опиум для", "опиум для народа".

Было проведено исследование результатов работы метода L2-регуляризованной логистической регрессии в зависимости от выбора длины N-грамм в качестве признаков. В первом случае в качестве признаков выступали униграммы и биграммы (words and bigrams). Во втором случае - униграммы, биграммы и триграммы (words, bigrams and trigrams). Для первого случая количество признаков было около 540000, а для второго - около 1570000. Заметим, что в случае использования униграмм в качестве признаков, их количество было около 40000. Таким образом, использование N-грамм значительно увеличивает размерность пространства задачи. В первом случае среднее значение показателя AUC работы метода Ь2-регуляризованной логистической регрессии было равно 0.93668, при втором - 0.93446.

По аналогии с пунктом 3.2.1 было проведено сокращение размерности пространства признаков по принципу выбора наиболее частотных слов корпуса. На рис. 16 представлены зависимости значения показателя A UC от количества признаков, оставшихся после сокращения размерности для первого {words, bigrams) и второго {words, bigrams and trigrams) случаев соответственно. Красным цветом отмечено значение показателя AUC при работе метода Ь2-регуляризованной логистической регрессии без сокращения размерности. В таблице 6 приведены оптимальные значения количества признаков и соответствуюзие значения показателя AUC для разных наборов N-грамм.

0.95

а»

0.85

0.80

GL75

0.70

Lag.Regr.. (L2) w/ variable N features (wards and bigrams)

Lag.Regr. (L2) on all features (words and bigrams)

? ? 2т ? ^u 2й

Number of fEflbiGS

¿17 J15

0.95

а»

0.85

0.80

GL75

0.70

Lag.Regr- (L2) w/variable N features (words, bigrams arid trigrams)

Lug.Regr. (L2) on all features (words, bigrams and trigrams)

23 i1 21 ^ 2й 2й Number of fEflbiGS

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

¿17 ¿15

Рис. 16. Зависимость показателя А иС от количества признаков при различных наборах

]ЧГ-грам? взятых в качестве признаков

Таблица 9. Оптимальное количество признаков и значение показателя А иС для разных

наборов №грам

Набор N-грам Количество признаков AUC

words, bigrams 46340 0.93805

words, bigrams and trigrams 65536 0.93810

Как можно судить по полученным результатам, расширение пространства признаков с помощью N-грамм позволило лишь незначительно улучшить результаты работы метода Ь2-регуляризованной логистической регрессии.

4 Другие методы машинного обучения

Для каждого из исследуемых методов машинного обучения выполнялось сравнение результатов работы и поиск оптимальных параметров по следующей методологии: вся выборка текстов делилась на обучающие и тестовые данные в соотношении 70/30; для каждого значения параметра путем перекрестной проверки (cross-validation) с количеством блоков равным 10, на обучающей выборке высчитывалось среднее значение показателя AUC (среднее от всех значений показателей AUC полученных на каждом из 10 проходов перекрестной проверки); происходил поиск параметров каждого из методов, дающих максимальное среднее значение показателя AUC; каждый из методов с полученными выше оптимальными параметрами, обучался на 70% выборки текстов, и вычислялось значение показателя A UC на тестовой выборке.

4.1 Дерево принятия решений (Decision Tree)

Данный метод основан на деревьях принятия решений, т.е деревьях, в листьях которого стоят значения целевой функции, а в остальных узлах — условия перехода, определяющие по какому из ребер идти. Для данного метода подбиралось оптимальное значение максимальной глубины дерева принятия решений {Max depth). На рис. 17 представлена зависимость значения показателя A UC от максимальной глубины дерева.

GL75 0.70

В"» 0.60

0.55

О 5 1Д 15 2D

Мох depth

Рис. 17. Зависимость значения показателя A UC от максимальной глубины дерева в

методе дерева принятия решения

Оптимальное значение максимальной глубины дерева получилось равным 3. При этом значении максимальной глубины дерева среднее значение показателя AUC на обучающей выборке было равно 0.68204, а на тестовой выборке - 0.6500.

4.2 Random Forest

Основная идея метода Random Forest заключается в использовании ансамбля решающих деревьев. Метод основывается на основных подходах бэггинга и выбора случайных подмножеств признаков. Деревья в ансамбле строятся друг от друга независимо. Финальная классификация текстов проводится с помощью «голосования», т.е. итоговым классом текста объявляется тот класс, за который проголосовало наибольшее количество деревьев [Чусовлянов, 2014]. Для данного метода подбиралось оптимальное число деревьев в ансамбле (Number of trees in the forest). Ha рис. 18 представлена зависимость значения показателя AUC от числа деревьев в ансамбле.

О-во

0L75

0.70 -1-1-1-1-

О 1000 2000 3000 4000 5000

Number of trees in tfie fbredt

Рис. 18. Зависимость значения показателя AUC в методе Random Forest от числа

деревьев в ансамбле

Оптимальное значение числа деревьев в ансамбле получилось равным 1000. При этом количестве деревьев среднее значение показателя AUC на обучающей выборке было равно 0.90799, а на тестовой выборке - 0.84000.

4.3 Метод опорных векторов (SVM, Support Vector Machines)

Метод опорных векторов основан на идее разделения пространства на подпространства, соответствующие классам. В случае бинарной классификации, обучение метода сводится к поиску гиперплоскости с некоторой толщиной, которая разделяет объекты разных классов обучающей выборки. Отнесение текста к тому или иному классу тональности производится исходя из того, в какую часть пространства относительно найденной гиперплоскости попадает данный объект (текст) [Лебедева, 2014]. Данный метод имеет управляющий параметр (Penalty parameter of the error term), который позволяет находить компромисс между максимизацией разделяющей толщины гиперплоскости и минимизацией суммарной ошибки. На рис. 19 представлена зависимость значения показателя A UC от значения управляющего параметра.

а» 0.0& i аво

0.75 070

0.651-1-1-1-

О 50 100 150 200

Penalty parameter of the error term

Рис. 19. Зависимость значения показателя A UC в методе опорных векторов от значения

управляющего параметра

Оптимальное значение управляющего параметра получилось равным 50. При этом значении управляющего параметра среднее значение показателя AUC на обучающей выборке было равно 0.89416, а на тестовой выборке - 0.86167.

4.4 К-ближайших соседей (k-Nearest Neighbor, kNN)

При использованиии метода k-ближайших соседей, для определения класса тональности текста, необходимо определить расстояние от вектора, описывающего данный текст до векторов текстов из обучающей выборки. Затем находятся к текстов обучающей выборки, расстояние до которых минимально (к задается экспертом или выбирается согласно оценкам эффективности). Класс входного текста определяется как класс, которому принадлежат больше половины из соседних к векторов. В качестве функции расстояния могут использоваться разные меры [Вишневская, 2013]. Была выбрана самая распространенная - Евклидово расстояние:

d(xry) =

Схк ~УкУ

(6)

к=1

где х = и у = (ylf - две точки в Евклидовом

пространстве.

На рис. 20 приведена зависимость значения показателя AUC от числа соседей (к, Number of neighbor).

0L75

0.70

0.65

0.60

0.Б5

0150

2П0 ЗАО

Number of neighbor*

5ЕЗО

Рис. 20. Зависимость значения показателя А11С от числа соседей в методе к-

ближайших соседей

Оптимальное значение числа соседей получилось равным 100. При этом числе соседей среднее значение показателя А иС на обучающей выборке было равно 0.69855, а на тестовой выборке - 0.66833.

5 Заключение

Исследования показывают, что наилучшие результаты получены при использовании метода логистической регрессии для представления

Исследование методов машинного обучения в задаче автоматического определения

тональности текстов на естественном языке_

пространства признаков в бинарном виде. Также исследования демонстрируют возможность уменьшения пространства признаков без потери точности при удалении малочастотных слов или при выборе наиболее значимых признаков, выделенных после обучения логистической регрессии. Кроме того, в задаче определения тональности текстов результаты исследования демонстрируют, что удаление стоп-слов и взятие основы слова уменьшают точность работы методов машинного обучения, а использование биграмм и триграмм не сказываются на ней.

За рамки статьи вышли исследования методов уменьшения пространства признаков, таких как: латентно-семантический анализ (.LSA), метод главных компонент (PCÄ), метод рекурсивного исключения переменных (RFE), метод определения релевантной частоты {Relevance Frequency, RF). Также в статью из-за большого объема не вошли исследования метода Наивного байесовского классификатора и исследования других второстепенных параметров методов машинного обучения, описанных в разделе 4.

6 Благодарности

Авторы выражают искреннюю благодарность Клышинскому Эдуарду Станиславовичу и Данщину Георгию Андреевичу за помощь в подготовки статьи.

7 Список литературы

[Воронцов, 2011] Воронцов К.В. Машинное обучение, курс лекций URL:

http://www.machineleaming.ru/wiM/index.php?title=MaiifflHHoe_

К.В.Воронцов) (дата обращения: 05.04.2015)

[Википедия, Логистическая регрессия] URL:

https://m.wikipedia.org/wiki/JIorHCTH4ecKaH_perpecciM (дата обращения: 01.04.2015)

[Лебедева, 2014] Лебедева Е.А. Анализ эмоциональной окраски сообщений в микроблогах с помощью вероятностных моделей, 2014. 35 с.

[Чусовлянов, 2014] Чусовлянов Д.С. Машинное обучение для определения тональности и классификации текстов на несколько классов, 2014. 71 с.

[Вишневская, 2013] Вишневская Н.И. Программа анализа тональности текстов на основе методов машинного обучения, 2013. 25 с.

[Sivic et al., 2008] Sivic J., Zisserman A. Efficient visual search of videos cast as text retrieval, 2008.

К задаче определения функционального стиля документа на естественном языке

Волкова Л. Л.

Научно-исследовательский университет «Высшая школа экономики», Московский институт электроники и математики 1Шуауо1коуа@Иаз. тг'ет. ес1и. ги

Аннотация. Рассмотрены проблемы определения функционального стиля текста на естественном языке. Приведена классификация и описаны некоторые причины её вариации. Подробно описаны характерные особенности разных функциональных стилей на лексическом и синтаксическом уровнях представления языка, представляющие собой почву для классификации текстов по функциональному стилю на основе вектора маркеров стиля.

Ключевые слова: машинная лингвистика, обработка естественного языка, функциональный стиль, установление стиля, автоматическая обработка текстов.

1 Введение

Данная статья посвящена определению стиля текста на естественном языке. Будет проведено детальное рассмотрение функциональных стилей и их характеристик, которые могут быть использованы как маркеры при классификации текста по признаку стиля. Задача определения стилистики не является краеугольной, но это не отменяет ее важности, в частности, в вопросах поиска. Когда пользователь ищет информацию определенного рода, при сортировке результатов поисковой системой представляется полезной для повышения релевантности их категоризация в зависимости от стиля. Также фактор стиля документа применим при анализе авторского стиля, выявлении плагиата (если подвергнуть анализу различные фрагменты исследуемого документа), реферировании (с соблюдением стиля), аннотировании текстов на естественном языке.

2 Функциональные стили

Функциональные стили русского литературного языка - это разновидности языка, определяемые сферами деятельности человека и имеющие свои нормы отбора и сочетания языковых средств в зависимости от целей и задач текста. Каждый функциональный стиль (далее ФС) отличается от других следующими признаками: сферой использования, целью общения; формами, в которых он существует; набором языковых средств. Функциональный аспект стиля предполагает единство формы и содержания, а также экстралингвистическую обусловленность текста: «наряду с видами деятельности и формами общественного сознания -функции языка; типовое содержание, характерное для соответствующей

i Надоели баннеры? Вы всегда можете отключить рекламу.