Научная статья на тему 'Представление текстовой информации для анализа тональности текста посредством искусственной нейронной сети. Реализация частного словарного метода'

Представление текстовой информации для анализа тональности текста посредством искусственной нейронной сети. Реализация частного словарного метода Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
379
52
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
АНАЛИЗ ТОНАЛЬНОСТИ / TONALITY ANALYSIS / КОМПЬЮТЕРНАЯ ЛИНГВИСТИКА / COMPUTATIONAL LINGUISTICS / ВЕС ТЕКСТА / TEXT WEIGHT / ОЦЕНОЧНОЕ СЛОВО / ESTIMATED WORD VOCABULARY METHOD / СЛОВАРНЫЙ МЕТОД

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Червяков Николай Иванович, Лифанова Евгения Игоревна

Для обучения искусственной нейронной сети для анализа текста необходимо подать ей на вход данные, имеющие числовое выражение. В статье предложен метод выделения и получения числовых характеристик текста в рамках оценки тональности. Полученные характеристики формируют вектор, который может быть передан алгоритму машинного обучения, для проведения классификации текстов и определения тональности. Статья содержит готовый вербальный алгоритм для реализации посредством высокоуровневых языков программирования. Данный материал является подготовительным этапом при построении искусственной нейронной сети, на котором решается вопрос о представлении и нормализации данных.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по языкознанию и литературоведению , автор научной работы — Червяков Николай Иванович, Лифанова Евгения Игоревна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

PRESENTATION OF THE TEXT INFORMATION FOR THE ANALYSIS OF TEXT TONALITY BY ARTIFICIAL NEURAL NETWORK. THE IMPLEMENTATION OF PRIVATE DICTONARY METHOD

To train the artificial neural network to analyze the text, you should submit input data in a numeric expression. This paper proposes a method for isolating and obtaining numerical characteristics of the text for tonality evaluation. The resulting characteristics in vector form can be transmitted to machine learning algorithm, for determining the classification of texts and tonality. This article contains a ready verbal algorithm for implementation on high-level programming languages. This material is a preparatory stage in the construction of an artiicial neural network, which addressed the issue of representation and normalization of data.

Текст научной работы на тему «Представление текстовой информации для анализа тональности текста посредством искусственной нейронной сети. Реализация частного словарного метода»

ФИЗИКО-МАТЕМАТИЧЕСКИЕ НАУКИ

«НАУКА. ИННОВАЦИИ. ТЕХНОЛОГИИ», №1,2016

удк 519.688 Червяков Н.И. [Chervyakov N.I.], Лифанова Е.И. [Lifanova Е. I.]

ПРЕДСТАВЛЕНИЕ ТЕКСТОВОЙ ИНФОРМАЦИИ ДЛЯ АНАЛИЗА ТОНАЛЬНОСТИ ТЕКСТА ПОСРЕДСТВОМ ИСКУССТВЕННОЙ НЕЙРОННОЙ СЕТИ. РЕАЛИЗАЦИЯ ЧАСТНОГО СЛОВАРНОГО МЕТОДА

Presentation of the text information for the analysis of text tonality by artificial neural network. The implementation of private dictonary method

Для обучения искусственной нейронной сети для анализа текста необходимо подать ей на вход данные, имеющие числовое выражение. Б статье предложен метод выделения и получения числовых характеристик текста в рамках оценки тональности. Полученные характеристики формируют вектор, который может быть передан алгоритму машинного обучения, для проведения классификации текстов и определения тональности. Статья содержит готовый вербальный алгоритм для реализации посредством высокоуровневых языков программирования. Данный материал является подготовительным этапом при построении искусственной нейронной сети, на котором решается вопрос о представлении и нормализации данных.

Ключевые слова: анализ тональности, компьютерная лингвистика, вес текста, оценочное слово, словарный метод

То train the artificial neural network to analyze the text, you should submit input data in a numeric expression. This paper proposes a method for isolating and obtaining numerical characteristics of the text for tonality evaluation. The resulting characteristics in vector form can be transmitted to machine learning algorithm, for determining the classification of texts and tonality. This article contains a ready verbal algorithm for implementation on high-level programming languages. This material is a preparatory stage in the construction of an artificial neural network, which addressed the issue of representation and normalization of data.

Key words: tonality analysis, computational linguistics, text weight, estimated word vocabulary method.

Искусственные нейронные сети один из самых эффективных, а поэтому и популярных инструментов при решении задач компьютерной лингвистики. За счет возможности обучаться, своей способности производить классификацию и прочих преимуществ искусственные нейронные сети используются при обработке ее-

тественного языка. Однако встаёт вопрос о представлении данных и их нормализации в рамках подобных задач. Действительно, любая классификация проводится на основе определенных признаков. Для классификации текстовой информации (как одной из форм представления естественного языка) требуется определить набор признаков, которые должны иметь численное представление, чтобы была возможность применять математические методы и расчеты. Выбор необходимых признаков определён постановкой задачи. Рассмотрим одно из направлений компьютерной лингвистики - анализ тональности текста или определение эмоциональной окрашенности текста.

Среди методов, используемых в анализе тональности текстов, классификацию проводят в зависимости от способов реализации методов. Выделяется несколько классов методов для выявления в тексте эмоционально-окрашенной лексики и эмоциональных оценок автора: методы, в основе которых лежит использование правил и словарей; методы, в рамках которых текст изображается в виде графа, где каждому слову присваивается вес; методы векторного анализа, подразумевающие сравнение с заранее размеченным эталонным корпусом. [1] Каждый из методов имеет свои преимущества и недостатки, поэтому имеет место гибридный метод, который заключается в совместном применении классификаторов, основанных на вышеперечисленных методах. Использование методов допускает возникновение различных ошибок. [2]

Ошибки при определении тональности делятся на несколько классов Один из которых составляют ошибки при составлении тональных словарей, вызванных их неполнотой и тональной омонимией. Поэтому составление словаря является важной и основополагающей компонентой при проведении анализа текста. Составление тональных словарей очень трудоемкий процесс, так как значение слов зависит от контекста и сферы употребления. Поэтому необходимо привязывать тональные словари к предметной области. Как правило, составлением словарей должны заниматься специалисты предметной области, в рамках которой проходит анализ [3].

№1, 2016

ФИЗИКО-МАТЕМАТИЧЕСКИЕ НАУКИ

Представление текстовой информации для анализа тональности текста.

65

В предложенном методе предполагается работа с тональным словарём, представленным в виде нескольких столбцов: слово непосредственно и его числовая характеристика, отражающая значение слова относительно рассматриваемой предметной области. Данную характеристику назовём авторитетом слова и предоставим экспертам возможность на основании объективных знаний, назначить каждому слов}' авторитет. Полагаем, что значение авторитета принадлежит множеству целых чисел. Итак, тональный словарь представляет собой столбец слов для сравнения и столбец соответствующих им Авторитетов (в дальнейшем могут быть введены дополнительные характеристики), помимо тонального словаря ключевой словарь включает двумерный список слов-модификаторов и соответствующих им коэффициентов, а также при необходимости списки специальных пунктуационных и прочих символов, в зависимости от предметной области. Слова-модификаторы - это слова, которые сами по себе имеют нулевой авторитет, но усиливают либо уменьшают значение последующего слова, либо полностью его отрицают. Данный кортеж слов-модификаторов является более общим для предметных областей, но первоначально также создается экспертами. Для слов-модификаторов во второй столбец вносятся коэффициенты, в интервале (-1,1), отражающие степень усиления или уменьшения значимости слова.

Если рассматривать не только использование слов, но и специальных символов, которые также могут свидетельствовать об эмоциональной окрашенности текста, то для них создаётся отдельное множество знаков -модификаторов и назначаются значения коэффициентов. Например, символ «(« - открывающаяся скоб-

ка, в молодёжном слэнге обозначает анти-улыбку, или последовательное использование восклицательных знаков. Также, рассматривая тексты в социальных сетях с целью анализа их эмоциональной окрашенности, нельзя игнорировать использование в текстах специальных символов -«смайлов», которые в коде страницы записаны в специальных хэштэгах. Авторитет текста также зависит от наличия в тексте таких символов, для этого считается необходимым ввести множество символов-модификаторов, где каждому присваивается коэффициент, изменяющий авторитет текста на определенную величину.

С точки зрения реализации алгоритма, формирование словаря в программе может происходить несколькими вариантами: а) через файл, в этом случае пользователь выбирает предметную область и пользуется готовыми словарями из специально подготовленных файлов, б) либо через консоль, тогда пользователь вручную вводит слова и соответствующие им показатели.

Идея метода состоит в том, что исследуемую фразу «слово 1, слово2, словоЗ,..., слово п» можно представить в виде вектораУ[у V-, V-, \ |. Где V - условный параметр каждого слова, в качестве которого может выступать одна из характеристик:

• авторитет слова;

• степень принадлежности слова к предметной области;

• частота употребления слова в тексте.

Если авторитет слова и степень принадлежности - это постоянные для каждого слова величины, первая из которых установлена экспертами и зафиксирована в тональном словаре, а вторая рассчитывается для каждого оценочного слова на основе тестовых выборок, и также может быть помещена в тональный словарь в качестве третьего столбца, то оставшаяся величина является расчетной и определяется для каждого рассматриваемого слова.

№1, 2016

ФИЗИКО-МАТЕМАТИЧЕСКИЕ НАУКИ

Представление текстовой информации для анализа тональности текста.

67

Степень принадлежности слова к предметной области определяется как отношение между числом употребления данного слова в текстах из исследуемой предметной области и числом употребления данного слова в текстах, не относящихся к данной предметной области.

8 = а/р, (1)

где а - число употребления в текстах исследуемой области,

|3 - число употребления в текстах других областей.

Частота употребления слова в тексте рассчитывается путем перебора слов в тексте, посредством включения счетчика. При этом процедура, осуществляющая подсчет должна предусматривать возможность употребления слова в тексте с различными окончаниями, возможно приставками, как в единственном, так и во множественном числе.

Имеем, что у каждого слова существует как минимум три параметра, которые в совокупности характеризуют слова с точки зрения изучаемого вопроса. Разумно объединить эти параметры в одну общую характеристику, которую, как принято в установке эмоциональной окрашенности текста называют весом слова [2]. В данном методе вес слова рассчитывается по формуле:

с] = (2)

где а - авторитет слова,

Ь - частота употребления слова в тексте,

§ - степень принадлежности слова к оценочному классу.

Применяя данную формулу и учитывая особенности текстовой информации, сформулируем и опишем алгоритм представленного метода.

1. Рассчитать п - кол-во слов в тексте.

2. Определить принадлежность каждого слова \уп к ключевому множеств}' - коллекция слов тонального словаря. Для этого каждую единицу необходимо изымать из текста.

3. Сформировать вектор А[а сЦ Я | (одномерный массив) из авторитетов слов и вектор ОгЩ^ <г. g3 gn] (одномерный массив) из показателей степени значимости слов.

4. Рассчитать величину Ьп- частоту употребления слова в тексте, результаты данных расчетов сформируют вектор В|Ь Ь; Ь; Ь. |.

5. Полученные данные позволяют перейти к основным расчетам и непосредственно определению веса каждого слова в тексте:

Пусть \¥п -

п -

Ут-

где к -

единица (слово/специальный символ) из текста Г . принадлежащего множеству текстов Т из тестовой выборки, размерность текста;

множество ключевых слов размерностью т, 5 - множество слов-модификаторов размерностью и, соответственно,

коэффициент слова-модификатора.

Пока 1 изменяется от 1 до п, производим следующее сравнение, и зависящий от результата данного сравнения расчёт:

• если \\. принадлежит множеству У и \у; 1 принадлежит 8 , то вес слова исчисляется по формуле:

№1, 2016

ФИЗИКО-МАТЕМАТИЧЕСКИЕ НАУКИ

69

Представление текстовой информации для анализа тональности текста...

q. = (к. *а.) *Ь. *§.

(3)

• если \\ принадлежит множеству У, то вес слова рассчитывается по формуле (2);

6. На выходе имеем вектор С)^ с], с|.). который может быть передан алгоритму машинного обучения, чтобы произвести классификацию текстов и определить тональность.

7. Полученные параметры позволяют произвести расчеты следующих глобальных характеристик текста, таких как: X - средняя степеней принадлежности текста к искомому классу;

Ъ - средний вес текста.

Если на основании тестовых выборок установить Рх [р1

р2] и Р2 [р1 р2 ] - пороговые значения для данных параметров и представить их в виде точек на числовой оси, то можно делать предварительный прогноз о принадлежности текста к одному из уровней классификации (степеней эмоциональной оценки, например). Для этого необходимо оценить, попадает ли рассчитанная величина в интервал (р1 р2).

Иначе:

(4)

БИБЛИОГРАФИЧЕСКИЙ

список

1. Клековкина М.В., Котельников Е.В., Метод автоматической классификации текстов по тональности, основанный на словаре эмоциональной лексики // Труды 14-й Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» — RCDL-2012, Переславль-Залесский, Россия, 15-18 октября 2012 г.

2. Котельников Е. В., Клековкина М. В. Автоматический анализ тональности текстов на основе методов машинного обучения// Компьютерная лингвистика и интеллектуальные технологии: по материалам ежегодной международной конференции «Диалог». Вып. 11 (18). - М.: Изд-во РГГУ, 2012

3. Филиппова Е. Информационно-образовательный портал, посвященный вопросам анализа и обработки данных-2014 // URL: http://datareview.info/articie/anaiiz-tonainosti-teksta-kontseptsiya-metodyi-obiasti-primeneniya/(дата обращения: 15.01.2016).

i Надоели баннеры? Вы всегда можете отключить рекламу.