Научная статья на тему 'Автоматическое выделение психолингвистических характеристик текстов в рамках концепции big data'

Автоматическое выделение психолингвистических характеристик текстов в рамках концепции big data Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
318
71
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
BIGDATA / ПСИХОЛИНГВИСТИЧЕСКИЕ МАРКЕРЫ / ЭМОЦИОНАЛЬНОЕ СОСТОЯНИЕ / ПОТОКОВАЯ ОБРАБОТКА ТЕКСТОВ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Сбоев Александр Георгиевич, Гудовских Дмитрий Владимирович, Молошников Иван Александрович, Кукин Константин Александрович, Рыбка Роман Борисович

В работе рассматривается реализация метода автоматического выделения психолингвистических маркеров в текстах естественного языка. Метод реализован на языке Python и интегрирован в модель потоковой обработки данных в платформе IBM InfoSphere Streams. На основе записей сайта blogs.yandex.ru продемонстрирован пример, отражающий разницу эмоциональной напряженности текстов однотипных документов.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Сбоев Александр Георгиевич, Гудовских Дмитрий Владимирович, Молошников Иван Александрович, Кукин Константин Александрович, Рыбка Роман Борисович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Автоматическое выделение психолингвистических характеристик текстов в рамках концепции big data»

Сбоев А.Г.1, Гудовских Д.В.2, Молошников И.А.3, Кукин К.А.4, Рыбка

Р.Б.5, Иванов И. И.6, Власов Д.С.7

1 к.ф.-м.н., с.н.с., доцент кафедры АСОУ , sag111@mail.ru 2 Аспирант, НИЦ «Курчатовский институт», dvgudovskikh@gmail.com

3 Аспирант, НИЦ «Курчатовский институт», ivan-rus@yandex.ru

4 Аспирант, НИЦ «Курчатовский институт», kostikkykin@mail.ru

5 Аспирант, НИЦ «Курчатовский институт», RybkaRB@gmail.com

6 Магистр, МИРЭА honala@yandex.ru 7 Студент, МИРЭА, vfked0d@gmail.com

Автоматическое выделение психолингвистических характеристик текстов в рамках концепции Big Data

КЛЮЧЕВЫЕ СЛОВА:

BigData, психолингвистические маркеры, эмоциональное состояние, потоковая обработка текстов.

АННОТАЦИЯ:

В работе рассматривается реализация метода автоматического выделения психолингвистических маркеров в текстах естественного языка. Метод реализован на языке Python и интегрирован в модель потоковой обработки данных в платформе IBM InfoSphere Streams. На основе записей сайта blogs.yandex.ru продемонстрирован пример, отражающий разницу эмоциональной напряженности текстов однотипных документов.

Введение

Актуальность задачи автоматического выделения

психолингвистических характеристик (маркеров) обусловлена интенсивным развитием Интернет технологий, формированием виртуальной среды общения, открывающим широкие возможности для автоматизированного анализа состояния социума и прогнозирования развития этих состояний. В частности в популярных социальных сетях и сервисах таких как Facebook, Vkontakte, Twitter, LinkedIn, Google+ по статистике в месяц наблюдается активность более чем 1,5 миллиардов пользователей.

Непрерывный рост объема информации циркулирующей в открытых источниках требует создания инструмента автоматического извлечения характерных признаков социальной активности общества и построение методов их анализа в режиме реального времени для обработки больших и сверх больших объемов информации. В рамках решения данной задачи представляется весьма перспективным развитие технологий потоковой обработки данных в концепции BigData.

В этой статье будет рассмотрена реализация метода автоматического выделения психолингвистических маркеров в текстах. Метод реализован на языке Python и интегрирован в модель потоковой обработки данных в платформе IBM InfoSphere Streams.

Современные технологии обработки больших объемов потоковых данных в рамках концепции BigData и работы представителей психолингвистического направления позволяют поставить задачу создания систем мониторинга и анализа виртуальной социальной среды, в частности исследования эффективности существующих маркеров и психолингвистических показателей характеризующих её состояние.

Касаясь последних следует отметить работы отечественной школы психолингвистики, большой вклад внесли такие ее представители как Леонтьев А.А., Шаховский В.И., Витт Н.В., Гак В.Г., Носенко Э.Л.. Среди иностранных представителей так же можно отметить вклад в развитии методов анализа текстов таких как Osgood, Walker, Hackman и Gilad Mishne. На основе работ ряда авторов были выделены лингвистические характеристики в текстах отражающие эмоциональное состояние автора (маркеры). В частности Чернов Д.Н. и Игнатов Ю.Ю. в своей статье излагают результаты экспериментального исследования выражения психолингвистических особенностей в количественных характеристиках. В своей работе авторы установили зависимость таких лингвистических показателей как, количество словообразований в тексте и отношение количества прилагательных и глаголов являются корреляторами особенностей психологического состояния личности автора. Подобные исследования дают возможность построения автоматизированных методов оценки эмоциональной окраски текста и так же инструментов проверки различных теорий и гипотез.

Принято выделять следующие типы маркеров:

• Маркеры активности

• Психолингвистические маркеры

• Лексические маркеры

• Семантические маркеры

Маркеры активности - отражает общую активность пользователей в сети (на ресурсе):

1. Количества сообщений или комментарий в день

2. Количество комментирующих пользователей в день Лексические маркеры - слова, словосочетания и фразы в текстах

отражающие эмоциональное состояние автора. Обычно специфические словари заранее подготавливаются экспертами для исследуемых тематических коллекций документов. Одни и те же слова могут иметь разный коэффициент значимости в контексте различных тематических групп текстов. Существует методы автоматического выделения ключевых слов и словосочетаний, основанные на сравнении выборок текстов и

дальнейшем выделении уникальных фраз.

Семантические маркеры - эти маркеры представляют собой частоты семантических значений, наиболее характерных для стрессовых сообщений. Вопрос семантического анализа текстов один из самых сложных в компьютерной лингвистики и на данный момент авторам наиболее реальным кажется его реализация в таблицах сопоставления конкретных слов и словосочетаний с образами эмоциональных всплесков в тексте. Подобные таблицы должны составляться на основе экспертных оценок в из сфер психолингвистики и психологии.

Психолингвистические маркеры - за счет наличия обширных исследований в психолингвистики имеется достаточно большой перечень показателей отражающих психологическое состояние автора при написании текстов различных типов. В данной работе имеются ввиду некоторые из числа способных отражать степень эмоционального напряжения.

Примеры психолингвистических маркеров:

• количество местоимений или существительных, наречий, прилагательных или глаголов;

• количество существительных и глаголов по сравнению с прилагательными и наречиями;

• коэфицент Трейгера (КТ) - отношение количества глаголов к количеству прилагательных в единице текста;

• количество слов в тексте;

• количество предложений;

• средний размер предложений в словах;

• коэффициент опредмеченности действия (КОД) - соотношение количества глаголов к количеству существительных в единице текста.

• количество знаков восклицания в документе

Помимо перечисленных показателей эмоциональной напряженности следует обращать внимание на стилистику построения предложений в тексте:

1. Синтаксическая сложность предложений уменьшается.

2. В тексте резко возрастает отношение числа грамматически незавершенных предложений к общему их числу.

3. Увеличивается количество предложений незаконченных либо в грамматическом отношении, либо в синтаксическом, либо в логическом.

Э.Л. Носенко в своих опытах выделяет снижение словарного разнообразия и более частого употребления шаблонных фраз и клеше у испытуемых по сравнению с их текстами, созданными в нормальном состоянии. На основании данных результатов можно рассчитывать коэффициент встречаемости слов в единице текста.

Колебания выраженности соответствующих показателей в тексте отражают отклонение текущего эмоционального состояние автора от нормы. Подобные нормы можно выделить эмпирическим путем из ретроспективной выборки с наложением социально значимых событий. Особенно важными будут показатели маркеров в период проходивших акций протестов и массовых волнений, когда интенсивность обсуждения и эмоциональные окрасы текстов находятся в своих точках экстремума.

Интенсивное появление сообщений с ярко выраженным эмоциональным напряжением можно охарактеризовать как всплеск социального напряжения и готовность пользователей осуществить переход к реальным действиям.

Модуль автоматического выделения психолингвистических маркеров реализованный на платформе IBM InfoSphere Streams

Рис.1. Структурная модель модуля автоматического выделения маркеров

Во время обработки документы проходит основные этапы:

[1] Первичная обработка документов на естественном языке.

[2] Морфологический и синтаксический анализ текстов -осуществляется адаптированным модулем АОТ.

[3] Вычисление значений маркеров и запись их в базу данных. Обрабатывается разобранный блоком АОТ текст с морфологическими признаками слов. На основе частот появления слов с определенными морфологическими признаками вычисляются значения психолингвистических маркеров.

[4] Сохранение значений в базе данных.

В пример приведем алгоритм подсчета нескольких маркеров.

1. Психолингвистический маркер - Коэфицент Трейгера:

\у \

Вычисляется по формуле МТ^,

IBM Info Sphere Streams

Выделение характеристик маркеров

Значения маркеров

Вы числение значений маркеров

где V - множество глаголов в документе, А - множество прилагательных в документе.

Вычисляется на основе обработки файла с синтаксически разобранными предложениями, в котором сформированы морфологические признаки слов. По полученным характеристикам подсчитываются количество глаголов и прилагательных в документе. Далее по величине счетчиков вычисляется значение маркера в документе. По всем документам, обработанным за день, вычисляется суточная величина маркера по формуле:

МТг^= Е МТгг ( dl ) ,

г = 1

где D - множество обработанных документов за день, - документ.

Лексические маркеры - вычисляются для коллекций документов, в их число входят:

• Частота документов со словами, обозначающими негативные или позитивные эмоции.

• Число документов со словами с деструктивной семантикой;

• Количество документов содержащих лексику физического насилия;

• Количество документов содержащих лексику смерти, болезни, физического страдания;

Значение маркеров вычисляется по формуле:

,

где Dw - количество документов содержащих слова из словаря и Ш - мн-во слов словаря, D - множество документов определенной коллекции.

Обработанные документы в виде списка лексем обрабатываются на наличие слов из составленных словарей состояния. В случае если лексема входит в словарь - значение маркера увеличивается. После обработки всего списка лексем, значение маркера для данного исходного документа сохраняется в базе данных. Анализ документов

В качестве примера ниже показана разница в эмоциональной напряженности однотипных документов, представляющих из себя записи из блогов. Записи выбирались из результатов поискового запроса выданных на слово «протест» с сайта blogs.yandex.ru.

Таблица №1.

1 2 3 4 5

Кол-во слов 314 265 214 437 302

Кол-во предложений 26 14 4 23 15

Кол-во существительных 132 137 64 212 128

Кол-во прилагательных 35 29 13 43 46

Кол-во глаголов 32 23 27 42 28

Кол-во местоимений 26 11 24 29 16

Средний размер предложения 12,08 18,93 53,5 19 20,13

Отношение существительных и глаголов с прилагательными и наречиями 3,16 5,0 2,75 4,06 2,69

КОД 0,17 0,17 0,42 0,15 0,22

КТ 0,66 0,79 2,07 0,74 0,6

В таблице №1 показаны полученные значения маркеров, среди которых можно выделить документ №3. Из числа слов в одном предложении данного документа можно сделать вывод о слабой форматированности текста, что так же говорит о эмоциональной возбужденности автора, в подобном состоянии человек не следит за грамматической правильностью своего текста. Среди психолингвистических маркеров описанных в литературе так же видно явное отличие КОД и КТ от других документов выборки. В литературе говорится о нормальном значении КТ равного 1, явное превышение данного порога в документе №3 указывает на эмоциональное напряжение автора данного текста. На основе полученных результатов автоматического разбора текстов уже можно утверждать о чрезмерной возбужденности автора документа №3 по сравнению с другими, не смотря на тот факт, что исследовалась маленькая выборка. Выводы

Таким образом в заключении можно сказать, что на платформе IBM InfoSphere Streams в интегрированном модуле реализован алгоритм автоматизированной обработки коллекций документов с возможностью автоматического выделения психолингвистических маркеров на основе синтаксического и морфологического анализа текстов. Данный алгоритм осуществляет частичное выявление социальной напряженности в текстах в режиме реального времени и требует доработки в диагностической части, а так же проработки анализа модулем совместно с различными подходами к выявлению состояния социума.

Большинство экспертов выделяют выбор слов с четкой позитивной или негативной лексикой, как самую яркую отличительную особенность текстов в состоянии эмоционального напряженности. На основе данного утверждения реализованный метод предлагается использовать как вспомогательный к уже существующим алгоритмам выявления эмотивности текстов на основе использования словарей и для улучшением точности ее определения.

Литература

1. Носенко Э.Л. Некоторые особенности грамматического оформления устного высказывания в состоянии эмоциональной напряженности // Вопросы теории романо-германских языков. - Днепропетровск, 1976. - С. 170-180.

2. Д.Н.Чернов, Ю.Ю.Игнатов. Выражение психологических особенностей в количественных показателях речи // Вопросы психолингвистики. - Москва, 2012 - С.134.

3. Самохвалов В.П., «Психиатрия», учебное пособие для студентов медицинских вузов.

4. Барташова О.А., Полякова С.Е., Эмоциональная напряженность как аспект коммуникативной неудачи в политическом дискурсе: Учебное пособие.- СПб.: Изд-во СПбГУЭФ, 2009.- 40 с.

i Надоели баннеры? Вы всегда можете отключить рекламу.