Научная статья на тему 'Интеллектуальный анализ текстовых ответов в массовых опросах'

Интеллектуальный анализ текстовых ответов в массовых опросах Текст научной статьи по специальности «Психологические науки»

CC BY
353
33
i Надоели баннеры? Вы всегда можете отключить рекламу.
Журнал
Cloud of science
ВАК
Ключевые слова
ПРОФЕССИОНАЛЬНЫЙ ОПРОС / АНАЛИЗ ТЕКТОВЫХ СООБЩЕНИЙ / АНАЛИЗ ТОНАЛЬНОСТИ / PROFESSIONAL SURVEY / COSINE DISTANCE / SENTIMENT ANALYSIS

Аннотация научной статьи по психологическим наукам, автор научной работы — Силаева А.Э., Габриелян Г.А., Исаева И.А., Никульчев Е.В.

Описаны результаты интеллектуального анализа результатов массовых опросов с ответами на естественном языке в свободной форме. Использованы ответы, полученные в ходе профессионального опроса педагогов-психологов. Определены алгоритмы для разработки оценки опросов, и выбрана библиотека для проведения сентиментальной обработки текстов для выявления тональностей опрашиваемого, построены графики с отображением тональностей по каждому из выбранных вопросов.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по психологическим наукам , автор научной работы — Силаева А.Э., Габриелян Г.А., Исаева И.А., Никульчев Е.В.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Intelligent analysis of text responses in large-scale surveys

The article describes the results of intellectual analysis of the results of large-scale surveys with free-form answers in natural language. Answers from the professional survey of teachers-psychologists. Algorithms for the development of survey evaluation were determined, and a library for sentimental processing of texts to identify the tonalities of the interviewee was selected, and charts with the tonality for each of the selected questions were drawn up.

Текст научной работы на тему «Интеллектуальный анализ текстовых ответов в массовых опросах»

Cloud of Science. 2019. T. 6. № 4 http:/ / cloudofscience.ru

Интеллектуальный анализ текстовых ответов в массовых опросах1

А. Э. Силаева, Г. А. Габриелян, И. А. Исаева, Е. В. Никульчев

МИРЭА-Российский технологический университет 119571, Москва, пр-т Вернадского, 78

e-mail: grottershal23@gmail.com, ike.gabrielyan@yandex.ru, rirri-13@yandex.ru

Аннотация. Описаны результаты интеллектуального анализа результатов массовых опросов с ответами на естественном языке в свободной форме. Использованы ответы, полученные в ходе профессионального опроса педагогов-психологов. Определены алгоритмы для разработки оценки опросов, и выбрана библиотека для проведения сентиментальной обработки текстов для выявления тональностей опрашиваемого, построены графики с отображением тональностей по каждому из выбранных вопросов.

Ключевые слова: профессиональный опрос, анализ тектовых сообщений, анализ тональности.

1. Введение

В настоящее время проводится значительное количество массовых веб-опросов, заполняются анкеты после использования услуг, проводятся специализированные тематические опросы, в том числе в профессиональной среде. В таких анкетах наряду с вопросами, которые подразумевают выбор ответа из имеющихся вариантов, часто имеются поля, требующие ответа респондента в естественноязыковой форме. К полям в свободной форме относятся и вопросы, требующие оценку опрашиваемого субъекта, именно такие ответы трудно обработать, среди нескольких тысяч ответов трудно выделить точно совпадающие по форме. Их можно классифицировать по эмоциональной окраске с использованием интеллектуальных методов, также интеллектуальные методы могут быть применены к обработке и классификации естественноязыковых ответов.

В работе использованы ответы из профессионального опроса педагогов-психологов, проведенного с использование платформы DigitalPsyTools.ru [1, 2].

Для проведения интеллектуального анализа ответов респондентов в профессиональной среде предлагается использовать следующие интеллектуальные алгоритмы: 1) анализ тональности текста; 2) поиск общих тем в текстах; 3) выделение возрастной категории, давших ответ в одной тональности.

1 Работа выполнена при финансовой поддержке РФФИ, проект № 17-29-02198.

2. Методы исследования

Анализ тональности текста [3], также называемый сентиментальным анализом [4], это область компьютерной лингвистики, которая занимается изучением мнений и эмоций в текстовых документах. Целью проведения данного вида анализа является выявление различных свойств текста, таких как тема (о чем говорится в тексте), и тональность (позиция автора относительно упомянутой темы). Тональность текста может быть положительной, нейтральной, отрицательной.

Для того чтобы провести сентиментальный анализ текста была использована библиотека dostoevsky2. Данная библиотека включает в себя несколько моделей, которые были обучены на датасете RuSentiment3: FastText — 0.71 F1; CNN — 0.70 F1. Для обучения была использована модель FastText. Для поиска общих тем в текстах применялись следующие метрики: косинусное сходство [5] и TF-IDF [6].

Косинусное сходство [7] — это мера сходства между двумя векторами, которая используется для измерения косинуса угла между ними. Косинусная мера часто используется для измерения схожести между текстами. Каждый документ описывается вектором, в котором каждая компонента соответствует слову из словаря. Компонента равна единице, если соответствующее слово встречается в тексте, и нулю в противном случае. Тогда косинус между двумя векторами будет тем больше, чем больше слов встречаются в этих двух документах одновременно.

TF-IDF [8] — это метрика, которая выявляет наиболее важные (частые) слова в словаре или корпусе. TF — это частотность термина, которая измеряет, насколько часто термин встречается в документе. Для коротких текстовых сообщений используются нормированные величины: отношение количества раз, когда термин встретился в тексте к общему количеству слов в тексте. IDF — это обратная частотность документов, измеряет непосредственно важность термина. То есть при подсчете TF все термины считаются одинаково равными по важности друг другу.

3. Результаты интеллектуального анализа

В работе используются данные из профессионального опроса педагогов-психологов. Для анализа исследованы ответы на три вопроса. Особенностью ответов является: 1) фразы на естественном языке; 2) ответы различные, сложно классифицируемые; 3) вопросы не подразумевали варианты ответов.

Рассматривались ответы на следующие вопросы

1) «Есть ли у Вас еще какие-либо обязанности в школе, прямо не относящиеся к Вашей психологической деятельности?»;

2 https://github.com/bureaucratic-labs/dostoevsky

3 https://github.com/text-machine-lab/rusentiment

2) «Какую психологическую документацию Вы ведете в учреждении?»;

3) «Укажите Ваши пожелания по развитию психологической службы в системе образования Вашего субъекта?».

Результаты сентиментального анализа изображены на рис. 1-3. На графиках ответы классифицируются как положительные, негативные, нейтральные, речевые и ответы, которые не могут отнесены ни к одному из классов.

Рисунок 1. Анализ тональности текста ответов по первому вопросу

Рисунок 2. Анализ тональности текста ответов по второму вопросу

РС2614 Укажите Ваши пожелания по развитию психологической службы в системе образования Вашего субъекта?

Рисунок 3. Анализ тональности текста ответов по третьему вопросу

По результатам, представленным на данных графиках, можно увидеть тональность ответов: насколько педагоги-психологи положительно, негативно или нейтрально выражают свои эмоции. Некоторые ответы не принадлежат к трем перечисленным категориям, описанным выше. Можно отметить, что большая часть людей, принимающих участие в опросе, не оставляли его без ответа и что основной тональностью при ответе на вопросы является — нейтральная.

Во всех ответах негативная тональность преобладает над позитивной, а значит необходимо более детализированно проанализировать ответы для выявления общей тематики, понимания причин негативной тональности респондентов и дальнейшего устранения выявленных проблем.

После определения тональности был проведен анализ схожести ответов. Для анализа использовался следующий алгоритм:

1) посчитать количество похожих словосочетаний;

2) преобразовать слова в векторы с помощью TF-IDF;

3) использовать косинусово расстояние;

4) построить матрицу N х Ы;

5) подобрать средний коэффициент, которые позволит выбрать группы;

6) выбрать из группы словосочетание с максимальным коэффициентом.

Пункт 6 нужен для определения и установки темы группы, который создает алгоритм.

При подсчете косинусового расстояния между словосочетаниями строится матрица N х N коэффициентов, в которой каждое число показывает, насколько словосочетания похожи с друг другом. Коэффициент подбирается эмпирическим путем после некоторого перебора, в ходе которого максимально проявляется общая тема. После подбора среднего коэффициента строится массив словосочетаний. В

нем уже просчитано количество вхождений. Данные результата работы методики изображены на рис. 4-6.

Рисунок 4. Группировка по общим темам при ответе на первый вопрос

Рисунок 5. Группировка по общим темам при ответе на второй вопрос

Рисунок 6. Группировка по общим темам при ответе на третий вопрос

При анализе графиков можно выявить, что наиболее частыми ответами на вопрос про дополнительные обязанности в школе являются:

1) Работа учителем, причем в разных областях — как учителем начальной школы, так и русского языка и литературы, математики, географии;

2) Дежурство по школе;

3) Организация внеурочной деятельности.

Чаще всего преобладает ответ «учитель начальных классов».

На второй вопрос, про ведение документации, преобладают следующие ответы:

1) Журнал консультации;

2) Журнал учета вида работ;

3) Документация ПМК.

Наиболее часто встречается тема «журнал консультации».

В качестве наиболее часто встречающихся общих тем при ответе на вопрос про пожелания являются следующие:

1) Повышение заработной платы;

2) Оснащение кабинета, оснащение методическими материалами;

3) Уменьшение отчетности.

После определения общей тематики ответов на все три вопроса было принято решение проанализировать ответы с негативной тональностью по возрастам опрашиваемых. Для этого в ходе сентиментального анализа при выявлении негативной

тональности выявлялся возраст опрашиваемого человека. Результаты приведены на рис. 7-9.

Можно отметить, что наибольшее количество опрашиваемых, давших ответ с негативной окраской на все три вопроса со свободным вариантом ответа, находятся в возрастной категории «от 41 до 45 лет». На втором месте по количеству отрицательных ответов во всех трех вопросах находятся люди возрастной категории «от 36 до 40». Третье место делят между собой такие категории, как «от 31 до 35» и «от 46 до 50».

Рисунок 7. Возраст опрашиваемых, давших ответ с негативной тональностью

на первый вопрос

Рисунок 8. Возраст опрашиваемых, давших ответ с негативной тональностью

на второй вопрос

negative PQ614 - Укажите Ваши пожелания по развитию психологической службы в си

Рисунок 9. Возраст опрашиваемых, давших ответ с негативной тональностью

на третий вопрос

4. Выводы

В ходе работы были проанализированы данные из профессионального опроса, а именно: выбраны ответы на вопросы без заранее заданного ответа для дальнейшего анализа. Был проведен сентиментальный анализ текста, построены графики анализа тональности текста, т. е. определен эмоциональный окрас ответа в каждом из трех выбранных вопросов, проанализированы результаты. Также были выявлены общие тематики ответов на вопросы без заданного варианта ответа, на рисунках представлена группировка по общей тематике ответов на вопросы, проанализированы результаты. Кроме того, были определены возрастные категории людей с выявленной негативной тональностью при ответе на вопросы.

Важно отметить, что интеллектуальная методика анализа результатов массовых опросов оценки свободных ответов может быть применена в различных сферах жизни человека: в политологии, социологии, медицине, психологии. В настоящее время, когда появляется все больше технологий и возможностей проводить массовые вопросы, именно интеллектуальная методика анализа позволяет в короткие сроки категоризировать и выявлять общие тематики ответов для дальнейших изменений.

Литература

[1] Nikulchev E., Ilin D., Kolyasnikov P., Belov V., Zakharov I., Malykh S. Programming technologies for the development of web-based platform for digital psychological tools // International Journal of Advanced Computer Science and Applications. 2018. Vol. 9. No. 8. P. 3445.

[2] Zakharov I., Nikulchev E., Ilin D., Ismatullina V., Fenin A. Web-based platform for psychology research // ITM Web of Conferences. 2017. Vol. 10. P. 04006.

[3] Бритиков А. А. Автоматизация синтеза коротких текстовых сообщений с заданной семантической и эмоциональной направленностью // Труды СПИИРАН. 2013. Т. 27. C. 107-114.

[4] Chowdhury S. M. H., Ghosh P., Abujar S., Afrin M. A., Hossain S. A. Sentiment Analysis of Tweet Data: The Study of Sentimental State of Human from Tweet Text // Emerging Technologies in Data Mining and Information Security. — Springer, 2019. P. 3-14.

[5] Luo C., Zhan J., Xue X., Wang L., Ren R., Yang Q. Cosine normalization: Using cosine similarity instead of dot product in neural networks // International Conference on Artificial Neural Networks. — Springer, 2018. P. 382-391.

[6] Sidorov G., Gelbukh A., Gómez-Adorno H., Pinto D. Soft similarity and soft cosine measure: Similarity of features in vector space model // Computación y Sistemas. 2014. Vol. 18. No. 3. P. 491-504.

[7] Guo J., Mu Y., Xiong M., Liu Y., Gu J. Activity feature solving based on TF-IDF for activity recognition in smart homes // Complexity. 2019. Vol. 2019. Article ID 5245373.

[8] Kim D., Seo D., Cho S., Kang P. Multi-co-training for document classification using various document representations: TF-IDF, LDA, and Doc2Vec // Information Sciences. 2019. Vol. 477. P. 15-29.

Авторы:

Анастасия Эдуардовна Силаева — аспирант кафедры «Интеллектуальные системы ин-фомрационной безопасности», МИРЭА — Российский технологический университет; специалист Дата-центра, Российская академия образования

Гайк Ашотович Габриелян — магистрант кафедры «Корпоративные информационные системы», МИРЭА — Российский технологический университет

Ирина Андреевна Исаева — магистрант кафедры «Корпоративные информационные системы», МИРЭА — Российский технологический университет

Евгений Витальевич Никульчев — доктор технических наук, профессор, профессор кафедры управления и моделирования систем, МИРЭА — Российский технологический университет

Intelligent analysis of text responses in large-scale surveys

A. E. Silaeva, G. A. Gabrielyan, I. A. Isaeva, E. V. Nikulchev

MIREA - Russian Technological University, 78 Vernadsky Avenue, Moscow 119454 e-mail: grottersha123@gmail.com, ike.gabrielyan@yandex.ru, rirri-13@yandex.ru

Abstract. The article describes the results of intellectual analysis of the results of large-scale surveys with free-form answers in natural language. Answers from the professional survey of teachers-psychologists. Algorithms for the development of survey evaluation were determined, and a library for sentimental processing of texts to identify the tonalities of the interviewee was selected, and charts with the tonality for each of the selected questions were drawn up.

Keywords: professional survey, cosine distance, sentiment analysis.

References

[1] Nikulchev E., Ilin D., Kolyasnikov P., Belov V., Zakharov I., Malykh S. (2018) International Journal of Advanced Computer Science and Applications, 9(8):34-45.

[2] Zakharov I., Nikulchev E., Ilin D., et al. (2017) ITM Web of Conferences, 10:04006.

[3] Britikov A. A. (2013;. SPIIRASProceedings, 27:107-114.

[4] Chowdhury S. M. H., Ghosh P., Abujar S. et al. (2019) Sentiment Analysis of Tweet Data: The Study of Sentimental State of Human from Tweet Text. In Emerging Technologies in Data Mining and Information Security (Springer), pp. 3-14.

[5] Luo C., Zhan J., Xue X. et al. (2018) Cosine normalization: Using cosine similarity instead of dot product in neural networks. In International Conference on Artificial Neural Networks (Springer), pp. 382391.

[6] Sidorov G., Gelbukh A., Gómez-Adorno H., Pinto D. (2014) Computación y Sistemas, 18(3):491-504.

[7] Guo J., Mu Y., Xiong M. et al. (2019) Complexity, 2019:5245373.

[8] Kim D., Seo D., Cho S., & Kang P. (2019) Information Sciences, 477:15-29.

i Надоели баннеры? Вы всегда можете отключить рекламу.