Научная статья на тему 'НЕГАТИВНЫЕ / ПОЗИТИВНЫЕ СЛОВА: ОЦЕНКА, СЛОВАРЬ'

НЕГАТИВНЫЕ / ПОЗИТИВНЫЕ СЛОВА: ОЦЕНКА, СЛОВАРЬ Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
803
57
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ПОЗИТИВНЫЕ СЛОВА / НЕГАТИВНЫЕ СЛОВА / ОЦЕНКА / МЕТРИКИ / ОНЛАЙН ОПРОС / ЧАСТОТНЫЕ СЛОВА РУССКОГО ЯЗЫКА

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Андреева М.И.

В статье описывается алгоритм оценки 1000 частотных слов русского языка разных частей речи, в частности, существительных, прилагательных и глаголов, как негативных или позитивных. Алгоритм был реализован в онлайн сервисе Яндекс Толока. Оценка была получена с использованием биполярной шкалы от 1 до 9, где 1 означало - негативное слово, а 9 - позитивное. Исследование, проведенное с 1000 респондентами, позволило выявить превалирование нейтральных (478) и положительных (436) слов в 1000 самых частотных слов русского языка. Полученные оценки полярности слов легли в основу создания электронного словаря негативных / позитивных слов.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

NEGATIVE / POSITIVE WORDS: RATINGS, DICTIONARY

The article describes an algorithm of rating Top 1000 frequent Russian words of different parts of speech, namely, Nouns, Adjectives and Verbs, as negative or positive. The algorithm was implemented via the Yandex Toloka online tool. The ratings were implemented using a bipolar scale ranging from 1 to 9, where 1 meant a negative word, and 9 meant a positive one. The ratings received from 1000 respondents showed the prevalence of neutral (478) and positive (436) words among Top 1000 frequent Russian words. The obtained polarity ratings were used to compile an electronic dictionary of negative / positive words.

Текст научной работы на тему «НЕГАТИВНЫЕ / ПОЗИТИВНЫЕ СЛОВА: ОЦЕНКА, СЛОВАРЬ»

НЕГАТИВНЫЕ / ПОЗИТИВНЫЕ СЛОВА: ОЦЕНКА, СЛОВАРЬ

М.И. Андреева, канд. филол. наук, доцент1, младший научный сотрудник2 казанский государственный медицинский университет 2Казанский (Приволжский) федеральный университет (Россия, г. Казань)

DOI:10.24412/2500-1000-2021-12-1-14-16

Работа выполнена в рамках гранта РФФИ 19-07-00807 А Технологии создания семантических электронных словарей.

Аннотация. В статье описывается алгоритм оценки 1000 частотных слов русского языка разных частей речи, в частности, существительных, прилагательных и глаголов, как негативных или позитивных. Алгоритм был реализован в онлайн сервисе Яндекс Толока. Оценка была получена с использованием биполярной шкалы от 1 до 9, где 1 означало -негативное слово, а 9 - позитивное. Исследование, проведенное с 1000 респондентами, позволило выявить превалирование нейтральных (478) и положительных (436) слов в 1000 самых частотных слов русского языка. Полученные оценки полярности слов легли в основу создания электронного словаря негативных / позитивных слов.

Ключевые слова: позитивные слова, негативные слова, оценка, метрики, онлайн опрос, частотные слова русского языка.

Исследования негативных или позитивных слов проводятся в русле контекстоло-гии [1], семантики [2], когнитивных исследований [3] и сентимент анализе [4]. Однако исследование по оценке рейтингов негативности / позитивности русских частотных слов представляется исследовательской нишей.

В статье представлен опрос, направленный на выявление полярности рейтингов слов и определение методов составления электронного словаря негативных / позитивных слов. Опрос был проведен в апреле-мае 2021 года группой исследователей НИЛ «Текстовая аналитика» Казанского федерального университета с целью оценить полярность русских слов разных частей речи.

Исследование было организовано в нескольких этапов. На первом этапе были отобраны 1000 наиболее частотных слов русского языка, а именно существительные (п=333), прилагательные (п=333) и

глаголы (п=335) из Частотного словаря О. Ляшевской и С. Шарова [5].

Затем слова были сгруппированы в 20 отдельных списков по 50 слов в каждом. Каждый список включал слова трех изучаемых частей речи в равной пропорции. Например, «мама», «старый», «говорить».

На 2 этапе был проведён психолингвистический эксперимент, направленный на оценку полярности и составление словаря негативных / позитивных слов.

Далее 20 отдельных списков слов были загружены на онлайн-платформу Яндекс Толока [6].

Для целей данного исследования была использована биполярная шкала с диапазоном от 1 до 9 для оценки негативности/позитивности слов. 1 -я позиция (слева) соответствует «наивысшей степени негативности», а 9-я позиция (справа) соответствует «наивысшей степени позитивности» (рис. 1).

Оцените насколько позитивным или негативным является слово, выбрав наиболее подходящее значение го шкапе от 1 до 9, где 1 - негативное, а 9 - позитивное

база

2 3 4 5 6 7 S

Оцените насколько позитивным или негативным является слово, выбрав наиболее подходящее значение по шкапе от 1 до 9, где 1 - негативное, а 9 - позитивное знание

1 2 3 4 5 6 7 8 9

Оцените насколько позитивным или негативным является слово, выбрав наиболее подходящее значение по шкапе от 1 до 9, где 1 - негативное, а 9 - позитивное текст

12 3 4

1 5 ШО 6

7 8 9

Оцените насколько позитивным или негативным является слово, выбрав наиболее подходящее значение по шкапе от 1 до 9, где 1 - негативное, а 9 - позитивное защита

1 2 3 4 5 6 7 8 9

Рис. 1. Фрагмент анкеты по оценке негативности / позитивности

Онлайн исследование включало ряд фильтров. В частности, «время выполнения» не превышало 10 минут. Более того, фильтр «без двойных ответов» гарантировал, что каждый участник сможет выполнить и отправить анкету только один раз. Далее, инструкция предупреждала респондентов о том, что их ответы будут проверены перед принятием. В результате примерно 10-15 % из 65 ответов были отклонены из-за одинаковой оценки для всех 50 слов в анкете (т. е. подавляющее большинство слов были оценены «9» или «1»). На каждую анкету было получено по 50 отве-

тов. Каждому участнику было выплачено 20 центов за одну заполненную анкету.

Критерии выборки участников включали: (1) возраст - не моложе 30 лет, (2) носитель русского языка, (3) Высшее образование, (4) 10 % лучших исполнителей (только 10 % исполнителей Толока с точки зрения соотношения скорости/качества).

Рейтинги, полученные для списка 1000 наиболее частотных слов русского языка, были дополнительно сгруппированы на основе отрицательных (рейтинги от 1 до 4), нейтральных (рейтинги от 5 до 6) и положительных (рейтинги от 7 до 9) (рис. 2).

Рис. 2. Количественное распределение частотных слов русского языка с оценками негативности / позитивности

На рисунке 2 показана относительная частотность нейтральных слов (п=478) по сравнению с положительными (п=436) и отрицательными (п=86) наиболее частотными словами русского языка.

Библиографический список

1. Vinkers C.H., Tijdink J.K., Otte W.M. Use of positive and negative words in scientific PubMed abstracts between 1974 and 2014: retrospective analysis // Bmj. - 2015. - Т. 351.

2. Garcia D., Garas A., Schweitzer F. Positive words carry less information than negative words // EPJ Data Science. - 2012. - Т. 1. - № 1. - С. 1-12.

3. Yang J. et al. Positive words or negative words: Whose valence strength are we more sensitive to? // Brain research. - 2013. - Т. 1533. - С. 91-104.

4. Jiao J., Zhou Y. Sentiment polarity analysis based multi-dictionary //Physics Procedia. -2011. - Т. 22. - С. 590-596.

5. Ляшевская О.Н., Шаров С.А. Частотный словарь современного русского языка: на материалах Национального корпуса русского языка. - Азбуковник, 2009.

6. Yandex Toloka. - [Электронный ресурс]. - Режим доступа: https://toloka.yandex.ru/ (дата обращения 5.12.2021)

NEGATIVE / POSITIVE WORDS: RATINGS, DICTIONARY

M.I. Andreeva, Candidate of Philology Sciences, Associate Professor1, Assistant Researcher2 1Kazan State Medical University 2Kazan Federal University (Russia, Kazan)

Abstract. The article describes an algorithm of rating Top 1000 frequent Russian words of different parts of speech, namely, Nouns, Adjectives and Verbs, as negative or positive. The algorithm was implemented via the Yandex Toloka online tool. The ratings were implemented using a bipolar scale ranging from 1 to 9, where 1 meant a negative word, and 9 meant a positive one. The ratings received from 1000 respondents showed the prevalence of neutral (478) and positive (436) words among Top 1000 frequent Russian words. The obtained polarity ratings were used to compile an electronic dictionary of negative /positive words.

Keywords: positive words, negative words, ratings, metrics, online survey, frequent Russian words.

i Надоели баннеры? Вы всегда можете отключить рекламу.