Научная статья на тему 'ИСПОЛЬЗОВАНИЕ СОВРЕМЕННЫХ КОМПЬЮТЕРНЫХ ТЕХНОЛОГИЙ ДЛЯ ОПРЕДЕЛЕНИЯ ВЕРБАЛЬНОЙ РЕПРЕЗЕНТАЦИИ КИБЕРБУЛЛИНГА У ПОДРОСТКОВ'

ИСПОЛЬЗОВАНИЕ СОВРЕМЕННЫХ КОМПЬЮТЕРНЫХ ТЕХНОЛОГИЙ ДЛЯ ОПРЕДЕЛЕНИЯ ВЕРБАЛЬНОЙ РЕПРЕЗЕНТАЦИИ КИБЕРБУЛЛИНГА У ПОДРОСТКОВ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
137
33
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ПОДРОСТКИ / КИБЕРБУЛЛИНГ / СОЦИАЛЬНЫЕ СЕТИ / РЕЧЕВАЯ АГРЕССИЯ / ТРОЛЛИНГ / ФЛЕЙМИНГ / МАШИННОЕ ОБУЧЕНИЕ / ОБРАБОТКА ЕСТЕСТВЕННОГО ЯЗЫКА / АНАЛИЗ ТЕКСТА

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Кисова Вероника Вячеславовна, Семенова Елизавета Алексеевна

В статье обсуждается проблема использования современных компьютерных технологий для выявления вербальной репрезентации кибербуллинга у подростков. Анализируются психологические исследования, посвященные специфике кибербуллинга в подростковом возрасте. Перечисляются основные причины возникновения данного явления в подростковой популяции. Рассматриваются научные работы по специфике проявлений речевой агрессии в виртуальном пространстве. Описываются виды агрессивных вербальных репрезентаций, наиболее часто используемых в современном интернет-сообществе. Рассматриваются некоторые жанры современного интернет-дискурса (троллинг, флейминг). Описывается специфика некоторых речевых и языковых средств, которые используются агрессорами для кибербуллинга. Подчеркивается актуальность разработки автоматизированных систем распознавания кибербуллинга на основе искусственного интеллекта и машинного обучения. Отмечаются возможности анализа текста в рамках NLP-подхода в выявлении травли в киберпространстве. Приводятся методы машинного обучения. Отмечаются особенности построения базы данных (датасета) для обучения нейросети в целях выявления кибербуллинга. Приводятся примеры вербальных маркеров наличия электронной травли в социальных сетях, которые могут учитываться при разработке базы данных. Описывается этап предварительной обработки данных и методы препроцессинга. Отмечается нерепрезентативность моделей машинного обучения, базирующихся только на опыте работы с текстами на английском языке в глобальном масштабе. Подчеркивается необходимость периодического обновления баз данных, формируемых в целях выявления кибербуллинга, новыми текстами, содержащими актуальную лексику в связи с увеличением количества неологизмов русского языка.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Кисова Вероника Вячеславовна, Семенова Елизавета Алексеевна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

THE USE OF MODERN COMPUTER TECHNOLOGIES TO DETERMINE THE VERBAL REPRESENTATION OF CYBERBULLYING IN ADOLESCENTS

The article discusses the problem of using modern computer technologies to identify the verbal representation of cyberbullying in adolescents. Psychological studies on the specifics of cyberbullying in adolescence are analyzed. The main causes of this phenomenon in the adolescent population are listed. Scientific papers on the specifics of the manifestations of verbal aggression in the virtual space are considered. The types of aggressive verbal representations most frequently used in the modern Internet community are described. Some genres of modern Internet discourse (trolling, flaming) are considered. The specifics of some speech and language means that are used by aggressors for cyberbullying are described. The relevance of developing automated cyberbullying recognition systems based on artificial intelligence and machine learning is emphasized. The possibilities of text analysis within the framework of the NLP approach in identifying bullying in cyberspace are noted. Methods of machine learning are given. The features of building a dataset for training a neural network in order to detect cyberbullying are noted. Examples of verbal markers of the presence of electronic bullying in social networks are given, which can be taken into account when developing a database. The data preprocessing stage and preprocessing methods are described. The non-representativeness of machine learning models based only on the experience of working with texts in English on a global scale is noted. It emphasizes the need to periodically update the databases formed in order to detect cyberbullying with new texts containing relevant vocabulary due to the increase in the number of neologisms in the Russian language.

Текст научной работы на тему «ИСПОЛЬЗОВАНИЕ СОВРЕМЕННЫХ КОМПЬЮТЕРНЫХ ТЕХНОЛОГИЙ ДЛЯ ОПРЕДЕЛЕНИЯ ВЕРБАЛЬНОЙ РЕПРЕЗЕНТАЦИИ КИБЕРБУЛЛИНГА У ПОДРОСТКОВ»

Психология

УДК 159.923

кандидат психологических наук, доцент Кисова Вероника Вячеславовна

Федеральное государственное бюджетное образовательное учреждение высшего образования «Нижегородский государственный педагогический университет имени Козьмы Минина» (г. Нижний Новгород); студент Семенова Елизавета Алексеевна

ФГБОУ ВО «Московский государственный университет имени М.В. Ломоносова» (г. Москва)

ИСПОЛЬЗОВАНИЕ СОВРЕМЕННЫХ КОМПЬЮТЕРНЫХ ТЕХНОЛОГИЙ ДЛЯ ОПРЕДЕЛЕНИЯ ВЕРБАЛЬНОЙ

РЕПРЕЗЕНТАЦИИ КИБЕРБУЛЛИНГА У ПОДРОСТКОВ

Аннотация. В статье обсуждается проблема использования современных компьютерных технологий для выявления вербальной репрезентации кибербуллинга у подростков. Анализируются психологические исследования, посвященные специфике кибербуллинга в подростковом возрасте. Перечисляются основные причины возникновения данного явления в подростковой популяции. Рассматриваются научные работы по специфике проявлений речевой агрессии в виртуальном пространстве. Описываются виды агрессивных вербальных репрезентаций, наиболее часто используемых в современном интернет-сообществе. Рассматриваются некоторые жанры современного интернет-дискурса (троллинг, флейминг). Описывается специфика некоторых речевых и языковых средств, которые используются агрессорами для кибербуллинга. Подчеркивается актуальность разработки автоматизированных систем распознавания кибербуллинга на основе искусственного интеллекта и машинного обучения. Отмечаются возможности анализа текста в рамках NLP-подхода в выявлении травли в киберпространстве. Приводятся методы машинного обучения. Отмечаются особенности построения базы данных (датасета) для обучения нейросети в целях выявления кибербуллинга. Приводятся примеры вербальных маркеров наличия электронной травли в социальных сетях, которые могут учитываться при разработке базы данных. Описывается этап предварительной обработки данных и методы препроцессинга. Отмечается нерепрезентативность моделей машинного обучения, базирующихся только на опыте работы с текстами на английском языке в глобальном масштабе. Подчеркивается необходимость периодического обновления баз данных, формируемых в целях выявления кибербуллинга, новыми текстами, содержащими актуальную лексику в связи с увеличением количества неологизмов русского языка.

Ключевые слова: подростки, кибербуллинг, социальные сети, речевая агрессия, троллинг, флейминг, машинное обучение, обработка естественного языка, анализ текста.

Annotation. The article discusses the problem of using modern computer technologies to identify the verbal representation of cyberbullying in adolescents. Psychological studies on the specifics of cyberbullying in adolescence are analyzed. The main causes of this phenomenon in the adolescent population are listed. Scientific papers on the specifics of the manifestations of verbal aggression in the virtual space are considered. The types of aggressive verbal representations most frequently used in the modern Internet community are described. Some genres of modern Internet discourse (trolling, flaming) are considered. The specifics of some speech and language means that are used by aggressors for cyberbullying are described. The relevance of developing automated cyberbullying recognition systems based on artificial intelligence and machine learning is emphasized. The possibilities of text analysis within the framework of the NLP approach in identifying bullying in cyberspace are noted. Methods of machine learning are given. The features of building a dataset for training a neural network in order to detect cyberbullying are noted. Examples of verbal markers of the presence of electronic bullying in social networks are given, which can be taken into account when developing a database. The data preprocessing stage and preprocessing methods are described. The non-representativeness of machine learning models based only on the experience of working with texts in English on a global scale is noted. It emphasizes the need to periodically update the databases formed in order to detect cyberbullying with new texts containing relevant vocabulary due to the increase in the number of neologisms in the Russian language.

Key words: teenagers, cyberbullying, social networks, verbal aggression, trolling, flaming, machine learning, natural language processing, text analysis.

Введение. Исследования А.В. Кондрашкина и К.Д. Хломова [12] позволяют говорить о том, что социальная ситуация развития подростка в современном обществе претерпевает существенные изменения. Как указывают авторы, взаимодействие подростков со сверстниками в реальной компании, требующее длительного и глубокого контакта все чаще заменяется их поверхностным и непродолжительным общением через Интернет. Несформированность у многих подростков навыков живого общения, достаточного уровня эмпатии, ответственности за свои действия часто являются причинами такого вида девиантного поведения как кибербуллинг. Кибербуллинг определяется Г.У. Солдатовой [15] как агрессивные, преднамеренные действия, совершаемые в виртуальном пространстве, повторяющиеся регулярно и в течении продолжительного времени, в отношении беззащитной жертвы.

По мнению А.А. Бочавер [3], кибертравля является одной из наиболее актуальных социальных проблем в подростковом возрасте. Большинство исследователей (А.А. Вихман, Е.Н. Волкова [4, 5], А.А. Реан [13] и др.) считают, что подростковый возраст является самым уязвимым для кибербуллинга. Как правило, подростки, не имея достаточного пользовательского опыта, не понимают всех рисков, связанных с использованием электронной почты, онлайн-игр, форумов, чатов, веб-страниц и т.п. А.А. Бочавер и К.Д. Хломов [3] выявили, что основными инструментами кибертравли в подростковой среде можно назвать бесконтрольное распространение любой нежелательной для жертвы информации, вовлечение в процесс травли большого количества свидетелей, провокация обратной аффективной реакции объекта кибербуллинга. Таким образом агрессор добивается эмоциональной дестабилизации и социальной изоляции жертвы.

Изложение основного материала статьи. Одной из наиболее распространенных форм проявления кибербуллинга является речевая агрессия. По мнению Ю.В. Щербининой [16], под речевой агрессией понимается вербализация негативных эмоций и намерений в оскорбительной, грубой, провокативной форме. Т.А. Воронцова [7, 8] подчеркивает, что речевая агрессия в процессе виртуального общения всегда имеет преднамеренный характер, так как подобный тип коммуникации чаще всего осуществляется асинхронно и у коммуниканта есть время на обдумывание своего высказывания. А.В. Денисова [9] указывает, что преднамеренная речевая агрессия характеризуется сознательной ориентацией коммуниканта на вербальные угрозы, обвинения, уничижительные заявления, оскорбления.

Как пишут А.А. Сапожникова и А.В. Ленец [14], в кибертравле используются эксплетивный, манипулятивный и имплицитный виды речевой агрессии. Эксплетивная речевая агрессия выражается, в основном, бранными лексикой и угрожающими высказываниями, манипулятивная - инвективными ярлыками и средствами диффамации, имплицитная -косвенными речевыми актами, непрямыми предикациями, ироническими инвективами. В исследованиях Т.А. Воронцовой [7, 8] установлено, что коммуникативная сущность речевой агрессии как типа речевого поведения характеризуется

использованием определенных коммуникативных стратегий. Это позволяет говорить о специфике речевых и языковых средств, которые используются агрессорами для кибербуллинга.

Н.А. Белоус [1, 2] считает, что конфликтная речевая ситуация в виртуальном пространстве предполагает определенную последовательность речевых действий, предполагающих использование, так называемых языковых маркеров. Наиболее распространенным видом таких маркеров является табуированная лексика. Как пишет Т.А. Воронцова [7, 8], виртуальное пространство характеризуется особыми формами агрессивной коммуникации, где троллинг и флейминг являются самыми популярными. По сути, они представляют собой самостоятельные жанры современного интернет-дискурса. Однако, значение троллинга и флейминга различается. Троллинг, как правило, представляет собой индивидуальное речевое высказывание, а флейминг выражен в диалогической или полилогической форме.

Результаты исследований Н.А. Белоус [1, 2], Т.А. Воронцовой [7, 8], О.И. Воробьевой [6], А.В. Денисовой [9] и многих других авторов позволяют говорить о том, что в современная лингвистика обладает достаточным уровнем знаний для того, чтобы использовать их для выявления и предотвращения агрессивного поведения в виртуальном пространстве.

Несмотря на то, что проблема языка ненависти и киберзапугивания изучается в социальных науках и психологии более пятнадцати лет (см.,например, [17], [19]), первая попытка использовать информационные технологии для решения этой проблемы была предпринята Ptaszynski и соавторами в 2010 году [18].

В последние годы исследования по обнаружению ненормативной лексики приобрели большую популярность и в основном сосредоточены на использовании нейронных сетей и машинного обучения. Направлением, объединяющим искусственный интеллект и математическую лингвистику, является NLP (Natural Language Processing - обработка естественного языка). К основным задачам NLP относится: анализ текста, распознавание речи, автоматический пересказ, машинный перевод, управление диалогом (вопросно-ответные и диалоговые системы).

Анализ текста - это интеллектуальная обработка больших объемов информации, целью которой является выявление закономерностей и сходств. Он включает в себя извлечение данных, поиск, анализ высказываний, их классификацию, отражение содержания, оценку тональности. Процесс эффективной реализации автоматического обнаружения кибербуллинга для сайтов и социальных сетей является актуальной научной прикладной задачей, одно из эффективных направлений решения которой связано анализа текста в рамках NLP.

В автоматизированных системах, основанных искусственном интеллекте и машинном обучении, информационной базой являются отобранные тексты проблемной области, например, для задачи определения кибербуллинга такими данными будут послания в социальных сетях.

В состав методов машинного обучения входят методы обучения с учителем (supervised), методы обучения без учителя (unsupervised), методы частичного обучения с учителем (bootstrapping), при этом для задач классификации текстов, например, на наличие признаков кибербуллинга, чаще других применяется обучение с учителем. В рамках такого подхода осуществляется построение математической и программной модели (машинного классификатора) на специально размеченном текстовом корпусе (обучающей выборке; датасете), в котором распознаваемым единицам (или самим текстам) приписаны метки, кодирующие существенные признаки анализируемых текстов, например, наличие признаков электронной травли. Так в работах [10, 11] приводятся восемь категорий вербальных маркеров, указывающих на возможное наличие кибербуллинга в сообщениях пользователей сети:

1) табуированная и обесцененная лексика;

2) слова, связанные с интимной жизнью;

3) лексические единицы, связанные с сексуальной ориентацией и сексизмом;

4) лексические единицы, выражающие пожелание зла и смерти;

5) слова, обозначающие унижение или оскорбление;

6) слова, указывающие на национальную принадлежность или связанные с расизмом;

7) слова, называющие животных;

8) слова, связанные с ограниченными физическими и умственными возможностями людей.

Кроме того, в интернет-пространстве часто используются формы выражения мыслей отличные от традиционных лексических норм. Например, в текстах-сообщениях пользователей нередко встречаются аббревиатуры, различные сокращения, намеренные орфографические ошибки, опечатки и т.д. Поэтому автоматический анализ «сырых» необработанных текстов практически невозможен без предварительной обработки, предусматривающей его нормализацию.

Для обучения модели машинного обучения нужен большой датасет с исходными текстами. Чем больше сообщений система предварительно обработает, тем точнее будут результаты ее работы. Предварительная обработка данных является одним из основных этапов, задачей которого является преобразование исходных текстовых данных в числовые, как того требуют алгоритмы машинного обучения. Данное преобразование происходит в несколько этапов. На первом осуществляется очистка данных (Data Cleaning): из текста удаляются бесполезные данные. Это может быть большинство знаков препинания, специальные символы, скобки, теги и т.д. Некоторые символы могут иметь смысл только в определенных случаях, например, в тексте об экономике значимыми являются знаки валют. Следующий этап -препроцессинг (Preprocessing of Data), который может включать следующие методы:

- изменение регистра (написание всех слов с маленькой буквы, то есть приведение символов к единому регистру);

- удаление стоп-слов (часто используемых лексических единиц, не добавляющих информации в текст);

- токенизация (разбиение текста на отдельные компоненты - токены (слова, предложения или фразы));

- стеммизaция (приведeние слова к его юрню/основе);

- леммaтизация (приведение слoв к изнaчальным словoформам, чaсто с учетом контекста);

- спелл-чекинг (коррекция слов, которые написаны неправильно);

- тегирование (определение) частей речи с целью учета грамматических правил.

Выбор конкретных методов препроцессинга осуществляется согласно задаче.

Одним из наиболее эффективных методов препроцессинга считается токенизация, которая использует в качестве компонентов слова. Использование лемм считается менее эффективным, чем токенов предположительно из-за потери информации. Однако в работе [20] было показано, что использование токенов было наиболее эффективно для английского языка, в то время как леммы лучше подходили для японского и особенно польского языков. Это означает, что разработка инструментов и моделей машинного обучения, базирующихся на опыте работы с текстами на английском языке, не репрезентативна в глобальном масштабе.

Следующим этапом является векторизация текстовых данных, т.е. представление их в виде набора числовых значений. Существует множество методов и технологий векторизации, среди которых следует выделить разработанную компанией Google технологию Word2Vec и алгоритм GloVe, разработанный как проект с открытым исходным кодом в Стэнфорде.

Выводы. Анализ степени изученности проявлений кибербуллинга у подростков позволяет говорить о высокой степени заинтересованности научного сообщества и практических работников в эффективном решении данной проблемы. В

контексте психологической науки и практики наработан значительный потенциал как для коррекции такой формы агрессии, так и для ее профилактики.

Одним из эффективных методов противодействия кибербуллингу является разработка автоматизированных систем выявления и блокирования сообщений, содержащих признаки электронной травли. Подготовленная база данных текстов сообщений социальных сетей, разрабатываемая с учетом современных исследований в области психологии и лингвистики, является основой для создания подобных системы на основе нейросетевых технологий.

Значительный рост количества неологизмов русского языка, связанный, в первую очередь, с развитием интернет-коммуникаций, обусловливает необходимость периодического обновления датасетов новыми текстами, содержащими актуальную лексику.

Литература:

1. Белоус, Н.А. Признаки конфликтной интеракции в кибербуллинге среди подростков / Н.А. Белоус, А. А. Ананьева // Молодой ученый. - 2020. - № 26 (316). - С. 233-239. - URL: https://moluch.ru/archive/316/72193/ (дата обращения: 27.10.2022).

2. Белоус, Н.А. Функциональные особенности конфликтного дискурса / Н.А. Белоус // Лингвистика и межкультурная коммуникация. - 2008. - №4. - С. 152-157

3. Бочавер, А.А. Кибербуллинг: травля в пространстве современных технологий / А.А. Бочавер, К.Д. Хломов // Психология. Журнал Высшей школы экономики. - 2014. - Т. 11 - № 3. - С. 177-191

4. Вихман, А.А. Традиционные и цифровые возможности профилактики кибербуллинга / А.А. Вихман, Е.Н. Волкова, Л.В. Скитневская // Вестник Мининского университета. - 2021. - Т. 9. - № 4. - URL: https://vestnik.mininuniver.ru/jour/artide/view/1293 (дата обращения: 27.10.2022).

5. Волкова, Е.Н. Кибербуллинг как способ социального реагирования подростков на ситуацию буллинга / Е.Н. Волкова, И.В. Волкова // Вестник Минского университета. - 2017. - №3(20). - URL: https://vestnik.mininuniver.ru/jour/article/view/643 (дата обращения: 27.10.2022).

6. Воробьева, О.И. Праксиологические исследования вербальной агрессии в медиадискурсе / О.И. Воробьева // Медиалингвистика. Вып. 8. Язык в координатах массмедиа: мат-лы V Междунар. научн. конференции (Санкт-Петербург, 30 июня - 2 июля 2021 г.) / науч. ред. Л.Р. Дускаева, отв. ред. А.А. Малышев. - СПб.: Медиапапир, 2021.- C. 255-258

7. Воронцова, Т.А. Речевая агрессия: коммуникативно-дискурсивный подход. Автореферат дис. ... д-ра психол. наук: 10.02.19 / Воронцова Татьяна Александровна. - Челябинск, 2006. - 43 с.

8. Воронцова, Т.А. Троллинг и флейминг: речевая агрессия в Интернет-коммуникации / Т.А. Воронцова // Вестник Удмуртского университета. Сер. История и филология. - 2016. - Т. 26. - Вып. 2 - С. 109-116

9. Денисова, А.В. Лексико-семантические способы выражения речевой агрессии в английском и русском языках / А.В. Денисова // Вестник Воронежского государственного университета. Серия: Лингвистика и межкультурная коммуникация. - 2021. - № 1. - С. 48-56

10. Илюкович, Т.С. Распознавание кибербуллинга в англоязычных твитах методом машинного обучения / Т.С. Илюкович // Наука сегодня: задачи и пути их решения: Материалы международной научно-практической конференции, Вологда, 27 мая 2020 года. - Вологда: Общество с ограниченной ответственностью "Маркер", 2020. - С. 94-97.

11. Илюкович, Т.С. Принципы организации системы автоматического определения средств выражения кибербуллинга в англоязычных твитах (инженерный подход) / Т.С. Илюкович // Фундаментальные и прикладные аспекты развития современной науки: Сборник трудов по материалам Международного конкурса научно-исследовательских работ, Уфа, 20 мая 2020 года. - Уфа: Общество с ограниченной ответственностью "Научно-издательский центр "Вестник науки", 2020. -С. 93-103

12. Кондрашкин, А.В. Девиантное поведение подростков и Интернет: изменение социальной ситуации / А.В. Кондрашкин, К.Д. Хломов // Психология. Журнал Высшей школы экономики. - 2012. - Т. 9. - № 3. - С. 102-113

13. Реан, А.А. Позитивные психологические интервенции как профилактика школьного неблагополучия, агрессии и буллинга / А.А. Реан, А.А. Ставцев // Вопросы образования. - 2020. - № 3. - С. 37-59

14. Сапожникова, А.А. Кибербуллинг как форма провокативного речевого поведения в сети интернет / А.А. Сапожникова, А.В. Ленец // Мир лингвистики и коммуникации: электронный научный журнал. 2018.- № 51. - С. 39-50

15. Солдатова, Г.У. Кибербуллинг: особенности, ролевая структура, детско-родительские отношения и стратегии совладания / Г.У. Солдатова, А.Н. Ярмина // Национальный психологический журнал. - 2019. - Т. 3. - № 3(35). - С. 17-31. -DOI 10.11621/npj .2019.0303.

16. Щербинина, Ю.В. Речевая агрессия. Территория вражды / Ю.В. Щербинина. - М.: Форум, 2012. - 400 с.

17. Patchin, J.W. Bullies move beyond the schoolyard: A preliminary look at cyberbullying / J.W. Patchin, S. Hinduja // Youth Violence and Juvenile Justice. - 2006. - Vol. 4(2). - P. 148-169

18. Ptaszynski, M. In the service of online order: Tackling cyber-bullying with machine learning and affect analysis / M. Ptaszynski, P. Dybala, T. Matsuba [et al.] // International Journal of Computational Linguistics Research. - 2010. - Vol. 1(3). -P. 135-154

19. Pyzalski, J. From cyberbullying to electronic aggression: typology of the phenomenon / J. Pyzalski // Emotional and Behavioural Difficulties. - 2012. - Vol. 17(3-4). - P. 305-317

20. Eronen J., Ptaszynski M., Masui F., Smywinski-Pohl A., Leliwa G., Wroczynski M. Improving classifier training efficiency for automatic cyberbullying detection with Feature Density / J. Eronen, M. Ptaszynski, F. Masui [et al.] // Information Processing & Management. - 2021. - Vol. 58, Issue 5. -DOI: 10.1016/j.ipm.2021.102616

i Надоели баннеры? Вы всегда можете отключить рекламу.