Научная статья на тему 'О новом методе формирования и аннотирования поликодового мультимодального корпуса данных применительно к социальным сетям Интернета'

О новом методе формирования и аннотирования поликодового мультимодального корпуса данных применительно к социальным сетям Интернета Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
88
28
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КОРПУС ДАННЫХ / ПОЛИКОДОВОСТЬ / МУЛЬТИМОДАЛЬНОСТЬ / МЕТОД ГЛУБИННОГО АННОТИРОВАНИЯ / DATABASE / POLYCODENESS / MULTIMODALITY / DEEP PARAMETRIC ANNOTATION METHOD

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Потапова Р.К., Потапов В.В., Джунковский В.В.

Статья посвящена описанию и анализу опыта формирования и глубинного аннотирования поликодового корпуса данных на базе социально-сетевого дискурса на русском языке в сети Интернет. Работа относится к фундаментальному междисциплинарному исследованию корпусного массива мультимодальной и поликодовой природы в социальных сетях. Особое внимание в рамках проекта уделено трансформации психофизиологических и когнитивных характеристик личности пользователей сети Интернет (применительно к молодежному контингенту). Кроме того, в рамках исследования разработана методика формирования и аннотирования единиц соответствующего корпуса, предназначенного для решения основных задач. Предлагается новый метод глубинного аннотирования, удовлетворяющего требованиям всестороннего охвата компонентов поликодовой информации на основе семантического ветвления признаков корпуса данных.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Потапова Р.К., Потапов В.В., Джунковский В.В.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

THE EXPERIENCE OF FORMATIONAND DEEP ANNOTATION OF A POLYCODE MULTIMODAL RUSSIANINTERNET SOCIAL NETWORKS MESSAGE CORPORA

This research deals with description and analysis of the experience of forming and applying the deep parametric annotation method to a polycode data corpora based on Russian language social network discourse in the Internet. The fundamental interdisciplinary research adheres to research of multimodal polycode social network corpora. Within the research, close attention is paid to the transformation of psychophysiological and cognitive personality traits of youth Internet users. Moreover, a new method of formation and deep annotation of corpora items is created and used in order to accomplish the main goals of the research. A new deep parametric annotation method that satisfies the requirements of a comprehensive approach towards polycode information components based on semantic branching of corpora item criteria is proposed.

Текст научной работы на тему «О новом методе формирования и аннотирования поликодового мультимодального корпуса данных применительно к социальным сетям Интернета»

УДК 81'33

Р. К. Потапова, В. В. Потапов, В. В. Джунковский

Потапова Р.К., доктор филологических наук, профессор, заведующий кафедрой прикладной и экспериментальной лингвистики Института прикладной и математической лингвистики факультета английского языка Московского государственного лингвистического университета; e-mail: RKPotapova@yandex.ru

Потапов В. В., доктор филологических наук, главный научный сотрудник НИР кафедры прикладной и экспериментальной лингвистики Института прикладной и математической лингвистики факультета английского языка Московского государственного лингвистического университета, ст. научный сотрудник филологического факультета МГУ; e-mail: volikpotapov@gmail.com

Джунковский А.В., специалист по УМР, аспирант кафедры прикладной и экспериментальной лингвистики Института прикладной и математической лингвистики факультета английского языка Московского государственного лингвистического университета; e-mail: Vetinari01@gmail.com

О НОВОМ МЕТОДЕ ФОРМИРОВАНИя

и аннотирования поликодового мультимодального корпуса данных применительно к социальным сетям интернета1

Статья посвящена описанию и анализу опыта формирования и глубинного аннотирования поликодового корпуса данных на базе социально-сетевого дискурса на русском языке в сети Интернет. Работа относится к фундаментальному междисциплинарному исследованию корпусного массива мультимодальной и поликодовой природы в социальных сетях. Особое внимание в рамках проекта уделено трансформации психофизиологических и когнитивных характеристик личности пользователей сети Интернет (применительно к молодежному контингенту). Кроме того, в рамках исследования разработана методика формирования и аннотирования единиц соответствующего корпуса, предназначенного для решения основных задач. Предлагается новый метод глубинного аннотирования, удовлетворяющего требованиям всестороннего охвата компонентов поликодовой информации на основе семантического ветвления признаков корпуса данных.

Ключевые слова: корпус данных; поликодовость; мультимодальность; метод глубинного аннотирования.

1 Исследование проведено при поддержке Российского научного фонда

(РНФ). проект №18-18-00477. ' ,_

® ®

R. K. Potapova, V. V. Potapov, A. V. Dzhunkovskiy

Potapova R. K., Doctor of Science in Philology, Professor, Head of Department of Applied and Experimental Linguistics, Director of Institute for Applied and Mathematical Linguistics of Moscow State Linguistic University; e-mail: RKPotapova@yandex.ru

Potapov V. V., Doctor of Science in Philology, Senior Researcher of Department of Applied and Experimental Linguistics, Institute for Applied and Mathematical Linguistics of Moscow State Linguistic University, Senior Research Officer of the Faculty of Philology of the Lomonosov Moscow State University; e-mail: volikpotapov@gmail.com

Dzhunkovskiy A. V., Education and Methodology Specialist,

Postgraduate Student of the Department of Applied and Experimental Linguistics

of the Institute of Applied and Mathematical Linguistics

of Moscow State Linguistic University; e-mail: Vetinari01@gmail.com

THE EXPERIENCE OF FORMATION AND DEEP ANNOTATION OF A POLYCODE MULTIMODAL RUSSIAN INTERNET SOCIAL NETWORKS MESSAGE CORPORA

This research deals with description and analysis of the experience of forming and applying the deep parametric annotation method to a polycode data corpora based on Russian language social network discourse in the Internet. The fundamental interdisciplinary research adheres to research of multimodal polycode social network corpora. Within the research, close attention is paid to the transformation of psychophysiological and cognitive personality traits of youth Internet users. Moreover, a new method of formation and deep annotation of corpora items is created and used in order to accomplish the main goals of the research. A new deep parametric annotation method that satisfies the requirements of a comprehensive approach towards polycode information components based on semantic branching of corpora item criteria is proposed.

Key words: database; polycodeness; multimodality; deep parametric annotation method.

Введение

В рамках работы над проектом был предложен и разработан новый метод формирования и глубинного аннотирования поликодового социально-сетевого дискурса на русском языке в сети Интернет [Потапова, Потапов 2019].

Предложенный метод нашел отражение в объемном исследовании алгоритмов восприятия (т. е. мультимодальности) относительно корпуса данных Интернета в поликодовом варианте.

Предварительное создание соответствующей методики способствовали оптимизации исследования и сведению к минимуму возможных расхождений в мультимодальном восприятии контента, который был включен в корпус данных. Методика была разработана с учетом концепции, отраженной в последних исследованиях в области корпусной лингвистики [Потапова, Потапов 2019; Потапова 2009; Потапова 2014; Потапова 2017; Викторов, Викторова, Воронцова и др. 2017; Potapova, Bobrov 2015; Potapova, Potapov, Bazhenova 2015; Potapova, Potapov 2017].

Реализации поставленных задач способствовало также формирование специального поликодового корпуса социально-сетевого дискурса в Интернете и глубинный анализ составляющих этого корпуса.

Обсуждение материала исследования

Использование современных облачных технологий при решении задачи исследования

При формировании корпуса данных поликодового характера на русском языке в социальных сетях Интернет было принято решение об использовании облачных технологий для синхронизации и централизации усилий ее составителей. В частности, использовались ресурсы Google Drive для сохранения анализируемого материалы и ресурсы Google Docs для создания таблицы анализа и аннотирования собранных материалов.

С целью предотвращения утери базы данных, хранимой в облаке, ее файлы с периодичностью в две недели дублируются всеми участниками проекта, ответственными за ее формирование. Это позволяет достичь двух целей: обеспечить рудиментарную систему контроля версий базы данных, а также обезопасить работу участников проекта от возможных технических ошибок и потери доступа к серверам Google.

Методика формирования корпуса данных

Основная задача по формированию корпуса данных содержит три основных пункта:

- описание методики формирования единиц корпуса;

- описание процедуры предварительной обработки отобранных единиц корпуса;

- процесс обработки отобранных данных.

Критерии отбора материала включают следующие требования:

• Фрагменты социально-сетевого дискурса (ССД - по Р. К. Потаповой) должны быть на русском языке. При этом в отобранных фрагментах ССД допускается наличие иностранных слов и фраз.

• Фрагменты ССД должны быть в открытом доступе в ресурсах сети Интернет (социальные сети, такие как «ВКонтак-те», «Facebook», «Twitter», «Instagram», «Одноклассники», «Linkedln» и т. д., а также персональные блоги, микроблоги, видеоблоги, серии подкастов).

• Фрагменты ССД должны обладать свойством поликодовости (содержат одновременно текст, изображения (графики, рисунки, презентации, мемы), звуковые файлы, видеоряд) и муль-тимодальности перцептивного ряда (видео- и аудиоинтер-претации).

Поясним, что фрагменты не обязательно должны находиться в российском сегменте сети Интернет. Допускается отбор фрагментов ССД в зарубежных сегментах социальных сетей в том случае, если эти фрагменты ССД выполнены на русском языке.

Другим важным уточнением является то, что фрагменты ССД должны быть доступны в публичных группах социальных сетей, на страницах пользователей, видеохостингах, в блогах. Те же материалы, которые находятся в социальных сетях, но не опубликованы, в процессе создания мультимодальной поликодовой базы данных не использовались.

Процедура предобработки материала подразумевает сохранение всех данных, т. е. текстов, видеофайлов, изображений, аудиозаписей и сохранение в облачном хранилище Google Drive.

В ходе предобработки материала при его сохранении использовалась файловая структура облачного хранилища Google Drive, структурированная следующим образом: Общая папка ^ Интернет-ресурс ^ папка для данного образца вхождения в базу данных. При этом каждому вхождению присваивался уникальный код-идентификатор.

На этапе обработки данных проводилось глубинное аннотирование отобранного материала в облачной таблице с учетом составляющих метода, предложенного в [Потапова, Потапов, 2019]. Приведем легенду таблицы.

Метаданные

1. Фрагмент - код, присвоенный материалу в ходе этапе предобработки (фамилия + порядковый номер записи).

2. Ресурс - название социальной сети, блога или видеохостинга.

3. Автор публикации - название группы или имя автора.

4. Тип материала - от индивидуального пользователя или группы. Блоги относятся к группам.

5. Дата публикации - в формате ДД / ММ / ГГГГ.

6. Пол автора - если сообщение от группы (но не блога) -прочерк.

7. Возраст автора - если сообщение от группы (но не блога) -прочерк.

8. Местоположение автора - страна и город публикации (если доступно).

9. Количество подписчиков / друзей автора - общее число охватываемой аудитории.

10. Количество просмотров, лайков, репостов (статистика публикации) - все виды одобрения (но не комментарии) отмечаются отдельно через запятую. Допустимы сокращения.

11. Является ли русский язык родным для автора публикации? Да / нет.

12. Количество комментариев - если есть.

Параметры оценки

13. Виды поликодовости

• Текст + изображение

• Мем

• Текст / изображение + аудио

• Видео

14. Поликодовые сигналы (для аудио или видео)

• Мимика (глаза, брови, губы)

• Жестика (активная, средняя, пассивная, отсутствие)

• Проксемика (близкая, средняя, отдаленная)

• Посторонние шумы

15. Длительность проигрывания (для аудио или видео)

16. Гендерный состав (мужчины, женщины, дети) - кто присутствует на фото / видео?

17. Вид коммуникации

• Монолог

• Диалог

• Трилог

• Полилог

18. Число коммуникантов

19. Возраст коммуникантов

20. Ситуация общения

• Митинг

• Дискуссия

• Собрание

• Торжество

• Межличностный конфликт

• и т. д.

21. Эмоционально-модальное состояние коммуникантов

• Возбужденность, приподнятость настроения

• Равнодушие

• Агрессия

• Возможные психологические отклонения

22. Дефекты речи (заикание, картавость, неразборчивость речи)

23. Социальный статус коммуникантов: в каких отношениях находятся коммуниканты?

• С учетом социального положения (вышестоящий - нижестоящий, одна социальная группа)

• По гендеру (однородные - разнородные)

• По этносу (однородные - разнородные)

• По экономическому статусу (равные - неравные)

24. Преобладание одного из видов поликодовой коммуникации

(вербалика, паравербалика, невербалика, экстравербалика (по Р. К. Потаповой)

25. Тема фрагмента

• Политика

• Технологии

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

• Личная жизнь

• Красота

• Деловая сфера

• Развлекательная сфера

• Экономика

• Конфессиональная ситуация

• Образование

• Военно-стратегическое направление

• Дипломатическая сфера

• Здоровье

• Экология

• и т. д.

26. Адресованность фрагмента (адресный / неадресный)

27. Качество речи (подготовленная / неподготовленная / квази-подготовленая)

28. Наличие иностранных включений - да / нет, с какого языка.

29. Интертекстуальность - наличие ссылок, цитат (но не гиперссылок).

30. Тональность / эмоциональность - есть ли эмоциональная составляющая, положительная она или отрицательная, сильная или слабая

31. Темпоральность - сообщение относится к прошлому, настоящему или будущему?

32. Психофизиологическое состояние

• Утомление

• Бодрость

• Сонливость

• Возбуждение

• Покой

• Стресс

• Напряженность

• и т. д.

Дополнительно

Ссылка на папку в облачном хранилище Google Drive - ссылка на папку, содержащую все материалы, полученные на фазе предварительной подготовки.

Составитель аннотации БД - фамилия человека, внесшего запись в базу данных.

Опыт коррекции данных сформированного корпуса

После подбора материала для формирования корпуса каждые две недели проводится повторный анализ вхождений за названный период. При этом из базы данных удаляются вхождения, не соответствующие критериям качества или целям настоящего исследования. Такой подход позволяет добиться максимально высокого качества результирующей выборки. На настоящий момент база данных содержит более тысячи мультимодальных поликодовых аннотированных вхождений.

Заключение

Проводимая работа по формированию корпуса поликодовых фрагментов ССД выполняется в соответствии с глубинным методом аннотирования Р. К. Потаповой, В. В. Потапова, включающим принцип построения системы ветвления по аналогии с разновидностями лексико-семантической сети (см. рис. 1).

Рис. 1. Метаданные и дополнительные данные метода глубинного аннотирования

Продолжение рис. 1

Продолжение рис. 1

список литературы

Викторов А. Б. [и др.]. Речевые базы данных для задач автоматического распознавания речи и верификации говорящего / А. Б. Викторов, К. О. Викторова, А. В. Воронцова // Современные речевые технологии : сб. тр. IX Сессии Российского акустического общества. М. : Геос, 1999. С. 87-111.

Потапова Р. К. Депривация как базовый механизм вербального и паравер-бального поведения человека (на материале социально-сетевой коммуникации) // Речевая коммуникация в информационном пространстве / отв. ред. Р. К. Потапова. М. : Леланд, 2017. С. 17-36.

Потапова Р. К. Основные тенденции развития многоязычной корпусной лингвистики (часть вторая) // Речевые технологии. 2009. № 3. С. 93-112.

Потапова Р. К. Социально-сетевой дискурс как объект междисциплинарного исследования // Дискурс как социальная деятельность: приоритеты и перспективы : материалы Второй междунар. науч. конф. «Дискурс

как социально-сетевая деятельность», Москва 16-17 октября 2014. М. : МГЛУ, Т. 1. С. 20-22.

Потапова Р. К., Потапов В. В. О глубинно-параметрическом методе аннотирования для базы данных русскоязычного поликодового социально-сетевого дискурса : материалы VI Междунар. конгр. исследователей русского языка «Русский язык: исторические судьбы и современность». М. : Изд-во Моск. ун-та, 2019. 224 с.

Potapova R., Bobrov N. Versatile linguistic database annotation: practical issues and a new flexible approach // N. Fakotakis, A. Ronzhin, R. Potapova (eds.). Proc. of the 17th Intern. conference "Speech and Computer 2015" (Athens, Greece September 20-24 2015). University of Patras. Vol. II. P. 41-53.

Potapova R., Potapov V. Human as acmeologic entity in social network discourse (multidimensional approach) // A. Karpov, R. Potapova, I. Mporas (eds.). SPE-COM 2017. LNAI. Cham : Springer, 2017. Vol. 10458. P. 407-416.

Potapova R., Potapov V. Polybasic attribution of social network discourse // A. Ronzhin, R. Potapova, G. Nemeth (eds.). SPECOM 2016. LNCS. Heidelberg : Springer, 2016. Vol. 9811. P. 539-546.

Potapova R., Potapov V., Bazhenova I. Development of the research cloud technology stand-alone system (regarding integrated speech databeses) // N. Fa-kotakis, A. Ronzhin, R. Potapova (eds.) Proc. of the 17th Intern. conference "Speech and Computer 2015" (Athens, Greece September 20-24 2015). University of Patras. Vol. II. P. 1-7.

references

Viktorov A. B. [i dr.]. Rechevye bazy dannyh dlja zadach avtomaticheskogo raspoznavanija rechi i verifikacii govorjashhego / A. B. Viktorov, K. O. Vik-torova, A. V. Voroncova // Sovremennye rechevye tehnologii: cb. tr. IX sessii Rossijskogo akusticheskogo obshhestva. M. : Geos, 1999. S. 87-111.

PotapovaR. K. Deprivacija kak bazovyj mehanizm verbal'nogo i paraverbal'nogo povedenija cheloveka (na materiale social'no-setevoj kommunikacii) // Rechevaja kommunikacija v informacionnom prostranstve / otv. red. R. K. Potapova. M. : Leland, 2017. S. 17-36.

Potapova R. K. Osnovnye tendencii razvitija mnogojazychnoj korpusnoj lingvistiki (chast' vtoraja) // Rechevye tehnologii. 2009. № 3. S. 93-112.

Potapova R. K. Social'no-setevoj diskurs kak ob#ekt mezhdisciplinarnogo issledovanija // Diskurs kak social'naja dejatel'nost': prioritety i perspektivy: materialy Vtoroj mezhdunar. nauch. konf. «Diskurs kak social'no-setevaja dejatel'nost'», Moskva 16-17 oktjabrja 2014. M. : MGLU, T. 1. S. 20-22.

Potapova R. K., Potapov V. V. O glubinno-parametricheskom metode annotiro-vanija dlja bazy dannyh russkojazychnogo polikodovogo social'no-setevogo diskursa: materialy VI Mezhdunar. kongr. issledovatelej russkogo jazyka «Russkij jazyk: istoricheskie sud'by i sovremennost'». M. : Izd-vo Mosk. un-ta, 2019. 224 s.

Potapova R., Bobrov N. Versatile linguistic database annotation: practical issues and a new flexible approach // N. Fakotakis, A. Ronzhin, R. Potapova (eds.) Proc. of the 17th Intern. conference "Speech and Computer 2015" (Athens, Greece September 20-24 2015). University of Patras. Vol. II. P. 41-53.

Potapova R., Potapov V. Human as acmeologic entity in social network discourse (multidimensional approach) // A. Karpov, R. Potapova, I. Mporas (eds.). SPECOM 2017. LNAI. Cham : Springer, 2017. Vol. 10458. P. 407-416.

Potapova R., Potapov V. Polybasic attribution of social network discourse // A. Ronzhin, R. Potapova, G. Nemeth (eds.) SPECOM 2016. LNCS. Heidelberg : Springer, 2016. Vol. 9811. P. 539-546.

Potapova R., Potapov V., Bazhenova I. Development of the research cloud technology stand-alone system (regarding integrated speech databeses) // N. Fakotakis, A. Ronzhin, R. Potapova (eds.). Proc. of the 17th Intern. conference "Speech and Computer 2015" (Athens, Greece September 2024 2015). University of Patras. Vol. II. P. 1-7.

i Надоели баннеры? Вы всегда можете отключить рекламу.