Научная статья на тему 'КОМПЬЮТЕРНАЯ ЛИНГВИСТИКА В АНАЛИЗЕ КОНТЕНТА'

КОМПЬЮТЕРНАЯ ЛИНГВИСТИКА В АНАЛИЗЕ КОНТЕНТА Текст научной статьи по специальности «СМИ (медиа) и массовые коммуникации»

CC BY
17
6
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
компьютерная лингвистика / контент-анализ / визуализация данных / семантический анализ / computer linguistics / content analysis / data visualization / semantic analysis

Аннотация научной статьи по СМИ (медиа) и массовым коммуникациям, автор научной работы — Д.К. Дзениш, С.В. Ускова

В статье автор рассматривает специфику использования компьютерной лингвистики при анализе контента. Отдельное внимание уделяется инструментам аналитики и методам визуализации исследования. Акцент делается на анализе комментариев в социальных сетях.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

COMPUTER LINGUISTICS IN CONTENT ANALYSIS

In this article the author examines the specifics of using computational linguistics in content analysis. Particular attention is paid to analytical tools and research visualisation techniques. The emphasis is placed on the analysis of comments in social networks.

Текст научной работы на тему «КОМПЬЮТЕРНАЯ ЛИНГВИСТИКА В АНАЛИЗЕ КОНТЕНТА»

Актуальные проблемы авиации и космонавтики - 2022. Том 3

УДК 519.765

КОМПЬЮТЕРНАЯ ЛИНГВИСТИКА В АНАЛИЗЕ КОНТЕНТА

Д. К. Дзениш* Научный руководитель — С. В. Ускова

Сибирский государственный университет науки и технологий имени академика М. Ф. Решетнева Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31

E-mail: *dariadzenish@gmail.com

В статье автор рассматривает специфику использования компьютерной лингвистики при анализе контента. Отдельное внимание уделяется инструментам аналитики и методам визуализации исследования. Акцент делается на анализе комментариев в социальных сетях.

Ключевые слова: компьютерная лингвистика, контент-анализ, визуализация данных, семантический анализ.

COMPUTER LINGUISTICS IN CONTENT ANALYSIS

D. K. Dzenish* Supervisor supervisor - S. V. Uskova

Reshetnev Siberian State University of Science and Technology 31, Krasnoyarskii rabochii prospekt, Krasnoyarsk, 660037, Russian Federation E-mail: *dariadzenish@gmail.com

In this article the author examines the specifics of using computational linguistics in content analysis. Particular attention is paid to analytical tools and research visualisation techniques. The emphasis is placed on the analysis of comments in social networks.

Keywords: computer linguistics, content analysis, data visualization, semantic analysis.

С активным развитием медиапространства, растущим количеством появляющейся информации, проблема анализа контента сводится не только к проблематике ее интерпретации, но и к практической невозможности традиционными ручными методами проводить семантический анализ из-за количественных объемов. Трансформация модели массовой коммуникации к форме межличностной также усложняет анализ пользовательской активности [4]. Поэтому в анализе контента все чаще начинают использоваться инструменты компьютерной лингвистики

Компьютерная лингвистика — это прикладная область в изучении компьютерного моделирования интеллектуальных процессов при создании систем ИИ, цель которой — использование математических моделей для описания естественных языков [5].

Основной проблематикой контент-анализа в компьютерной лингвистике является идентификация сарказма и/или иронии, идентификация форм слов и нахождение правильных постцедента и антецедента для анафорического местоимения [1].

Эффективным инструментом в анализе контента является программный интерфейс ParallelDotsAPI. Он работает с 14 естественными языками, в том числе с русским. API предоставляет возможности по анализу текста с различными семантическими целями [2].

Другим эффективным инструментом для анализа семантики текста является программное обеспечение Tropes. При помощи Tropes можно обнаруживать контексты, изолировать темы

Секция «Фундаментальные; и прикладные проблемы гуманитарных наук»

и определять основных участников посредством применения трех уровней семантических классификаций.

Для визуализации результатов проведенного исследования был использован графовый методам c помощью пакета программного обеспечения Gephi [3].

Материалом для исследования стали комментарии в социальных сетях журнала Яндекс Практикума «Код» — бренд-медиа для начинающих программистов. В ходе исследования были проанализированы 3945 комментариев из социальных сетей Telegram и Instagram (социальная сеть запрещена на территории Российской Федерации). В результате контент анализа были выделены следующие тенденции:

Тональность комментариев выражена в следующем соотношении: 49,2% нейтральной лексики, 22,5% — негативной и 28,3% — позитивной. Стиль изложения — аргументативный: обсуждение, сравнение или критика. Данные характеристики свидетельствуют о развивающейся дискуссии между пользователями.

Самые употребляемые семантические единицы — greetings, work, article, Q/A и обращения к самому журналу посредством использования @codemedia.

Основными тематическими областями являются computer sciences, коммуникация, языки программирования, социальные группы (в т. ч. должности), девайсы, образование, здоровье.

Самый упоминаемый язык программирования — Python. Это может быть объяснено спецификой целевой аудитории, которой являются начинающие IT-специалисты, для которых самых популярным языком и является Python.

В контексте работы самыми обсуждаемыми темами являются организация рабочего пространства и программное обеспечение (в основном IDLE). В здоровье — темы вакцинации, сна и work-life balance. Высокий уровень востребованности темы здоровья может быть объяснен формированием среди пользователей коммьюнити, в котором развиваются прикладные дискуссии. В контексте темы трудоустройства чаще всего обсуждаются уровень заработной платы, уровень компетенций и положение женщины в IT индустрии.

Таким образом, компьютерная лингвистика может находить место в гуманитарных, маркетинговых исследованиях. Перечисленные инструменты позволяют анализировать большие объемы текстов. Результаты таких исследований помогают искать новые точки входа потребителей, искать инсайты. При этом, освоение компьютерной лингвистики не обладает высоким порогом входа, тем самым упрощая исследовательскую работу и выход в область междисциплинарных исследований специалистам гуманитарных областей.

Библиографические ссылки

1. ABBYY Тестирование лингвистических технологий: соревнования по автоматическому разрешению кореферентности и анафоры / ABBYY. — Текст: электронный // habr.com : [Электронный ресурс]. — URL: https://habr.com/ru/company/abbyy/blog/229515/ (дата обращения: 22.04.2022).

2. AI Powered Text Analysis Apis. — ParallelDots AI APIs : [Электронный ресурс]. — URL: https://apis.paralleldots.com/text_docs/index.html (дата обращения: 22.04.2022).

3. NTA Графовые методы анализа в Gephi / NTA. — vc.ru : [Электронный ресурс]. — URL: https://vc.ru/ml/216547-grafovye-metody-analiza-v-gephi (дата обращения: 22.04.2022).

4. Дзениш, Д. К. ВЗАИМОВЛИЯНИЕ ТРАДИЦИОННЫХ СМИ И НОВЫХ МЕДИА // XIII Всероссийский форум по связям с общественностью в сфере кино и телевидения «PRКИТ-2021»: материалы студенческой научно-практической конференции. — Санкт-Петербург: Санкт-Петербургский государственный институт кино и телевидения, 2022.

5. Федотова Л.Н. Анализ содержания - социологический метод изучения средств массовой коммуникации. - М., 2001.

© Дзениш Д.К., 2022

i Надоели баннеры? Вы всегда можете отключить рекламу.