Научная статья на тему 'ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ TELEGRAM – ЧАТА НА ЯЗЫКЕ R: ИССЛЕДОВАНИЕ ДИНАМИКИ КОММУНИКАЦИИ В ГРУППОВЫХ БЕСЕДАХ'

ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ TELEGRAM – ЧАТА НА ЯЗЫКЕ R: ИССЛЕДОВАНИЕ ДИНАМИКИ КОММУНИКАЦИИ В ГРУППОВЫХ БЕСЕДАХ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
0
0
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
язык R / R Studio / чат Telegram / интеллектуальная модель / R language / R Studio / Telegram chat / intelligent model

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — И.А. Фионин, Д.И. Пестерев

В статье рассматривается сущность процесса интеллектуального анализа в контексте применения его в исследовании коммуникаций чата Telegram. Автор приводит возможности и преимущества, языка R, демонстрирует процесс применения библиотек языка R для анализа чатов. В заключении формируются выводы для дальнейших решений руководителей компании.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — И.А. Фионин, Д.И. Пестерев

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

INTELLIGENT ANALYSIS OF TELEGRAM CHAT IN R LANGUAGE: STUDY OF COMMUNICATION DYNAMICS IN GROUP CONVERSATIONS

The article discusses the essence of the mining process in the context of its application in the study of Telegram chat communications. The author gives the possibilities and advantages of the R language, demonstrates the process of using the R language libraries for chat analysis. In conclusion, conclusions are formed for further decisions of the company's leaders.

Текст научной работы на тему «ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ TELEGRAM – ЧАТА НА ЯЗЫКЕ R: ИССЛЕДОВАНИЕ ДИНАМИКИ КОММУНИКАЦИИ В ГРУППОВЫХ БЕСЕДАХ»

ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ TELEGRAM - ЧАТА НА ЯЗЫКЕ R: ИССЛЕДОВАНИЕ ДИНАМИКИ КОММУНИКАЦИИ В ГРУППОВЫХ БЕСЕДАХ

И.А. Фионин, студент Д.И. Пестерев, студент

Уральский государственный экономический университет (Россия, г. Екатеринбург)

DOI:10.24412/2500-1000-2024-5-4-137-146

Аннотация. В статье рассматривается сущность процесса интеллектуального анализа в контексте применения его в исследовании коммуникаций чата Telegram. Автор приводит возможности и преимущества, языка R, демонстрирует процесс применения библиотек языка R для анализа чатов. В заключении формируются выводы для дальнейших решений руководителей компании.

Ключевые слова: язык R R Studio, чат Telegram, интеллектуальная модель.

Изменение бизнеса - это неотъемлемая часть современного мира. Опыт крупных компаний показал, что привычная коммуникация с клиентами и партнерами по сотовой связи и электронной почте является недостаточно эффективным методом. Данное изменение произошло в следствии изменения прежних устоявшихся мнений, что основной канал коммуникаций - это привычная всем телефония, а новый вектор развития - это использование в работе мессенджеров. Бизнес в современных реалиях имеет возможность использовать более удобный интерактивный канал общения со своими клиентами и дополнительный цифровой маркетинговый инструмент. На текущий момент, большая часть крупнейших IT компаний используют его в своей деятельности [2].

Одним из ключевых этапов анализа сообщений в чатах мессенджеров является их сегментация. Сегментация сообщений помогает выделить основные темы обсуждения, определить эмоциональный окрас сообщений и выявить потребности пользователей. Сперва приведем некоторые из основных методов сегментации сообщений в чатах мессенджеров [1].

Одним из основных методов сегментации сообщений в чатах является метод машинного обучения на основе анализа естественного языка (Natural Language Processing, NLP). Этот метод использует алгоритмы машинного обучения для анализа содержания сообщений в чатах и ав-

томатической классификации их в соответствии с определенными критериями. В основе этого метода лежит анализ естественного языка, который позволяет компьютеру «понимать» содержание сообщений и выявлять ключевые слова, фразы, темы и контексты.

Вторым популярным методом, является сегментация на основе параметров. Этот метод основывается на различных параметрах, таких как длина сообщения, время отправки, имя отправителя и т.д. В соответствии с этими параметрами сообщения могут быть автоматически классифицированы в соответствующие группы.

Третий вид сегментации - это тематическое моделирование. Этот метод позволяет автоматически классифицировать сообщения на основе определенных тем или категорий. Для этого используется анализ содержания сообщений и выявление ключевых слов, фраз и тем. Это позволяет быстро и точно определить содержание сообщения и выделить его в соответствующую тематическую группу.

Для тематического моделирования могут использоваться различные алгоритмы, такие как LDA (Latent Dirichlet Allocation), PLSA (Probabilistic Latent Semantic Analysis), TF-IDF (Term Frequency-Inverse Document Frequency) и другие [6].

Анализ тональности (Sentiment analysis) - это метод, который использует алгоритмы машинного обучения для определения тональности сообщения. Он может помочь

выявить эмоциональный окрас сообщений и классифицировать их как позитивные, негативные или нейтральные.

Анализ сущностей (Entity analysis) - это метод, который помогает выделить в сообщении конкретные объекты или события, например, имена людей, места, организации, даты и т.д. Это может быть полезно при анализе обращений клиентов, чтобы быстро идентифицировать проблему, с которой они сталкиваются.

Кластерный анализ, является четвертым видом сегментации сообщений. Этот метод основывается на группировке сообщений в кластеры, в которых сообщения имеют общие свойства. Кластеризация сообщений происходит на основе различных параметров, таких как содержание сообщения, длина сообщения, время отправки и другие.

Использование комбинации различных методов может дать наилучший результат в анализе динамики коммуникации в групповых чатах мессенджеров.

Описание библиотек языка r для проведения интеллектуального анализа

Язык R является мощным инструментом для проведения анализа данных, в том числе и для анализа текстовых данных, таких как сообщения в мессенджерах. Для упрощения проведения анализа в R существует множество библиотек, которые предоставляют готовые функции и алгоритмы для работы с данными. В работе использованы специальные библиотеки языка, для обработки данных. Разберем, каждую библиотеку в порядке их подключения в коде программы.

1. library(jsonlite);

Библиотека jsonlite в языке R предназначена для работы с форматом JSON, который широко используется для передачи данных в Интернете, в том числе и в мес-сенджерах.

В целом, библиотека jsonlite является необходимым инструментом для работы с JSON-данными в R и может быть полезна при анализе сообщений в мессенджерах, которые могут быть представлены в формате JSON.

2. library(ggplot2);

Библиотека ggplot2 предназначена для создания качественных и красивых графиков. Она базируется на грамматике графиков, то есть предоставляет пользователю набор примитивов (например, точки, линии, прямоугольники), которые могут быть использованы для создания различных видов графиков.

3. library(dplyr);

Библиотека dplyr является одной из самых популярных библиотек в R для манипуляции и обработки данных. Она предоставляет удобный и интуитивно понятный интерфейс для фильтрации, суммирования, группирования, преобразования и объединения данных.

Библиотека dplyr работает быстро и эффективно даже с большими наборами данных. Она также может быть использована для работы с данными из различных источников, включая базы данных, CSV-файлы, Excel-файлы и т.д.

Кроме того, библиотека dplyr является одной из частей большого экосистемы tidyverse, которая включает в себя множество других полезных библиотек для работы с данными в R. Эти библиотеки хорошо интегрируются друг с другом, облегчая процесс анализа и обработки данных в R.

4. library(tidytext);

Библиотека tidytext является инструментом для работы с текстовыми данными в R. Она предоставляет удобные функции для обработки текста, которые позволяют разбить текст на слова (токенизация), удалить стоп-слова, провести лемматизацию, подсчитать частоту употребления слов и т.д.

В рамках анализа мессенджеров, библиотека tidytext может использоваться для обработки текстовых сообщений, извлечения ключевых слов, построения графиков частотности слов и т.д. Например, с помощью функции unnest_tokens() можно разбить текст на слова, а затем подсчитать частоту употребления каждого слова с помощью функции count().

5. library(sentimentr);

Библиотека sentimentr часто используется для анализа тональности отзывов, комментариев и других текстовых данных в социальных сетях и мессенджерах, таких

как Telegram. Она позволяет быстро и эффективно определять эмоциональный окрас текста и использовать полученные результаты в дальнейшем анализе данных.

6. library(stm);

Библиотека stm (Structural Topic Modeling) в языке R позволяет проводить структурное моделирование тематик (Topic Modeling) с учетом зависимостей между документами, в которых эти тематики обнаруживаются.

Структурное моделирование тематик представляет собой метод машинного обучения, который используется для автоматического выделения тем из набора текстовых документов. В отличие от методов мешка слов, где каждый документ рассматривается как неупорядоченный набор слов, структурное моделирование тематик позволяет учитывать структуру текста и устанавливать связи между словами [3].

7. library(topicmodels);

Библиотека topicmodels - это набор инструментов для построения тематических моделей текстовых данных в языке R.

Библиотека topicmodels содержит несколько алгоритмов для построения тематических моделей, включая Latent Dirichlet Allocation (LDA), Correlated Topic Model (CTM) и others. Она также предоставляет набор функций для оценки качества построенных моделей, в том числе расчета перплексии и коэффициента когерентности тем.

Применение библиотеки topicmodels в анализе мессенджеров может помочь выделить наиболее часто встречающиеся темы в сообщениях, и понять, о чем именно пользователи чаще всего общаются в групповых чатах. Также эта библиотека

1

2

4

5

6

7

Следующим шагом, необходимо выполнить загрузку данных, с которыми будет выполняться необходимая работа. В

может быть использована для сравнения тематического содержания различных групповых чатов, например, для анализа изменений в обсуждаемых темах во времени [5].

8. library(tm);

Библиотека tm (text mining) - это одна из основных библиотек для работы с текстовыми данными в языке R. Она предоставляет широкий спектр функций для загрузки, предварительной обработки, преобразования и визуализации текстовых данных.

С помощью библиотеки tm можно загружать тексты из различных источников, включая текстовые файлы, PDF-файлы, веб-страницы и базы данных. Она также предоставляет множество функций для очистки текста от стоп-слов, знаков препинания, цифр и других ненужных символов, а также для создания матрицы терминов-документов, которая позволяет проводить анализ текстовых данных.

Кроме того, tm имеет функции для поиска слов и фраз, создания корпуса документов, расчета статистики слов и т.д. Эта библиотека является одной из самых популярных для работы с текстовыми данными в R и представляет собой мощный инструмент для исследования текстовых корпусов в различных областях, включая социальные науки, маркетинг, медицину и

др. [4].

Реализация построения интеллектуальной модели анализа чата Telegram

Реализация кода начинается с установки необходимых библиотек, которые будут использоваться в первую очередь (рис. 1).

данном случае, мы решаем потребность компании Яндекс, а именно выполняем анализ официального ресурса, телеграмм

1 i br aryCjsoril ite) 1i br ary(ggplot2) 1i br aryCdplyr)

install.packages("tidytext") 1 i br ary(ti dytext)|

Рис. 1. Загрузка библиотек

канала компании по технической поддержке настройки умного дома пользователей. Для выполнения анализа был взят конкретный день, в который компания Ян-

декс выпустила обновление -«...улучшающее стабильность экосистемы умного дома.» (рис. 2).

В # загрузка данных из фай/а JSON

9 chat_data <- fromJ50N("ChatExport_2023-04-10/result.]5on") 10

Рис. 2. Загрузка данных формата JSON

После успешно выполненной загрузки, мы получаем первичные данные для проведения анализа. Следующим шагом, необходимо выполнить преобразование «сырых» данных, в формат таблицы. Пре-

образование позволит корректно считывать и структурировать данные в дальнейшем, и скажется на качестве исследования (рис. 3).

11 $ преобразование данных в таблицу

12 chat_tablle <- as. data.frame(chat_data)

1 =!

Рис. 3. Преобразование данных в таблицу

Выполнив команду, мы получили структурированную таблицу данных (рис. 4).

о .тм:

• •О«« »40.»«з JlOl^i

"V■ >W-»J ДМ Я уГвЫг«* t A^CO*

nniljiwifroainicM^ '»-J<l ПммЭ ДМ И гСВОдПМ с

IWi ■ дек г усройсы I AMtf >'| I I ii дм и уСОЫсги с АМА) Л* tJ Дм и rrgdru ( JcwcpJ *»»4** 'Ч ltd дм И traajni с Мот) ■»44 >|) дм |1 с

дм К ЧПХ^ГМ Г Tr-^I KWbJ ДМ л iCWi ГМ С

ЛЛ-bJ ДМ И >сооасм С ЛлгСЫ ДМ * уСИОЗСМ С AMC0J

MPt.MCTM DJf> t.^o<*v*o>r

дос.ьеед'М

[K.»

gu»<.» W| t4P

OiP

fti^^oefp-ojo

И

•ямым

'ГШК1Я

iztojih irwua

'ГЧК-1»

t»ia

• Wyr.triunlrtsl • мшднл) neuyn.Trpf

K'SO •'(lagt

Щэ6* 'BMflt

"«set

bix r-ttuet 'tiu^i

K?Me rMMqi

®niet тщ|

Mini -<I4>

WHTJ

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

eoiyw «tregt

M1S4 r-Kagt

Ш1576 rtsa((

тетя ккпм

«где^го-жм ¡а-я jrrjt;«;

ню-м-оталя

J3?J 54 аг-я-лл' 10ZI « от-длего

гогз-мот'»'«! ¡oej^-ip":«*'«

Jft>lJUJT7TVH«l

'WWi -бОДМгС •e*XJ75J?

^IKUKil ffilMt

(W'H

'iw«

hltfi D

Inf'

;, 11 ]

■«•17ЦЫ9Я

JiOfUiDft" iittlMSi'^i)

il «.«¿MrtlMHa

)iu:ucso» jr xfc£* ■ ti

S. tt fcip'wya 1 С"JJi

*;.ttMi

<S«cg*t пкйи^гп

WWAlii JHI'MHI

J«.*- uaxwi .«тям»

TM^O MO-M/.W- .iencsi'fT

i»w ледоздзз

mmaor

o-et- ; •w.

To*««

Ifjr

Ec.>. rtofA

Рис. 4. Таблица чата Телеграмм

Для создания гистограммы распределения частоты отправки сообщений участниками чата, необходимо выполнить промежуточное действие - удалить из столбца message.from_id отсутствующие значения

id пользователей (скрытые аккаунты). Так как мы не можем определить таких пользователей, мы не учитываем их в нашей выборке.

14 # Удаление строк с пропущенными значениями в столбце ■рголипс!

15 сИат_гаЫ1е <- сИа1:_1:аЫе[ А ъ. па(сИа1:_гаЫ е5теззаде5. f гогч) , ]

16

Рис. 5. Удаление пустых значений пользователей

После успешной очистки данных, необходимо определить ТОП-10 пользователей чата по количеству отправленных сообщений.

Рис. 6. Таблица ТОП-10 активных участников чата

Для наилучшего представления, выполним визуализацию данных с помощью команды ggplot (рис. 7).

Рис. 7. Построение графика ТОП-10 участников чата

Определив оси графика, указав, что ось Х - это имя пользователя, а ось Y - это количество отправленных сообщений, построим столбчатую диаграмму (рис. 8).

Рис. 8. График активности чата телеграмм

Анализируя график можно заметить, что самые активные пользователи чата -это Mikhael, Эмодзи аккаунт и Arthur Shadow. Определив самых активных поль-

зователей, выполним анализ активности участников чата. Для этого создадим новую таблицу с количеством сообщений по временным интервалам (рис. 9).

JO * построение графика активности участников цата

31 - Создание новом таблицы с количеством сообщений го временны« интервалам

32 chat_tab4e_by_tine - char_tablе

33 nutate (time_interval » cut(as.POSIxct messages.date, format « "SY-Swi-SdTSHtz = urc" , breaks="60 Bin"

34 group_by mess ages. from, tine_interva1 \>S

35 sumnarizeinunutessages = n())

36 chat_tabTe_by_n"ne

37

Рис. 9. Создание таблицы распределения сообщений по времени

Результатом получим таблицу с полями - «Отправитель», «Дата/время» и «Количество сообщений от пользователя» (рис. 10).

imug«.lram liinaJnIMval num.mettaQi*«

2023-04-05 11136:00

®L»xi.!«\ei® * Satincho + 2023-04-08 12:36:90 »23-04-08 13:36:00 2323-04-06 12:36:00 2023-04-07 07:36:00

oSJ — Aieksandr Doorov Alaleiandf Bobiov Alex 2023-04-07 10:36:00 2023-04.0« 21:36:00 2023-04-09 06:36:00 2023-04-07 22:36:00

Alex S 2023-04-09 05:36:00

Alexander »Corrarov 2023-04-07 16:36:03

Alexander <omarov Alexander Powihenrikov Alexander Shutko Alexey D. Fllimonov 2023-04.07 17:36:00 2023-04-06 04:36:00 2023-04-10 07:36:00 2023-04-07 01:36:00

Ait ng Leader м 2023-04-09 19:36:00

Ait ng Leader • Andrei VOIkOv Andrei voikov Andrei Vdlkov 2023-04.09 20:36:00 2023-04-08 19:36:00 2323-04-08 20:36:30 2023-04-09 02:36:00

Andne5"\_CA')V 2023-04-08 12:36:00

Arrlr^v Kartnitrnv ?п?1.п4.л7 inivww

Рис. 10. Таблица распределения сообщений по временным интервалам

Как и в прошлом пункте, выполним визуализацию полученных данных с помощью команды ggplot (рис. 11).

38 ддр!он(йана = сИатлаЫе_Ьу_итте, аез(х = Т1те_1 пгег\-а1 , у = пит_те5 5аде5)) +

39

40

41

А?

geom_colО +

labs(x = "Time Interval (start time)", у = "Number of P theme (axis. text, к = el einent_text (angle = 90, vjjst = 0.

Рис. 11. Построение графика распределения сообщений

ages■+ hj ust=l))

Результатом написанных строчек кода, будет являться график распределения сообщений по времени. Анализируя полученный результат сложно выявить определенную закономерность. Так как мы работает с данными за четыре дня, то наиболее

популярное время для дискуссий приходится, как правило на вторую половину дня. А самое наименьшее количество сообщений поступает в чат, в самые ранние часы суток (рис. 12).

Рис. 12. Диаграмма распределения сообщений участников чата

Приступим к следующему предиктору, выполним промежуточное действие, а а именно определим наиболее популярные именно преобразуем список сообщений в слова в чате. Для корректного результата одну строку (рис. 13).

messages_text с- paste(chat_tableimessages. text, collapse = " ")

Рис. 13. Подготовка данных

Результатом получим таблицу наиболее популярных слов в чате (рис. 14).

Ж. word n

1 и 973

2 hie 969

3 E 378

4 ha 569

5 -"3 ¿72

6 a 436

7 TO 395

3 я 392

9 с 359

10 У 34a

Рис. 14. Таблица популярных слов в чате

Так как мы получили список предлогов, а не конкретных слов, то сложно сделать какие-либо выводы по данной таблице. Следующим шагом, определим общую то-

нальность сообщений за заданный период. Для этого воспользуемся библиотекой library(sentimentr) и выполним первичную подготовку данных (рис. 15).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

55т ###4 анализ тональности ####

56 instal 1 . packages С 'senti mentr "}

57 library(sentimenîr)

58

59 # очистка текста

60 chat_tab1 e_clean <- chat_table %>%

61 inuîate(texî_clean = gsub{"[a[:alnum:]а-яА-я\\г]", "", messages.text)) %>%

62 mutate(text_clean = toi ower (text_dean) )

63

Рис. 16. Очистка текста

Выполнив подготовку данных, можно приступать к оценке тональности сообщений (рис. 17).

65 sentiment_scores <- sentimentr : sentiment_by(chat_table_clean %>% pul 1(text_clean})

66 S выделение наиболее позитивных и негативных сообшений|

69 top_positi ve <- chat_table_clean"sentiment_scores4ave_sentiment >0, ]

70 top_negative <- chat_table_clean"sentiment_scores4ave_sentiment <0, ]

Рис. 17. Оценка тональности сообщений

Результатом анализа, получены пользователи с негативной тональностью (рис. 18).

JH ГС ни г •« m in ni 1111 i i • 111» i Л11 m/ ял : i.^ у 1;.ЧвЗ"Д' c>i*i#*» iw-su»ус-»о*гадсАдксв* элÎWJTÏÎJ '"WW

■otignîffr

IMT -»fHgf

Will Iff J-вИг

uau-yn

H;) a чгмяо)

' 5 ïMî

MTtlVJЯП

Рис. 18. Таблица негативной тональности

Полученные результаты, позволяют выделить время сообщений и конкретных участников чата, тональность которых является негативной.

Следующим шагом, выполним тематическое моделирование чата Телеграмм.

82

83

84

85

86

87

88

Для использования пакета lda необходимо выполнить строгие действия, а именно форматирование раннее созданных документов, вычислить статистические

Для этого потребуется установить три основных библиотеки: ^га^^Ш), library(topicmodels) и Н^шу^). Первым этапов выполним вычисление таблицы термов и удаление значений, которые встречаются менее 5 раз (рис. 19).

показатели, связанные с набором данных и определить общее количество токенов и количество токенов в каждом документе (рис. 20).

# вычисление таблицы термов:

term, table <- tablefurl i st(chat_t.ab1e$Bessages, text}) term.table <- sort(term.table, decreasing = true)

# удаление термов, которые встречаются менее 5 раз: term, table <- term, tabl е [term, table > 5]

vocab <- names(term.table)

Рис. 19. Вычисление термов

89 е fopau т и poo дн ие ди«ум*м!ое для «снопыовани« а плпг Id«:

90 - get. terms functlon(x) (

91 Index natch(x, vocab)

92 Index 'ncex 1s.run Index

91 rblnd as. Integer Index 1. as. integer rep 1, length Index!))

M - )

95 documents lapply(chat_tableSmessages. text. get.teretsl

96 e iu4iitjiittM Htioropui cTiTMtiwituik пцщ итслгк сшиншк с набором л J 9" D length: docunents • иплвчесгш дпаумеиша (3 '40)

94 ■ ■ 1 engt h:vocab) » количество гррмов ■ словаре (11,116) 99

100 v •.олнчпствг' гпмеиое ■ ихдин докумнм .'II, 170. 416. .'91 ...]

101 doc. length sapply documents,

107 function'.x suaix[2. ]))

103

104 f общ» количество гощено« ■ дмш< (U6.6J/) 101 N sum doc.length

106

107 • частота термов ■ «орпусе [IIH9, 'Л44. 2411. 2410, 7141, ...]

106 tern.frequency as.Integer term.table')

109

Рис. 20. Подготовка данных к методу lda

Перед выполнением lda моделирования, создадим матрицу слов (рис. 21).

1L2 corpus <- Corpus(vectorsource(chat_tab'1eSme3sages.text})

Рис. 21. Создание матрицы слов

Последний этап работы с данными - это выполнение lda моделирования. Выполним реализацию вывода топиков по чату Телеграмм (рис. 22).

120 # вывод топиков

121 # получение топиков и соответствующих слов

122 topic_words <- terms(1da_model, 10) 123. topi cs <- 1:5

124

125 # вывод названия топика и соответствующих слов 126- for (т in topics)

127 cat(pasteO("Topiс ", t, ": ", paste(topic_words[t, ], collapse = ", "), "\n")) 128- }

129

130

10S:21 □ Тематическое моделирование i Console Terminal Background Jobs

vft И 4.2.1 ■ OJ

> if вывод названия топика, и соответствующих слов

> for (t i n topi cs) {

+ cat(paste0("Topiс ", t, ": ", paste (topi c_wortls [t, ], collapse = ", ") , "\n")) + }

Topic 1: 1971, 593, ISIS, S63, 67 Topic 2: 502, 41, 163S, 1541, 909 Topic 3: 676, 53, 1479, 1374, 1479 Topic 4: 1502, 77, 1503, 1667, 1971

Topic 5: 6S3, 314, 1541, 1472, 1374

>

Рис. 22. Вывод топиков чата Телеграмм

В результате анализа представлены результаты анализа чата в Telegram при моделировании интеллектуальных моделей, таким методом как LDA моделирование. Данный метод позволяет выявить наиболее обсуждаемые темы, определить активность участников, оценить тональность

сообщений и распределение частоты отправки сообщений. Эти результаты могут быть полезны для принятия управленческих решений, улучшения коммуникации, оптимизации работы чата и повышения качества обслуживания.

Библиографический список

1. Шипунов А.Б., Балдин Е.М., Волкова П.А. и др.: Наглядная статистика. Используем R! (ISBN: 978-5-97060-094-8)

2. Искусственный интеллект и принятие решений: Интеллектуальный анализ данных. Моделирование поведения. Когнитивное моделирование. Моделирование и управление / Под ред. С.В. Емельянова. - М.: Ленанд, 2012. - 108 c.

3. Информационные технологии и вычислительные системы: Обработка информации и анализ данных. Программная инженерия. Математическое моделирование. Прикладные аспекты информатики / Под ред. С.В. Емельянова. - М.: Ленанд, 2015. - 104 c.

4. Кулаичев, А.П. Методы и средства комплексного анализа данных: Учебное пособие. - М.: Форум, 2018. - 160 c.

5. Лесковец, Ю. Анализ больших наборов данных / Ю. Лесковец, А. Раджараман. - М.: ДМК, 2016. - 498 c.

6. Роберт И. Кабаков: R в действии. Анализ и визуализация данных на языке R (перевод с английского, ISBN: 978-1-93518-239-9, 978-5-94074-912-7, 978-5-97060-077-1)

INTELLIGENT ANALYSIS OF TELEGRAM CHAT IN R LANGUAGE: STUDY OF COMMUNICATION DYNAMICS IN GROUP CONVERSATIONS

I.A. Fionin, Student

D.I. Pesterev, Student

Ural State University of Economics

(Russia, Yekaterinburg)

Abstract. The article discusses the essence of the mining process in the context of its application in the study of Telegram chat communications. The author gives the possibilities and advantages of the R language, demonstrates the process of using the R language libraries for chat analysis. In conclusion, conclusions are formed for further decisions of the company's leaders. Keywords: R language, R Studio, Telegram chat, intelligent model.

i Надоели баннеры? Вы всегда можете отключить рекламу.