Научная статья на тему 'Статистические методы анализа данных социальных медиа'

Статистические методы анализа данных социальных медиа Текст научной статьи по специальности «СМИ (медиа) и массовые коммуникации»

CC BY
314
34
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МЕТОДИ АНАЛіЗУ / ЗБіР ДАНИХ / СОЦіАЛЬНі МЕДіА / АНАЛіЗ / СОЦіАЛЬНі МЕРЕЖі / МЕТОДЫ АНАЛИЗА / СБОР ДАННЫХ / СОЦИАЛЬНЫЕ МЕДИА / АНАЛИЗ / СОЦИАЛЬНЫЕ СЕТИ / ANALYSIS METHODS / DATA COLLECTION / SOCIAL MEDIA / ANALYSIS / SOCIAL NETWORKS

Аннотация научной статьи по СМИ (медиа) и массовым коммуникациям, автор научной работы — Туманов Олексій Олександрович

Завдяки невпинному поширенню інтернет-технологій двосторонній комунікаційний зв’язок між людьми стає все сильніший і розповсюджується не тільки в конкретному місці, але й у всіх куточках нашого світу. Збільшення використання соціальних медіа генерує великі обсяги даних та нові їх типи, які раніше були не доступні. Поняття «соціальні мережі» та «соціальні медіа» все частіше є частиною соціальних дискусій, організаційної стратегії та наукових досліджень. Зростаючий інтерес до соціальних мереж поєднується із поширенням загальнодоступних мережевих даних, спостерігається суттєве збільшення методів та розуміння того, як аналізувати дані соціальних мереж і де можна використовувати результати таких досліджень. Використання цих даних може бути ключовим у сучасній соціології та мати велике значення у сферах економіки, антропології, біології, демографії, комунікаційних досліджень, географії, історії, інформатики, організаційних досліджень, політології, охорони здоров'я, соціальної психології, дослідження розвитку, соціолінгвістики та інших. Зараз це широко доступний споживчий інструмент, тому зростання інтересу до аналізу та моделювання соціальних даних, а також актуальність цієї теми не можна недооцінювати. У даній статті наведено методи, застосовані для аналізу широкого кола соціальних медіа, що ґрунтуються на родинних зв’язках, діловому співробітництві, політичних альянсах тощо. У цьому контексті структура мережі та внутрішні структури інформації можуть бути визначальними. В одних випадках вони можуть мати позитивний вплив на ефективність економічного зростання, але в інших мережева структура може призвести до деструктивних наслідків через існування безлічі зв’язків між деякими центральними суб’єктами (наприклад, поширення таких явищ, як епідемії чи фінансові кризи). Ця стаття представляє собою вступ до розгляду статистичних моделей, які спрямовані на вивчення особливостей даних соціальних медіа та наслідків соціальних процесів. Розглянуто підходи до аналізу зібраних даних, а також підіймаються питання надійності та достовірності отриманих результатів.Благодаря распространению интернет-технологий двусторонняя коммуникация между людьми становится всё сильнее и распространяется не только в определенном месте, но и во всех уголках нашего мира. Увеличение использования социальных медиа генерирует большие объемы данных и новые их типы, которые ранее были не доступны. Понятия «социальные сети» и «социальные медиа» всё чаще являются частью социальных дискуссий, организационной стратегии и научных исследований. Растущий интерес к социальным сетям сочетается с распространением широкодоступных сетевых данных, наблюдается существенное увеличение методов и понимание того, как анализировать данные социальных сетей и где можно использовать результаты таких исследований. Использование этих данных может быть ключевым в современной социологии и иметь большое значение в сферах экономики, антропологии, биологии, демографии, коммуникационных исследований, географии, истории, информатики, организационных исследований, политологии, здравоохранения, социальной психологии, исследований развития, социолингвистики и других. Сейчас это доступный потребительский инструмент, поэтому рост интереса к анализу и моделированию социальных данных, а также актуальность этой темы нельзя недооценивать. В данной статье представлены методы, применяемые для анализа широкого круга социальных медиа, основанных на родственных связях, деловом сотрудничестве, политических альянсах и т. п. В этом контексте структура сети и внутренние структуры информации могут быть определяющими. В одних случаях они могут иметь положительное влияние на эффективность экономического роста, а в других сетевая структура может привести к деструктивным последствиям из-за существования множества связей между некоторыми центральными субъектами (например, распространение таких явлений, как эпидемии или финансовые кризисы). Эта статья представляет собой вступление к рассмотрению статистических моделей, направленных на изучение особенностей данных социальных медиа и последствий социальных процессов. Рассмотрены подходы к анализу собранных данных, а также поднимаются вопросы надежности и достоверности полученных результатов.Due to the spread of Internet technologies, two-way communication between people is becoming stronger and spreading not only in a certain place, but also in all corners of our world. Increased use of social media generates large amounts of data and new types of data that were not previously available. The concepts of «social networks» and «social media» are increasingly part of social discussions, organizational strategy and scientific research. The growing interest in social networks is coupled with the dissemination of widely available network data, there is a significant increase in methods and understanding of how to analyze social media data and where the results of such researches can be used. The use of this data can be of key nature in modern sociology and be important in economics, anthropology, biology, demographics, communication research, geography, history, informatics, organizational research, political science, health, social psychology, outlook studies, sociolinguistics and others. It is an present-time affordable consumer tool, so the growing interest in the analysis and modeling of social data, as well as the relevance of this topic should not be underestimated. This article presents the methods used to analyze a wide range of social media based on relationship, business cooperation, political alliances, etc. In this context, network structure and internal information structures can be decisive. In some cases, they can have a positive impact on the efficiency of economic growth, while in others, the network structure can have destructive consequences due to the existence of many links between some central actors (e.g., the spread of phenomena such as epidemics or financial crises). This article is an introduction to consideration of the statistical models designed to examine the specifics of social media data and the effects of social processes. Approaches to the analysis of the collected data are considered, as well as issues of reliability and reliability of the results are brought up for discussion.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Статистические методы анализа данных социальных медиа»

УДК 303.71:[316.77:004.77](477) JEL: С46; L82

СТАТИСТИЧН1 МЕТОДИ АНАЛ1ЗУ ДАНИХ СОЦ1АЛЬНИХ МЕД1А

®2020 ТУМАНОВ О. О.

УДК 303.71:[316.77:004.77](477) JEL: С46; L82

Туманов О. О. Статистичш методи аналiзу даних соцiальних MeAia

Завдяки невпинному поширенню нтернет-технологш двостороннш комункацшний зв'язок м/ж людьми стае все сильнший i розповсюджуеться не т'шьки в конкретному мсц, але й у вах куточках нашого свту. Зб'шьшення використання соцальних Media генеруе велик обсяги даних та новi IX типи, як ранше були не доступы!. Поняття «софльш мережi» та «софльш меМа» все частше е частиною со^альних дискусш, оргашза-цйноI стратеги та наукових дотджень. Зростаючий штерес до со^альних мереж поеднуеться ¡з поширенням загальнодоступних мережевих даних, спостер'гаеться суттеве зб'шьшення метод'в та розумшня того, як анал'зувати дан со^альних мереж i де можна використовувати результати таких доМжень. Використання цих даних може бути ключовим у сучаснш соцюлогп та мати велике значення у сферах економi-ки, антропологП, бюлогп, демографИ, комунiкaцiйних досл'джень, географи, ктори, ¡нформатики, оргaнiзaцiйних досл'джень, пол'тологи, охоро-ни здоров'я, софльноi психологП, дослдження розвитку, соцюл'тгвктики та нших. Зараз це широко доступний споживчий шструмент, тому зростання 'ттересу до анал'зу та моделювання со^альних даних, а також актуальтсть ще!' теми не можна недооцнювати. У данй статт'> наведено методи, застосован для анал'ву широкого кола со^альних мед'ш, що (рунтуються на родинних зв'язках, д'шовому ствробтництвi, полтичних альянсах тощо. У цьому контекст'> структура мереж1 та внутр'>шн'1 структури iнформaцi¡можуть бути визначальними. В одних ви-падках вони можуть мати позитивний вплив на ефективнсть eкономiчного зростання, але в нших - мережева структура може призвести до деструктивних наЫдмв через снування безл'т зв'язмв м!ж деякими центральними суб'ектами (наприклад, поширення таких явищ, як eпiдeмi¡ чи ф'1нансов'1 кризи). Ця стаття представляе собою вступ до розгляду статистичних моделей, якi спрямован на вивчення особливостей даних со^альнихмед'ш та наЫдмв соцальних процеав. Розглянуто тдходи до анал'ву ^браних даних, а також тд'шмаються питання надшност'1 та достотрност'1 отриманих результат'в.

Ключов'! слова:методи анал'зу, зб'р даних, сощальнмед'а, анал'з, сощальн'1 мережи DOI:

Рис.: 1. Табл.: 1. Ббл.: 18.

Туманов Олекай Олександрович - здобувач кафедри статистики, облку та аудиту, Харювський нацональний ушверситет ¡м. В. Н. Каразша (пл. Свободи, 4, Харт, 61022, Украна) E-mail: oleksii. tumanov@gmail. com

УДК 303.71:[316.77:004.77](477) JEL: С46; L82

Туманов А. А. Статистические методы анализа данных социальных медиа

Благодаря распространению интернет-технологий двусторонняя коммуникация между людьми становится всё сильнее и распространяется не только в определенном месте, но и во всех уголках нашего мира. Увеличение использования социальных медиа генерирует большие объемы данных и новые их типы, которые ранее были не доступны. Понятия «социальные сети» и «социальные медиа» всё чаще являются частью социальных дискуссий, организационной стратегии и научных исследований. Растущий интерес к социальным сетям сочетается с распространением широкодоступных сетевых данных, наблюдается существенное увеличение методов и понимание того, как анализировать данные социальных сетей и где можно использовать результаты таких исследований. Использование этих данных может быть ключевым в современной социологии и иметь большое значение в сферах экономики, антропологии, биологии, демографии, коммуникационных исследований, географии, истории, информатики, организационных исследований, политологии, здравоохранения, социальной психологии, исследований развития, социолингвистики и других. Сейчас это доступный потребительский инструмент, поэтому рост интереса к анализу и моделированию социальных данных, а также актуальность этой темы нельзя недооценивать. В данной статье представлены методы, применяемые для анализа широкого круга социальных медиа, основанных на родственных связях, деловом сотрудничестве, политических альянсах и т. п. В этом контексте структура сети и внутренние структуры информации могут быть определяющими. В одних случаях они могут иметь положительное влияние на эффективность экономического роста, а в других - сетевая структура может привести к деструктивным последствиям из-за существования множества связей между некоторыми центральными субъектами (например, распространение таких явлений, как эпидемии или финансовые кризисы). Эта статья представляет собой вступление к рассмотрению статистических моделей, направленных на изучение особенностей данных социальных медиа и последствий социальных процессов. Рассмотрены подходы к анализу собранных данных, а также поднимаются вопросы надежности и достоверности полученных результатов.

Ключевые слова: методы анализа, сбор данных, социальные медиа, анализ, социальные сети. Рис.: 1. Табл.: 1. Библ.: 18.

Туманов Алексей Александрович - соискатель кафедры статистики, учета и аудита, Харьковский национальный университет им. В. Н. Каразина (пл. Свободы, 4, Харьков, 61022, Украина) E-mail: oleksii. tumanov@gmail. com

UDC 303.71:[316.77:004.77](477) JEL: С46; L82

Tumanov O. O. The Statistical Methods for Analyzing Social Media Data

Due to the spread of Internet technologies, two-way communication between people is becoming stronger and spreading not only in a certain place, but also in all corners of our world. Increased use of social media generates large amounts of data and new types of data that were not previously available. The concepts of «social networks» and «social media» are increasingly part of social discussions, organizational strategy and scientific research. The growing interest in social networks is coupled with the dissemination of widely available network data, there is a significant increase in methods and understanding of how to analyze

social media data and where the results of such researches can be used. The use of this data can be of key nature in modern sociology and be important in economics, anthropology, biology, demographics, communication research, geography, history, informatics, organizational research, political science, health, social psychology, outlook studies, sociolinguistics and others. It is an present-time affordable consumer tool, so the growing interest in the analysis and modeling of social data, as well as the relevance of this topic should not be underestimated. This article presents the methods used to analyze a wide range of social media based on relationship, business cooperation, political alliances, etc. In this context, network structure and internal information structures can be decisive. In some cases, they can have a positive impact on the efficiency of economic growth, while in others, the network structure can have destructive consequences due to the existence of many links between some central actors (e.g., the spread of phenomena such as epidemics or financial crises). This article is an introduction to consideration of the statistical models designed to examine the specifics of social media data and the effects of social processes. Approaches to the analysis of the collected data are considered, as well as issues of reliability and reliability of the results are brought up for discussion. Keywords: analysis methods, data collection, social media, analysis, social networks. Fig.: 1. Tabl.: 1. Bibl.: 18.

Tumanov Oleksii O. - Applicant of the Department of Statistics, Accounting and Auditing, V. N. Karazin Kharkiv National University (4 Svobody Square, Kharkiv, 61022, Ukraine)

E-mail: oleksii. tumanov@gmail. com

Поява та розвиток сощальних медiа обумови-ли створення велико! ккькост шформаци, що е потенцшним ресурсом для наукових дослкжень у рiзних напрямах сощально-економк-ного середовища. Аналiтики можуть робити бкьш ункальш та цiкавi дослкження з використанням даних сощальних медiа в широкому спектрi науково-дослкницьких дисциплш, таких як сощологш, шфор-матика, засоби масово! шформаци та комункаци, по-лкологш та iнженерiя тощо. Платформи сощальних медiа щодня генерують величезну ккьюсть даних на найрiзноманiтнiшi теми, а отже, е ключовим джере-лом шформаци для тих, хто прагне вивчити суспкь-ство 21 столктя. Однак сощальш мережi не е звич-ними джерелами шформаци, до яких вже звикли до-сл^дники та аналiтики. Вони мктять в собi множину агентш: користувачiв, спкьнот, рiзноманiтних груп чи сторшок органкацш, мiж якими вкбуваються по-стшш взаемовкносини. Саме тип взаемовкносин i даш про них i мають додаткову велику щншсть, яку необхкно вивчати та дослкжувати. Ця особлившть структури сощальних мереж порушуе питання пошу-ку найбкьш ефективних методiв !х аналiзу.

До^дження 1нтернету в щлому та сощальних медiа зокрема в нашш краМ розпочалося нещодавно. Однак в мiру поширення цих двох складникш штер-ес до 1х вивчення зростае з кожним днем. Сьогодш сощальш медiа е одним iз величезних джерел даних, котрi можуть бути використаш в наукових роботах. Вивченням аналiзу даних сощальних медiа займалися таи вкчизняш вчеш, як Буда А. Г. [1], Войтович О. П. [1], Головенько В. О. [1], Горчинська О. Ю. [2], Мазу-ренко В. В. [3], Штовба С. Д. [3]. У сво'к роботах вчеш розглядають загальш методи вивчення сощальних мереж: теорш графiв, структурш еквшалентносп, випадковi графи та ш. Однак в мiру появи нових джерел сощальних мереж !х аналiз та вивчення контенту потребують подальших дослiджень. Дана тенденцiя обумовлюе актуальшсть обрано'! теми.

Метою дано!' статп е обгрунтування вибору статистичних методiв дослiдження соцiальних медiа.

Враховуючи дуже великий Ha6ip даних, що мк-титься в cоцiальних мережах, головним завданням е визначення тишв даних, та пiдходiв до !х аналiзу [7].

Соцiальнi мережi зазвичай мктять величезну кiлькicть контенту та ознак, представлених у рiзних шкалах вимiрювання, якi можна використовувати для аналiзу зв'язкiв мiж показниками. Отже, даш можна роздкити вiдповiдно на неструктуроваш та cтруктурованi, залежно вк того, органiзованi вони заздалегiдь визначеним чином (структуроваш данi) чи ш (неcтруктурованi данi). Наприклад, вiк, стать користувача, ккьккть часу, що вш провiв у мережi, е структурованими даними, тодi як данi про поди, за-cнованi на твках i «лайках», не е структурованими.

Зазвичай структуроваш даш сощально!' мережi аналiзуютьcя за допомогою вбудованих еле-ментiв вiзуалiзацii, що може бути представлено, наприклад, у вшлядд графка G = (V, E), де V- сукуп-нicть вузлiв або сутностей (наприклад, людей, оргашзацш та продуктш), а E - набiр ребер, або зв'язкш, що з'еднують вузли за допомогою моделей взаемодш [1]. Застосування графiчноi аналiтики фокусуеться на отриманнi шформаци з взаемопов'язаних даних.

Неструктуроваш даш - це даш контенту, що передаються в онлайн сощальнш мережi (OSN - вк англ. Online Social Network), також вiдомi як UGC (Generated User), тобто даш, що створеш кшцевим користувачем. Вони вважаються життевою ланкою cоцiальноi мережi та включають текст, зображення, вкео, твiти, огляди продуктiв та iншi мультимедiйнi данi, якi, як правило, вивчаються за допомогою кон-тент-аналку [5; 13], методи якого включають, серед шших, алгоритми структурування даних.

Шдходи до аналiтики cоцiальних мереж i роз-робки контенту вкповкають мiждиcциплiнарним принципам штучного iнтелекту (AI - вiд англ. Artificial Intelligence), статистики та cумiжних галузей. До появи штучного штелекту дослкники намагалися поеднати суперечливе поняття «штелект» з технк-ним обладнанням, щоб зрозумiти, як працюе cвiт i придбати подальшi можливоcтi для дослкжень за-вдяки простому логiчному обчисленню [4; 9].

Типи даних сощальних мереж

Структурован i дан'1 Hеструктурованi данi

Статистичний анал1з та використання штучногоштелекту

Анал1з сощальних мереж

Моделювання зв'язпв Факторний анал'в Дисперсйний анал'в Анал1з структурнихзршшень

Аналв «великих даних»

Виявленнятренду Виявлення спльнот Анализ тональност1 тексту Анализ з ображень

Рис. 1. Типи даних сощальних мереж i методи |'х аналiзу

На рис. 1 узагальнено типи даних i вiдповiднi пiдходи та методи аналiзу.

Останнi к1лька рокш спостерiгаеться швидкий прогрес у виршенш давн1х, складних проблем при використанш штучного iнтелекту, i зараз вш широко розповсюджений серед найпопулярнших сервiсiв 1нтернету [6; 17]. З шшого боку, статистика передба-чае менш складнi процедури, якi акцентують увагу на статистичних моделях на шляху до кращого розумш-ня процесу генерування даних. Аналiз на основi контенту в сощальних медiа вивчаеться за допомогою аналiтики великих даних, i його увага зосереджена на витягуваннi знань з контенту, створеного та пошире-ного в мережь

Аудiо-, чи мовленневий аналiз, проводиться за допомогою безперервного розшзнавання мови онлайн-словником або фонетичного шдходу до отри-мання шформаци з неструктурованих аудiоданих [13]; аналiз контенту вiдео включае рiзнi методи контролю, аналiзу та вилучення значно! iнформацГi з вкеопо-токiв [13]; методи аналiзу зображень варiюються вк простих до складних залежно вк завдання аналiзу.

Останнiм часом велику увагу привертають методи розшзнавання облич [10] та вилучення настро!в [16] на основi даних сощальних медiа.

Aналiз даних соцiальних медiа - термiн, який охоплюе описовий i структурний аналiз [11]. Для того, щоб зрозумiти структуру мере-жi, отримати уявлення про те, як вона «працюе» та приймати ршення щодо не!, потрiбно дослкжувати характеристики вузла/зв'язку (наприклад, централь-шсть) або переглядати показники вск! згуртованост мережi (наприклад, щiльнiсть) [11]. Порiвняння мереж, вiдстеження змiн у мережi з плином часу, виявлення спкьнот i важливих вузлiв, а також визначення вiдносного положення оаб i кластерiв у межах ме-режi е деякими загальними процедурами [14]. Вони включають або статичний, або динамiчний аналiз. Перший передбачае, що соцiальна мережа поступово

змшюеться з часом, i аналiз вciеl мережi можна про-водити в пакетному режимь I навпаки, динамiчний аналiз, який е бкьш заплутаним, охоплюе потоковi данi, що розвиваються в чаа з високою швидкктю.

Динамiчний аналiз часто знаходиться в обласп взаемодiй мiж сутностями, тодi як статичний аналiз стосуеться таких властивостей, як зв'язшсть, щкь-нicть, cтупiнь, дiаметр i геодезична вкстань.

З огляду на рiзноманiтнicть та потенцiйний роз-мiр даних сощальних медiа розробляються новi та динамiчнi пiдходи до icнуючих ккьккних та якicних методик доcлiдження.

Методолопя доcлiдження cоцiальних медiа (табл. 1) охоплюе широкий спектр ккьшс-них та яшсних методiв, кожен iз яких мае сво! переваги та недолки.

Киьккт тдходи надають змогу отримати широкий дкпазон знань при вимiрах частоти дискрет-них або категоршних змiнних у наборах даних. До них належить, перш за все, ккьккний аналк - це найпростший cпоciб перегляду обсягк будь-яких даних аcоцiйованих з певними групами (наприклад, кориcтувачi платформи з певними демографкними характеристиками) або з обсягами згадок про певне ключове слово.

Наступним е аналк стосункк: враховуючи обсяги шформаци, необхкно також дивитися на взаемодго мiж користувачами, що враховуватиме ккьккть фiкcованих стосункш у користувача (наприклад, друзш у Facebook, пiдпиcникiв в Instagram тощо) або кiлькicть вiдповiдей на публкащю (наприклад, ретвiти / цитати в Twitter, коментарi на Tumblr / YouTube тощо). Це корисно для аналiзу взаемодй та часто е ключовою шфографкою, що вкображаеться на платформах аналiзу сощальних медк.

Доцiльно порiвняти традицiйнi та новi методи доcлiдження, якi можуть бути корисними аналiтич-ними шструментами для рiзноманiтних типiв даних.

Таблиця 1

Методи дослщження соцiальних медiа

Кшьккш Яккш

Одиниц ктькост1 та частоти: кiлькiсть послiдовникiв / друзiв, кть-кiсть користувачiв, темпи використання та взаемодп, пошуки. Кльшть реакцй: перегляди, коментарЬ лайки / схва-лення, ретвiти / цитати. Обсяги за одиницю часу Оцнки / 1нш'1 порядков! рейтинги Видалення ЫографЧт дан'г. вiк, iм'я, стать, нацiональнiсть, мкце проживання, професiя або квалiфiка- ця, дiяльнiсть, життя чи iнтереси. Мкцезнаходження: широта / довгота, поселення / адреса Текстова семантика: вмiст ключових шв iз постiв, комен- тарi до основних публiкацiй, хештеги. Вплив: закономiрностi реакцГГ В'1зуальний та ауд'юконтент: теги для фотографа, медiа-тон i змiст. Тон 1 почуття: емоцп та почуття, тон i думка. Вплив: теми обговорення / пошуку

Методи дослщження

Регреайний aнaлiз Кореляцiйний аналiз Дисперсiйний аналiз Описовi статистичнi тести Статистичне моделювання Г1С Аналiз мережi Семантичний аналiз Г1С Псевдоексперименти Семантичний аналiз Тематичний аналiз Кодифiкацiя Етнографiчне спостереження Активнi дослщження

Порiвнюючи набiр даних соцiальних медiа з iншим набором даних або якоюсь iншою не-залежною змшною (наприклад, мкцеполо-ження, вiк), можна провести дисперсшний аналiз. Це е основою використання даних соцiальних медiа як орieнтовного або прогнозного шструменту.

Використовуючи пов'язанi данi, можна побу-дувати моделi для прогнозування значень залежних змшних. Це забезпечуе корисний шструмент шфор-мування. Наприклад, такий шструмент дозволить спрогнозувати зростання вiрусу при досмдженш твь тiв про симптоми з метою шформування населення, спрямованого на зменшення випадкiв захворювання.

1ншим варiантом кiлькiсного пiдходу е класте-ризацiя. Цей iнструмент, по суп, е ккьюсною версiею сегментаций Вiн використовуе алгоритм для призна-чення даних кластера, де ва елементи мають подiбнi характеристики. Це корисно при переглядi демогра-фiчних характеристик користувачiв, якi обговорю-ють обранi теми.

Також до уваги необидно взяти просторо-вий аналiз. Географiчнi iнформацiйнi системи (Г1С) використовують просторовий елемент, який часто надаеться даними сощальних медiа (1Р-адреси з комп'ютерiв / GPS-локацiй шд час публiкацГi з мо-бкьних пристро!в). Це означае, що набори даних мо-жуть бути використаш для надання в реальному чаа чи iсторичному аспектi iнформацГi про поширення поди (наприклад, протест, спалах хвороби тощо).

Яккт тдходи. Враховуючи якiсний характер багатьох даних, отриманих на платформах сощальних медiа, зрозумко, що якiснi методи можуть нада-ти цiлий спектр аналiтичних пiдходiв:

+ сегментаця / iдентифiкацiя групи: дослк-ники також можуть активно брати участь у

даних соцiальних медт як додатковому дже-релi, яке доповнюе iснуючi якiснi дослкжен-ня. Зазвичай такого роду аналiз може бути до-сягнутий через платформу аналiзу соцiальних медiа. Одним iз прикладiв такого пiдходу е визначення важкодоступних груп для опиту-вання або додаткового опитування; + тематичний аналiз: данi соцiальних медiа можуть бути закодоваш та тематично проана-лiзованi для виявлення емоцiйного характеру контенту;

+ аналiз почуттiв: iснуючi алгоритми можуть бути використанi для автоматизованого ана-лiзу настро'iв i виявлення, чи е текст позитив-ним чи негативним поглядом [8]. Цей шдид усе ще обмежений у сво'iх можливостях ощ-нювання настрою шд час опрацювання склад-них предмепв чи неоднозначного, непосль довного або культурно-специфiчного матерi-алу, такого як сарказм; + графiчний медiа-аналiз: зображення та в^део-вмкт е все бiльш важливою формою взаемо-ди в Iнтернетi та може надати важливi данi про сфери, як представляють iнтерес. О^м прямого семiотичного аналiзу такого матерiа-лу, спосiб та причини його обмшу потребують б1льш глибокого аналiзу, особливо з огляду на ризик 1х витiснення з початкового контексту.

Комбшування пiдходiв. Сощальш медiа можна вважати «яшсними даними в ккьюсному масштабi» [12]. Таким чином, традицшш методологiчнi межi все б1льше розмиваються при розглядi найбiльш тдходя-щих iнструментiв вирiшення дослiдницького питання. Бiографiчнi данi, соцiальнi характеристики, такi як за-няття користувачiв або штереси, спосiб життя, часто

можуть бути чкко визначеш та статистично сшввк-неcенi з певними моделями поведшки. Однак будь-якi висновки, отримаш в результатi такого аналiзу, можуть бути поcиленi шляхом рандомiзованоi якicноi перевiрки сенсу того, як кориcтувачi вводять такi данi.

Поеднання рiзних методiв може допомогти встановити бкьш широке контекстне значен-ня. Наприклад, використання хештепв Twitter як критерив вибiрки призводить до самостшного ви-бору випадкiв, оск1льки будуть вивчеш лише корис-тувачi, як розмiщують певну фразу. У цьому випадку таи тдходи, як мережевий аналiз чи додатковi якicнi до^дження, можуть допомогти встановити змiнення використання певного хештегу з часом та мiж ркни-ми групами або розвинути розумшня використання певного хештегу [18]. Багато алгоритмiв машинного навчання будуються для реалiзацii того, що традицш-но виконуеться людиною iз використанням багатьох аналiтичних пiдходiв, як ккьккних, так i якicних. Важливо розумiти, що хоча згадка про «машинне навчання» та «алгоритми» може вказувати на кiлькicнi методи - аналiтичний результат усе ще е яккним. Ви-кориcтовуванi методи та процеси, що застосовуються для !х застосування, слк розглядати окремо.

Достовiрнiсть та надштсть. Хоча список не е вичерпним, деяк ключовi атрибути даних сощальних медiа, як можуть мати наcлiдки для доcтовiрноcтi та надiйноcтi, перераховано нижче:

+ KopucmyBaHi сощальних Media imdi не е типо-вими представниками населення [15]. Таким чином, кнуватимуть упередження та може бути складно зробити висновки для загальноi сукупность Однак ця характеристика може бути корисною, якщо досмдження зосеред-жено на груш, яка особливо активно працюе на платформi сощальних медiа. Платформи можуть мати численш автоматизованi «боти» та профеciйно керованi акаунти. Тому при проведенш доcлiдження науковцi повинш на-магатися вiдфiльтрувати результати з таких аномальних джерел шд час аналiзу; f «оргатчт» дат в реальному чаа: даш сощ-альних медiа рiдко створюються для наукових щлей. Це означае, що велика ккьккть даних може бути нерелевантною або у важкому для аналiзу формата, але вона мае перевагу в усу-неннi упередженоcтi дослкникш, проблемах з навантаженням на учасникш. Кориcтувачi cоцiальних медiа також беруть участь у пер-формативнiй сощальнш взаемодк На шдивь дуальному рiвнi це може стосуватися пробле-ми репутаци, тодi як кориcтувачi, що мають стльш iнтереcи, можуть спкьно просувати матерiали;

f поведшка в Iнтeрнeтi порiвняно з поведшкою в рeжимi офлайн: важко зробити висновок

про те, наскГльки вГдображаеться поведшка користувача в ¡нтернета щодо його поведшки в режимi офлайн, без шформацц про нього з шших джерел. Зазвичай вважаеться, що як позитивш, так i негативнi почуття в ¡нтернета завищенi, i що штерес до теми може насправ-дi не перетворюватися на подальшi дГ! (роз-рив вартостi та ди). Частково це пов'язано з «ефектом еха», який виробляеться на платформах сощальних медiа. Наприклад, корис-тувачу пропонуються матерiали, яю пере-глядають його друзГ, тим самим заохочуючи групову думку. Подальшi поглиблеш дослГ-дження користувачiв можуть надати бкьшу яснГсть у цьому питанш; ^ приватна властсть на платформи та дат: доступ до даних регулюеться компашями, яш володшть даними та !х угодами щодо конф^^^йно™ з користувачами. Багато компанш не розповсюджують деталi про вза-емодiю соцiальних медiа, яка вкбуваеться на !х платформах. Тому, хоча взаемоди можна спостерiгати та аналiзувати, важливi нюанси чи контекст можуть бути вксутшми. КрГм того, кнуе непрозорiсть у створеннi наборiв даних. Платформи регулярно змшюють функ-цюнальшсть, налаштування та популярнГсть, що впливае на спосГ6 збирання та аналку даних. Хоча часто е позитивш зрушення в можливостях, доступних для наборк даних, забезпечення узгодженосп даних дослкжень у 6Гльш тривалих часових рамках може бути проблематичним.

ВИСНОВКИ

У данш статп розглянуто методи аналку даних сощальних медк залежно вк !х типу. Придiлено ува-гу ккьккному та якГсному пiдходам при вивченш та аналiзi даних к сощальних мереж. Так, до ккьккного аналку належить аналк кГлькостГ шдписок, лайкiв, постГв у соцiальних мережах тощо. Аналiз дано! Гн-формаци зазвичай надаеться в обраних платформах. ТодГ як вивчення думок Г почуттш, ставлення до за-пису в сощальнш мережГ потребуе бГльш складних методГв аналГзу. Акцентовано увагу на проблемГ до-стовГрностГ та надшносп даних, отриманих Гз сощальних медк. Вивчення сощальних медк надае низку можливостей для дослГджень нового ршня, однак це також зумовлюе виникнення проблем достовГрностГ та надшносп одержаних дослГджень. Завдяки сучас-ним технологГям аналГз соцГальних медк здебкьшого виконуеться автоматично, за допомогою «машинного навчання», проте все ще кнуе необхГднГсть у якГсному аналкГ отриманих варГантГв людиною, що зумовлюе подальше вивчення цього питання. ■

Л1ТЕРАТУРА

1. Войтович О., Буда А., Головенько В. Дослщження методiв аналiзу соцiальних мереж як середовища шформацмних вiйн // VI Мiжнародна науково-прак-тична конференцiя «Методи та засоби кодування, захисту й ущтьнення шформацп» : тези доповiдей (м. Вшниця, 24-25 жовтня 2017 р.). Вшни-ця : ВНТУ, 2017. С. 76-80. URL: https://ir.lib.vntu. edu.ua/bitstream/handle/123456789/27958/76-86ycc0hnc6o8o3xgkr97hrynqd5m0obr. pdf?sequence=1&isAllowed=y

2. Горчинская О., Ривкин А. Анализ данных социальных сетей. Открытые системы. 2015. Вып. 03. С. 22-23. URL: http://www.fors.ru/upload/smi/Open-Systems_ Gorchinskaya-Rivkin_09-2015.pdf

3. Мазуренко В. В., Штовба С. Д. Огляд моделей аналiзу сощальних мереж. Всник ВНницького полiтехнiчно-го нституту. 2015. № 2. С. 62-74. URL: https://ir.lib. vntu.edu.ua/bitstream/handle/123456789/11950/813-812-1-PB.pdf?sequence=1&isAllowed=y

4. Adeli H., Siddique N. Introduction to Computational Intelligence // Computational Intelligence: Synergies of Fuzzy Logic, Neural Networks and Evolutionary Computing. Oxford, UK : John Wiley & Sons Ltd, 2013. P. 1-17.

5. Aggarwal C. (ed.) Social Network Data Analytics. Boston, MA : Springer US, 2011. URL: http://www.charuag-garwal.net/socialtoc.pdf

6. Amodei D., Christiano P., Mané D., Olah C., Schulman J., Steinhardt J., Concrete Problems in AI Safety. 2016. URL: https://arxiv.org/pdf/1606.06565.pdf

7. Armour F., Espinosa J., Kaisler S., Money W. Big Data: Issues and Challenges Moving Forward // 46th Hawaii International Conference on System Sciences, 2013. P. 995-1004. DOI: 10.1109/HICSS.2013.645

8. Armstrong M., Bachrach Y., Sharma V., Volkova S. Inferring Latent User Properties from Texts Published in Social Media // Proceedings of the Twenty-Ninth AAAI Conference on Artificial Intelligence, 2015. P. 42964297. URL: https://www.cs.jhu.edu/~svitlana/papers/ VBAS-aaai15-demo.pdf

9. Cambria E., Hussain A. Introduction in Sentic Computing. Springer International Publishing, 2015. P. 1-21.

10. Chen B.-W., Du X., Jiang F., Rho S., Zhao D. Face hallucination and recognition in social network services. The Journal of Supercomputlng. 2015. Vol. 71. No. 6. P. 2035-2049.

DOI: 10.1007/s11227-014-1257-z

11. Csárdi G., Kolaczyk E. Statistical Analysis of Network Data with R. Journal of Statistical Software. 2015. Vol. 66. Book review 1.

DOI: 10.18637/jss.v066.b01

12. D'Orazio F. The future of social media research: or how to re-invent social media listening in 10 steps. 2013 // Pulsar. URL: https://www.pulsarplatform.com/resourc-es/the-future-of-social-media-research/

13. Gandomi A., Haider M. Beyond the hype: Big data concepts, methods, and analytics. International Journal of Information Management. 2015. Vol. 35. Issue 2. P. 137-144.

DOI: https://doi.org/10.1016/j.ijinfomgt.2014.10.007

14. Hansen D., Shneiderman B., Smith M. Analyzing Social Media Networks with NodeXL: Insights from a Connected World. Morgan Kaufmann, 2011. 304 p. URL: https:// www.sciencedirect.com/book/9780123822291/ana-lyzing-social-media-networks-with-nodexl#book-info

15. Ruths D., Pfeffer J. Social media for large studies of behavior. Science. 2014. Vol. 346. Issue 6213. P. 10631064. URL: https://people.cs.umass.edu/~brenocon/ smacss2015/papers/Science-2014-Ruths-1063-4.pdf

16. Lin H., Meng J., Yu Y., Zhao Z. Visual and Textual Sentiment Analysis of a Microblog Using Deep Convolu-tional Neural Networks. Algorithms. 2016. Vol. 9. No. 2. P. 41-52.

DOI: 10.3390/a9020041

17. AI Is Transforming Google Search. The Rest of the Web is Next / WIRED, 2016. URL: https://www.wired. com/2016/02/ai-is-changing-the-technology-behind-google-searches/

18. Tufecki Z. Big Questions for Social Media Big Data: Representativeness, Validity and Other Methodological Pitfalls // ICWSM '14: Proceedings of the 8th International AAAI Conference on Weblogs and Social Media, 2014. P. 876-894. URL: https://arxiv.org/abs/1403.7400

Науковий кер1вник - Чала Т. Г., кандидат економнчних наук, доцент кафедри статистики, обл^у та аудиту Харгавського нацюнального ушверситету iM. В. Н. Каразша

REFERENCES

"AI Is Transforming Google Search. The Rest of the Web is Next". WIRED, 2016. https://www.wired.com/2016/02/ ai-is-changing-the-technology-behind-google-searches/

Adeli, H., and Siddique, N. "Introduction to Computational Intelligence". In Computational Intelligence: Synergies of Fuzzy Logic, Neural Networks and Evolutionary Computing, 1-17. Oxford, UK: John Wiley & Sons Ltd, 2013.

Amodei, D. et al. "Concrete Problems in AI Safety". 2016. https://arxiv.org/pdf/1606.06565.pdf

Armour, F. et al. "Big Data: Issues and Challenges Moving Forward". 46th Hawaii International Conference on System Sciences, 2013. 995-1004. DOI: 10.1109/HICSS.2013.645

Armstrong, M. et al. "Inferring Latent User Properties from Texts Published in Social Media". Proceedings of the Twenty-Ninth AAAI Conference on Artificial Intelligence, 2015. https://www.cs.jhu.edu/~svitlana/pa-pers/VBAS-aaai15-demo.pdf

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Cambria, E., and Hussain, A. Introduction in Sentic Computing. Springer International Publishing, 2015.

Chen, B.-W. et al. "Face hallucination and recognition in social network services". The Journal of Supercomputing, vol. 71, no. 6 (2015): 2035-2049. DOI: 10.1007/s11227-014-1257-z

Csardi, G., and Kolaczyk, E. "Statistical Analysis of Network Data". R. Journal of Statistical Software, vol. 66 (2015), book review 1. DOI: 10.18637/jss.v066.b01

D'Orazio, F. "The future of social media research: or how to re-invent social media listening in 10 steps. 2013". P u l sa r. htt ps://www.p u lsarplatform.com/resou rces/ the-future-of-social-media-research/

Gandomi, A., and Haider, M. "Beyond the hype: Big data concepts, methods, and analytics". International Journal of Information Management, vol. 35, no. 2 (2015): 137-144.

DOI: https://doi.org/10.10167j.ijinfomgt.2014.10.007 Gorchinskaya, O., and Rivkin, A. "Analiz dannykh sotsial-nykh setey" [Social Network Data Analysis]. Otkrytyye sistemy. 2015. http://www.fors.ru/upload/smi/Open-Systems_Gorchinskaya-Rivkin_09-2015.pdf Hansen, D., Shneiderman, B., and Smith, M. "Analyzing Social Media Networks with NodeXL: Insights from a Connected World". Morgan Kaufmann, 2011. https:// www.sciencedirect.com/book/9780123822291/ana-lyzing-social-media-networks-with-nodexl#book-info Lin, H. et al. "Visual and Textual Sentiment Analysis of a Mi-croblog Using Deep Convolutional Neural Networks". Algorithms, vol. 9, no. 2 (2016): 41-52. DOI: 10.3390/a9020041 Mazurenko, V. V., and Shtovba, S. D. "Ohliad modelei analizu sotsialnykh merezh" [Overview of Models for Social Network Analysis]. Visnyk Vinnytskoho politekh-nichnoho instytutu. 2015. https://ir.lib.vntu.edu.ua/

bitstream/handle/123456789/11950/813-812-1-PB. pdf?sequence=1&isAllowed=y Ruths, D., and Pfeffer, J. "Social media for large studies of behavior". Science. 2014. https://people.cs.umass. edu/~brenocon/smacss2015/papers/Science-2014-Ruths-1063-4.pdf "Social Network Data Analytics". Boston, MA : Springer US,

2011. http://www.charuaggarwal.net/socialtoc.pdf Tufecki, Z. "Big Questions for Social Media Big Data: Representativeness, Validity and Other Methodological Pitfalls". ICWSM'14: Proceedings of the 8th International AAAI Conference on Weblogs and Social Media, 2014. https://arxiv.org/abs/1403.7400 Voitovych, O., Buda, A., and Holovenko, V. "Doslidzhennia metodiv analizu sotsialnykh merezh yak seredovyshcha informatsiinykh viin" [Analyses Methods Research of Social Networks as a Environment of Warfare]. Metody ta zasoby koduvannia, zakhystu i ushchilnennia in-formatsii. 2017. https://ir.lib.vntu.edu.ua/bitstream/ handle/123456789/27958/76-86ycc0hnc6o8o3xg-kr97hrynqd5m0obr.pdf?sequence=1&isAllowed=y

<

0

1

o <

o

<

s

W

272 BI3HECIHQOPM № 2 '2020

www.business-inform.net

i Надоели баннеры? Вы всегда можете отключить рекламу.