Научная статья на тему 'КЛАСТЕРНИЙ АНАЛіЗ ВИКОРИСТАННЯ ТА РОЗПОВСЮДЖЕННЯ ІНТЕРНЕТ-ТЕХНОЛОГіЙ У РЕГіОНАХ УКРАїНИ'

КЛАСТЕРНИЙ АНАЛіЗ ВИКОРИСТАННЯ ТА РОЗПОВСЮДЖЕННЯ ІНТЕРНЕТ-ТЕХНОЛОГіЙ У РЕГіОНАХ УКРАїНИ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
113
16
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МЕТОДИ КЛАСТЕРИЗАЦії / іНФОРМАЦіЙНО-КОМУНіКАЦіЙНі ТЕХНОЛОГії / АНАЛіЗ / АЛГОРИТМИ / ДОСЛіДЖЕННЯ / МЕТОДЫ КЛАСТЕРИЗАЦИИ / ИНФОРМАЦИОННО-КОММУНИКАЦИОННЫЕ ТЕХНОЛОГИИ / АНАЛИЗ / АЛГОРИТМЫ / ИССЛЕДОВАНИЯ / CLUSTERING METHODS / INFORMATION AND COMMUNICATION TECHNOLOGIES / ANALYSIS / ALGORITHMS / RESEARCH

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Туманов Олексій Олександрович

За останні десятиліття розвиток і розповсюдження Інтернет-технологій набули величезних обертів. Використання мобільного Інтернету значно прискорило цей процес. Людям більше не потрібно залишатися вдома або в офісі, щоб перебувати в Інтернет-мережі, а деякі навіть повністю перенесли свою роботу в онлайн-середовище. Одними з важливих елементів цього середовища є соціальні мережі, блоги та інші засоби масової інформації. Соціальні медіа швидко набули популярності, оскільки дають можливість людям спілкуватися та ділитися думками. Велике значення має автоматизований аналіз даних для отримання значущої інформації, яка необхідна потенційному бізнесу, користувачам і споживачам. Для того, щоб краще вивчити використання соціальних медіа, спочатку потрібно зосередитися на загальному підході та знайти надійні показники. Ці показники можуть бути даними інформаційно-комунікаційних технологій (ІКТ), які тепер впливають на кожен аспект життя людини. Вони відіграють значну роль на робочому місці, у бізнесі, освіті та розвагах. Дана стаття включає огляд алгоритмів загальних методів кластеризації та посилання на дослідження, зроблені за останні роки, які використовували відповідні алгоритми: 1) на основі поділів; 2) на основі ієрархії; 3) на гібридній основі та 4) на основі щільності. Досліджено використання та розповсюдження Інтернет-технологій у регіонах Україні. Інформаційною базою дослідження є показники наявної ІКТ-інфраструктури в областях України у 2018 р. На основі даних використання Інтернету в регіонах України проведено кластерний аналіз та надано візуалізацію розподілів на отримані групи.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

CLUSTER-ANALYZING THE USE AND SPREAD OF INTERNET TECHNOLOGIES IN THE REGIONS OF UKRAINE

In recent decades, the development and spread of Internet technologies have gained enormous momentum. The use of the mobile Internet has greatly accelerated this process. People no longer need to stay at home or in an office to stay online, and some have even completely moved their work to an online environment. Social network, blogs and mass media are important elements of this environment. Social media quickly gained popularity as it enables people to communicate and share their thoughts. Automated data analysis is important to obtain meaningful information that potential businesses, users, and consumers need. In order to better learn the use of social media, the first necessity is to focus on the overall approach and find reliable indicators. These indicators can be presented by information and communication technologies (ICT) data that impact all aspects of human life. They play a significant role in work, business, education and entertainment. This article includes an overview of the algorithms of common clustering methods and references to the studies carried out in recent years that have used appropriate algorithms: 1) based on division; 2) based on hierarchy; 3) on a hybrid basis and 4) based on density...In recent decades, the development and spread of Internet technologies have gained enormous momentum. The use of the mobile Internet has greatly accelerated this process. People no longer need to stay at home or in an office to stay online, and some have even completely moved their work to an online environment. Social network, blogs and mass media are important elements of this environment. Social media quickly gained popularity as it enables people to communicate and share their thoughts. Automated data analysis is important to obtain meaningful information that potential businesses, users, and consumers need. In order to better learn the use of social media, the first necessity is to focus on the overall approach and find reliable indicators. These indicators can be presented by information and communication technologies (ICT) data that impact all aspects of human life. They play a significant role in work, business, education and entertainment. This article includes an overview of the algorithms of common clustering methods and references to the studies carried out in recent years that have used appropriate algorithms: 1) based on division; 2) based on hierarchy; 3) on a hybrid basis and 4) based on density. The use and spread of Internet technologies in the regions of Ukraine are researched. The information base of the research is indicators of the existing ICT infrastructure in the regions of Ukraine as of year 2018. Based on the data on Internet use in the regions of Ukraine, a cluster analysis was conducted and visualization of distribution to the resulted groups was presented.

Текст научной работы на тему «КЛАСТЕРНИЙ АНАЛіЗ ВИКОРИСТАННЯ ТА РОЗПОВСЮДЖЕННЯ ІНТЕРНЕТ-ТЕХНОЛОГіЙ У РЕГіОНАХ УКРАїНИ»

УДК 303.722.4:[332.132:004](477) JEL: L86

КЛАСТЕРНОМ АНАЛ1З ВИКОРИСТАННЯ ТА РОЗПОВСЮДЖЕННЯ 1НТЕРНЕТ-ТЕХНОЛОГ1И

У РЕГ1ОНАХ УКРА1НИ

®2020 ТУМАНОВ О. О.

УДК 303.722.4:[332.132:004](477) JEL: L86

Туманов О. О. Кластерний аналiз використання та розповсюдження lнтернет-технологiй у perioHax УкраТни

За остами: десятилття розвиток i розповсюдження 1нтернет-технологШ набули величезних оберт'в. Використання мобльного 1нтернету значно прискорило цей процес. Людям бльше не потрiбно залишатися вдома або в офiсi, щоб перебувати в 1нтернет-мереж'1, а деяк навiть по-вшстю перенесли свою роботу в онлайн-середовище. Одними з важливих елемент'в цього середовища е со^альш мереж'>, блоги та шш'> засоби масово'1 iнформацi¡. Соцiальнiмед'ш швидко набули популярностi, оскльки дають можливкть людям стлкуватися та д'шитися думками. Велике значення мае автоматизований анал'з даних для отримання значущо¡iнформацi¡, яка необхiдна потенцшному бiзнесу, користувачам i спожива-чам. Для того, щоб краще вивчити використання со^альних мед'ш, спочатку потр'бно зосередитися на загальному пiдходi та знайти надшт показники. Ц показники можуть бути даними iнформацiйно-комунiкацiйних технологй (1КТ), як тепер впливають на кожен аспект життя людини. Вони в'дграють значну роль на робочому мщ, у бiзнесi, освт та розвагах. Дана стаття включае огляд алгоритмiв загальнихметод'в кластеризаци та посилання на дотдження, зроблен за остант роки, як використовували в'дпов'дт алгоритми: 1) на основi подЫв; 2) на основi 'крархн; 3) на г'бридн'ш основi та 4) на основi щiльностi. Досл'джено використання та розповсюдження Iнтернет-технолог'ш у регонах Укра¡нi. 1нформацшною базою дотдження е показники наявноi 1КТ-шфраструктури в областях Украни у 2018 р. На основi даних використання 1нтернету в регонах Украни проведено кластерний анал'в та надано вiзуалiзацiю розподтв на отриман групи. Ключов'! слова:методи кластеризаци, iнформацiйно-комунiкацiйнi технологи, анал'з, алгоритми, дотдження. DOI: https://doi.org/10.32983/2222-4459-2020-3-244-252 Рис.: 4. Табл.: 2. Ббл.: 17.

Туманов Олекай Олександрович - здобувач кафедри статистики, облку та аудиту, Харювський нацональний унверситет iм. В. Н. Карата (пл. Свободи, 4, Харт, 61022, Украна) E-mail: oleksii. tumanov@gmail. com ORCID: http://orcid.org/0000-0003-0674-0037

УДК 303.722.4:[332.132:004](477) JEL: L86

Туманов А. А. Кластерный анализ использования и распространения Интернет-технологий в регионах Украины

За последние десятилетия развитие и распространение Интернет-технологий приобрели огромные обороты. Использование мобильного Интернета значительно ускорило этот процесс. Людям больше не нужно оставаться дома или в офисе, чтобы находиться в Интернет-сети, а некоторые даже полностью перенесли свою работу в онлайн-среду. Одними из важных элементов этой среды являются социальные сети, бло-ги и другие средства массовой информации. Социальные медиа быстро приобрели популярность, так как дают возможность людям общаться и делиться мыслями. Большое значение имеет автоматизированный анализ данных для получения значимой информации, которая необходима потенциальному бизнесу, пользователям и потребителям. Для того, чтобы лучше изучить использование социальных медиа, сначала нужно сосредоточиться на общем подходе и найти надежные показатели. Эти показатели могут быть представлены данными информационно-коммуникационных технологий (ИКТ), влияющих на все аспекты жизни человека. Они играют значительную роль на работе, в бизнесе, образовании и развлечениях. Данная статья включает обзор алгоритмов общих методов кластеризации и ссылки на исследования, сделанные за последние годы, которые использовали соответствующие алгоритмы: 1) на основе деления; 2) на основе иерархии; 3) на гибридной основе и 4) на основе плотности. Исследованы использование и распространение Интернет-технологий в регионах Украины. Информационной базой исследования являются показатели имеющейся ИКТ-инфраструктуры в областях Украины в 2018 году. На основе данных использования Интернета в регионах Украины проведен кластерный анализ и представлена визуализация распределений на полученные группы. Ключевые слова: методы кластеризации, информационно-коммуникационные технологии, анализ, алгоритмы, исследования. Рис.: 4. Табл.: 2. Библ.: 17.

Туманов Алексей Александрович - соискатель кафедры статистики, учета и аудита, Харьковский национальный университет им. В. Н. Каразина (пл. Свободы, 4, Харьков, 61022, Украина) E-mail: oleksii. tumanov@gmail. com ORCID: http://orcid.org/0000-0003-0674-0037

UDC 303.722.4:[332.132:004](477) JEL: L86

Tumanov O. O. Cluster-Analyzing the Use and Spread of Internet Technologies in the Regions of Ukraine

In recent decades, the development and spread of Internet technologies have gained enormous momentum. The use of the mobile Internet has greatly accelerated this process. People no longer need to stay at home or in an office to stay online, and some have even completely moved their work to an online environment. Social network, blogs and mass media are important elements of this environment. Social media quickly gained popularity as it enables people to communicate and share their thoughts. Automated data analysis is important to obtain meaningful information that potential businesses, users, and consumers need. In order to better learn the use of social media, the first necessity is to focus on the overall approach and find reliable indicators. These indicators can be presented by information and communication technologies (ICT) data that impact all aspects of human life. They play a significant role in work, business, education and entertainment. This article includes an overview of the algorithms of common clustering methods and references to the studies carried out in recent years that have used appropriate algorithms: 1) based on division; 2) based on hierarchy; 3) on a hybrid basis and 4) based on density. The use and spread of Internet technologies in the regions of Ukraine are researched. The information base of the research is indicators of the existing ICT infrastructure in the regions

244 Б1ЗНЕС1НФОРМ № 3 '2020

www.business-inform.net

of Ukraine as of year 2018. Based on the data on Internet use in the regions of Ukraine, a cluster analysis was conducted and visualization of distribution to the resulted groups was presented.

Keywords: clustering methods, information and communication technologies, analysis, algorithms, research. Fig.: 4. Tabl.: 2. Bibl.: 17.

Tumanov Oleksii O. - Applicant of the Department of Statistics, Accounting and Auditing, V. N. Karazin Kharkiv National University (4 Svobody Square, Kharkiv, 61022, Ukraine)

E-mail: oleksii. tumanov@gmail. com ORCID: http://orcid.org/0000-0003-0674-0037

Узв'язку з розвитком шформацшно-комушка-цшних технологш значна увага придкяеть-ся !х використанню в науково-дослкницькш сфер1 Зростання ккькосп шформаци в мережi 1н-тернет породжуе штерес до вивчення ще! сфери як джерела даних для наукових дослкжень. За даними цифрових звтв We Are Social та Hootsuite, у 2019 р. ккьшсть користувачiв 1нтернетом в УкраМ ста-новить 40,91 млн оаб [14]. Сощальш медiа стають об'ектом для аналiзу поведшки користувачiв за допо-могою рiзноманiтних наукових методiв. Одним iз них е кластеризащя. Методи кластеризаци застосовують-ся для проведення територiальноI диференцiацГi, для аналiзу соцiальноi поведiнки у сферах людсько! дiяль-ностi, для розв'язання рiзноманiтних завдань, таких як пристосування реклами для груп iз подiбними ш-тересами, прогнозування подiй тощо.

У вичизнянш лiтературi дослiдження з вико-ристанням кластерного аналiзу в основному зосе-редженi на загальних соцiально-економiчних сферах, таких як ринок пращ, скьськогосподарський сектор, фiнансовий ринок тощо. Дослкнишв, що мають пращ у цiй сферi, дуже багато: Беркут О. [1], Богданова Г. [2], брша А. [3], Корепанов Г. [4], Корепанов О. [5], Лазебник Ю. [4], Меркулова Т. [2], Пономарьова Т. [4], Рядно О. [1], Степанов О. [5] та ш. Проте вивчення шформацшно-комушкацшного сектора, й особливо сощальних медiа, що поширеш в мережi 1нтернет, е недостатньо поширеним у вичизнянш лiтературi та потребуе подальших дослiджень.

Тенденцiя до вивчення безпосередньо сощальних медiа мае широке розповсюдження в зарубiжнiй лиературь Так, дуже цiкавими е пращ таких учених, як Вiсенте М. (Vicente M.) [10], Iфрiм Дж. (Ifrim G.) [11], Заде Л. (Zadeh L.) [7], Матей К. Дж. (Mathai K. J.) [17], Фрiдман В. (Friedemann V.) [13] та ш. У сво!х пра-цях дослiдники використовують рiзнi методи класи-фiкацii при дослкженш соцiальноI мережi Twitter на базi хештегiв.

Метою дано! роботи е розгляд основних мето-дiв, що використовуються в ходi кластерного аналь зу, та !х адаптацiя для видкення однорiдних регiонiв Укра!ни за рiвнем розвитку IКТ-iнфраструктури та напрямами використання мережi 1нтернет.

Кластерний аналiз е важливим статистичним iнструментом щодо багатовимiрного аналiзу даних. Вiн включае складш прийоми, методи та алгоритми,

яю можна застосовувати в pi3HMx сферах, включаючи економку та сощальш доЫдження. Метою кластерного аналiзy е визначення груп подiбниx об'екпв в1д-повiдно до вибраних змшних. Кластерний аналiз, як правило, використовуеться на початку дослкження, коли дослкник не мае заздалегiдь обраних гшотез чи використовуваного статистичного методу. На в1д-мiнy вiд регресiйного аналiзy, для проведення якого потрiбно забезпечити виконання ряду умов: вимоги нормальносп, використання ткьки кiлькiсниx ознак, обмеження, багатовимiрний розпод1л та iншi, для кластерного аналiзy вони не е обов'язковими [3].

Загальновживаш методи кластеризаци подь ляються на два основш типи: а) iерарxiчнi та б) иеративш (неiерарxiчнi). IepapxiHHi методи кластеризаци передбача-ють послiдовне об'еднання елеменпв (об'ектiв), або послiдовний розподiл сукупносп об'ектiв. При ви-користаннi агломерацшного iерарxiчного методу на початку кнуе стiльки ж кластерiв, скiльки об'екпв. Найбiльш подiбнi об'екти зливаються у групи, i цi початковi групи об'еднуються вiдповiдно до i'x подь бностi. У разi, якщо схожкть зменшуеться, всi шдгру-пи зливаються в единий кластер.

Роздкьш iерарxiчнi методи працюють у зворот-ному напрямку. Початкова едина група об'екпв подь ляеться на двi шдгрупи так, що об'екти в однш шд-грyпi знаходяться далеко в1д об'ектiв в iншiй пiдгрyпi. Кожна з цих шдгруп далi також подкяеться на шд-групи. Процес тривае до тих тр, поки не буде сткьки ж шдгруп, сккьки об'ектiв, тобто поки кожен об'ект не сформуе окрему групу. Результати обох агломера-тивних методiв подку можуть бути вiдображенi у ви-глядi двовимiрноi дiаграми, вкомо! як дендрограма.

Дендрограма 1люструе злиття або подки, якi були зроблеш на послiдовниx рiвняx.

Дж. Iфрiм (G. Ifrim) у сво!й робот щодо вияв-лення тем у Twitter використовуе iерарxiчнy класте-ризацш, спираючись на агресивну фiльтрацiю твтв / термiнiв [11].

Н. Каур (N. Kaur) у своему дослкженш засто-совуе iерарxiчний пiдxiд для того, щоб допомогти користувачам краще розyмiти твiти, групуючи 'ix у кластери. Мета останнього дослкження полягала в тому, щоб менша ккьшсть кластерiв була щiльно сконцентрована. Робота включала використання на-

бору даних твтв, щоб побачити, як BM6ip функцй вiдстанi впливае на поведшку алгоритмiв iepapxi4H0i кластеризацй. Для динамiчного створення широких категорiй подiбниx твiтiв на основi появи iменникiв запропоновано iнтегрований iерарxiчний пiдxiд агло-меративно'' та подiльноi кластеризацй' [16].

Наразi вiдомi такi типи зв'язшв: f одноразове з'еднання (мiнiмальна вкстань,

або метод найближчого сусiда); f повне з'еднання (максимальна вiдстань, або

метод найдальшого сусiда); f середнш зв'язок.

Також iснують iншi методи iерарxiчноi кластеризацй', такi як метод Уорда та центро'дний метод.

Меративт методи кластеризацй призначеш для групування елеменпв не послiдовно, а одночас-но iз ураxуванням уск обраниx показникiв. Кiлькiсть кластерiв може бути визначена заздалепдь або в xодi процедури кластеризацй'. Оскiльки непотрiбно ви-значати заздалегiдь матрицю вксташ та основнi данi не зберкаються пiд час роботи комп'ютера, то гге-ративнi методи можуть застосовуватися до значно бкьшж наборiв данж, нiж iерарxiчнi методи. Не-iерарxiчнi методи починаються або з: 1) початкового розподку елементiв на групи, або 2) з початкового набору точок, як формують ядро кластера.

Метод к-середнк е найб1льш яйсною та популярною iтеративною теxнiкою кластеризацй'. Для визначено!' кiлькостi кластерiв осно-вний алгоритм передбачае виконання такиx крокiв:

1. Визначити параметр k i роздiлити об'екти на k початковиx кластерiв. Число цж кластерiв може бути визначене користувачем або може бути обране програмою в^повкно до довкьно'' процедури.

2. Обчислити середш або центро'ди кластерiв.

3. Для обраного об'екта обчислити його вкстань до кожного центро'да. Якщо об'ект знаxодиться най-ближче до центру власного кластера, залишити його в цьому кластер^ в iншому випадку взнести його до кластера, центро'д якого найближчий до нього.

4. Повторити крок 3 для кожного випадку.

5. Повторити кроки 2, 3 i 4, поки ва об'екти бу-дуть у «сво'х» кластераx.

В. Фрiдман у сво'й роботi використала метод k-середнix для кластеризацй' ^енпв компани Nike на базi соцiальноi мережi Twitter [13]. За допомогою цього методу вона побудувала функцй' з масивного набору данж Twitter та кластеризувала Ix, викорис-товуючи мiру подiбностi для створення угруповань користувачiв.

Р. Сош та К. Дж. Матей (R. Soni, K. J. Mathai) [17] запропонували використання моделi «кластер - про-гнозування» для полiпшення точносп прогнозування настро'в у Twitter за допомогою складу навчального та контрольованого навчання. Цей алгоритм був об-раний, осккьки вш забезпечуе задовкьний компро-мiс мiж точнiстю, штерпретащею та часом виконання.

Удосконаленим методом ^-середнк е метод Fuzzy C-means (FCM) - нечико! класифiкацiI с-серед-н1х.

Л. Заде (L. Zadeh) разом з шшими вченими [7] у своему дослкженш використав метод FCM для ана-лiзу сощально! мережi Twitter. Цей метод на основi роздiлiв особливо пiдходить у випадку нечккого групування в наборi даних. Отриманi в ходi дослкжен-ня нечiткi кластери були використаш для отримання уявлень щодо моделей популярностi хештегiв та часо-вих тенденцiй. Щоб проаналiзувати динамку хеште-гiв, автори вид1лили групи хештепв, якi мають схожi часовi уподобання, та вивчили мовнi характеристики. Вони визнали найбкьш i найменш репрезентативнi хештеги цих груп. Прийнята методолопя базуеться на нечiткiй кластеризацй', i за результатами кластерiв було зроблено багато висновшв щодо варiацiй хеште-гiв протягом певного перюду часу. 1х кластеризацiя грунтувалася на тому, що категоризацiя хештегiв не е чккою, скорiше, бiльшiсть точок даних належать до деккькох кластерiв вiдповiдно до певних ступенiв належност [7].

М. Вiсенте (M. Vicente), разом зi спiвавторами, враховуючи лише неструктуровану шформацш, до-ступну для кожного твку в профiлi користувача, використав FCM-метод для гендерно! класифiкацiI ко-ристувачiв [10].

Щ

ших алгОр

е одним iз методiв кластеризацii, якому варто придкити увагу, е кластеризацiя на , основi щiльностi. Одним iз найпоширеш-Зритмiв кластеризацй на основi щкьносп, а також найбiльш цитованим у науковш лггерату-рi е алгоритм DBSCAN (англ. - density-based spatial clustering of applications with noise). Для задано! мно-жини точок у деякому просторi цей алгоритм вкно-сить в одну групу точки, яю розташоваш найбкьш щкьно (точки з багатьма сусками), та розмiчае точки, якi лежать в областях з невеликою щкьшстю (чи! сyсiди розташованi занадто далеко) як викиди [12].

У дослкженш Е. Баралiз (E. Baralis) та шших вчених кластеризащя на основi щiльностi була вико-ристана в контекст аналiзy текстових даних Twitter, щоб виявити згуртовану шформацш, розмщену ко-ристувачами про подiю, а також уявлення користувача про не!' [9]. Запропонований фреймворк приймае стратегго кластеризацй, яка фокусуеться на дкянках набору даних итеративно та кентифкуе кластери локально. DBSCAN був використаний у xодi кластерного аналiзy, осккьки вш дозволяе виявити кластери довкьно! форми, а також шдвищуе однорiднiсть кластера, фкьтруючи шум i викиди. ^м того, вiн не вимагае попереднього уточнення ккькосп очку-ваних кластерiв у даних. У цьому шдх^ DBSCAN застосовуеться iтеративно на нероздкьних дiлянкаx набору даних, i ва почaтковi набори даних кластеризован на першому рiвнi. Потiм твiти, познaченi як

застарш на попередньому р1вш, перегрупуються на кожному наступному р1вш.

Нещодавно проведене досл1дження представило застосування БББСЛЫ для вид1лення значущих сегмент1в твтв у пакетному режим1 [8]. Сегментацш проводили на основ1 розрахунк1в ощнки «клейкост1». Цей показник враховуе ймов1ршсть того, що сегмент е фразою в парти тв1т1в (тобто локальний контекст) 1 ймов1ршсть того, що вш е фразою англ1йською мо-вою (тобто глобальний контекст) [15]. Пот1м сенти-ментальн1 вар1ащ! твтв були проанал1зоваш на осно-в1 цих сегмент1в. Кожному слову в текст1 присвоюва-лася оц1нка настрою в1дпов1дно до заздалег1дь визна-чено! лексики настро!в. Пот1м почуття твиу позна-чаеться як п1дсумок найбкьш позитивно! оц1нки та негативно! ощнки серед окремих сл1в у твт. Б1льше того, цей метод е менш чутливим до викид1в та шуму 1 не вимагае початково! 1дентиф1кацГ! необх1дно! ккь-кост1 кластер1в. Однак для кластеризацГ! великих об-сяг1в даних потр1бен великий об'ем память

Як бачимо, методи кластерного анал1зу дуже р1зноман1тн1 та можуть задовольнити будь-як потреби досл1дник1в. Для досягнення мети да-ного досл1дження автором було обрано кластериза-щю за методом Уорда та /т-середшх.

За допомогою программ STATISTICA 6.0, за даними вмбiркового обстеження умов жмття домо-господарств Укра!ни щодо доступу до 1нтернету у 2018 р. було проведено кластерний аналiз регюшв Укра!ни на основi наявно! 1нформацГ!, що стосуеться IКТ-iнфраструктури та напрямiв використання сощ-альних медiа [6].

По-перше, проведемо аналiз наявно! 1КТ-шфра-структури в регiонах Укра!ни у 2018 р. (рис. 1).

У ходi аналiзу використовувалися таю показники: f Varl - юльйсть домогосподарств, якi мають

доступ до послуг 1нтернету вдома; f Var2 - населення, яке повiдомило, що за останш 12 мiсяцiв користувалося послугами 1нтернету;

f Var3 - абоненти рухомого (моб1льного) зв'язку; f Var4 - абоненти кабельного телебачення; f Var5 - абоненти 1нтернету.

Як бачимо, на дiаграмi что вид1ляються три основнi кластери.

Отже, такий попереднш розпод1л регiонiв на групи зумовив вибiр параметра k = 3 при застосуван-ш iтерацiйного методу k-середнiх (табл. 1).

На вiдмiну вiд iерархiчно! процедури Уорда, гге-рацiйна процедура оперуе безпосередньо первинни-ми даними, в ходi яко! формуються кластери одного рангу, iерархiчно не пiдпорядкованi.

Tree Diagram for 24 Cases Wards method Euclidean distances

Вшницька Ки!вська Микола!вська Полтавська Сумська Чернтвська Луганська Запор1зька Волинська Херсонська Терноптьська Хмельницька Черкаська Р1вненська Черывецька Житомирська Юровоградська Закарпатська 1вано-Франк1вська Днтропетровська Донецька Льв1вська Харювська Одеська

10 15

Linkage Distance

20

25

Рис. 1. Групування регюшв Украши за наявною IКТ-iнфраструктурою у 2018 р. методом Уорда Джерело: авторська розробка.

0

1

о С

о

<

о

Ш

0

5

Кластеризащя perioHiB УкраТни за наявною IКТ-iнфраструктурою у 2018 р. методом k-середнiх

Номер кластера Област УкраТни, що увiйшли до кластера

1 Днтропетровська, Донецька, Львiвська, Одеська, Харшська

2 Вiнницька, Запорiзька, Кш'вська, Луганська, Микола!вська, Полтавська, Сумська, Чернiгiвська

3 Волинська, Житомирська, Закарпатська, 1вано-Франшська, Кiровоградська, Рiвненська, Терноптьська, Херсонська, Хмельницька, Черкаська, Чернiвецька

Джерело: авторська розробка.

Алгоритм /т-середшх реал1зуе 1дею утворення груп за принципом «найближчого центра».

У ход1 реал1зацИ методу £-середшх були обчис-лен1 середн1 нормоваш значення показник1в для кожного з виокремлених кластер1в, за якими можна впо-рядкувати вид1лен1 групи регюшв за р1внем наявно! 1КТ-шфраструктури (рис. 2).

Перший кластер, до якого увшшли Дншропе-тровська, Донецька, Льв1вська, Одеська та Харюв-ська обласп, мае найвищий р1вень розвитку 1КТ-1нфраструктури. Найнижчий р1вень розвитку 1КТ-1нфраструктури у 2018 р. мають област1, як1 ув1йшли в третш кластер, а саме: Волинська, Житомирська, Закарпатська, 1вано-Франк1вська, К1ровоградська, Р1вненська, Терноп1льська, Херсонська, Хмельниць-ка, Черкаська та Черншецька област1.

Також при po3r^i графiка середнiх значень змшних (див. рис. 2) привертае увагу значення змшно'! Var4 - «абоненти кабельного телебачення». У 1 та 2 кластерах значення ще'! змшно! е схожими.

Далi зосередимо увагу на аналiзi користувачiв 1нтернету в Укра!ш Сусп1льство використовуе мережу 1нтернет за рiзними напрямами. Це може бути на-вчання, спккування з друзями, отримання новин, ко-мунiкацiя з органами влади тощо. В ходi аналiзу було використано таю змшш, що стосуються розподку населення за метою користування послугами 1нтер-нету (у % до населення, яке пов^домило, що користу-валося послугами 1нтернету):

f Vari - в^ддравлення (отримання) електронно! пошти;

f Var2 - взаемодiя з органами державно! влади;

Plot of Means for Each Cluster

2,5 2,0 1,5 1,0 0,5 0,0 -0,5 -1,0 -1,5

1-- -

--- 1—— '

л ,___< i---.

■л ►--л --'

Varl

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Var2

Var3 Variables

Var4

Var5

Cluster 1 Cluster 2 Cluster 3

Рис. 2. Середн HopMOBaHi значення показникiв для кластерiв наявно!' 1КТ- iнфраструктури в УкраТж за 2018 р.

(метод k-сеpеднiх)

Джерело: авторська розробка.

+ Var3 - навчання та освгга; + Var4 - читання/скачування газет, журналiв у

режимi онлайн; f Var5 - скачування фiльмiв, зображень, музи-

ки; перегляд телебачення чи в^део тощо; f Var6 - гра у в^део- чи комп'ютерш iгри або !х скачування;

f Var7 - скачування програмного забезпечення; f Var8 - телефоннi переговори через 1нтернет

(Skype, iTalk, через web-камеру); f Var9 - сп1лкування (хоб^; f Var10 - банкiвське обслуговування; f Var11 - пошук шформаци, пов'язано'1 з питан-

нями здоров'я, як для себе, так i для шших; f Var12 - замовлення (кушвля) товарiв та по-слуг;

f Var13 - отримання шформаци щодо товарiв та послуг, не названих ранiше.

Дендрограму групування регюшв Украши за метою користування послугами 1нтернету методом Уорда наведено на рис. 3.

Робимо припущення про дощльшсть розподiлу регiонiв Украши на чотири кластери з використан-ням методу А>середшх. Результати групування наведено в табл. 2.

Графiчне представлення середтх нормованих значень показнишв для кожного з кластерiв, отрима-них у ходi реалiзацГi методу ^-середнк, наведено на рис. 4.

Аналiз даних рис. 4 дозволяе зробити висновок щодо вiдсутностi чггкого розпод1лу регiонiв Украши за напрямами користування мережею 1нтернет у 2018 р., яю значною мiрою залежать вк мiсця користування 1нтернетом. Так, пiд час перебування в офiсi, на роботi користування 1нтернетом в бiльшостi випад-кiв зосереджене на пошуку iнформацГi, що стосуеться роботи, а не спккування з друзями.

ВИСНОВКИ

У статт було розглянуто основш методи кластерного аналiзу, що використовуються в наукових до-слiдженнях, а також адаптовано 1х застосування до те-ритс^ально! диференцiацГi регiонiв Украши за рiзни-ми критерiями. Проведено кластеризацiю регюшв iз урахуванням загально! IКТ-iнфраструктури, а також напрямюв користування послугами мережi 1нтернет.

Встановлено, що Днiпропетровська, Донецька, Львiвська, Одеська та Харкiвська област мали най-вищий рiвень розвитку !КТ-шфраструктури у 2018 р.

Вшницька Днтропетровська Донецька МиколаТвська Сумська Волинська Льв1вська Черкаська Луганська Терноптьська Закарпатська 1вано-Франк1вська Запор1зька Хмельницька Харк1вська Херсонська КиТвська Юровоградська Полтавська Одеська Житомирська Р1вненська Черывецька ЧернИвська

1

Tree Diagram for 24 Cases Wards method Euclidean distances

ь

ь 1—

ь ь

1

\

5 6 7

Linkage Distance

10

11

Рис. 3. Дендрограма групування perioHiB Украши за метою користування послугами 1нтернет у 2018 р. ф

(метод Уорда) ^

Джерело: авторська розробка.

2

3

4

8

9

Кластеризащя perioHiB УкраТни за метою користування послугами мережi 1нтернет у 2018 р. за методом k-середшх

Номер кластера Област УкраТни, що увшшли до кластера

1 Вшницька, Житомирська, КиТвська, Рiвненська, Чершвецька, Чернiгiвська

2 Запорiзька, Харкiвська, Херсонська, Хмельницька

3 Волинська, Днтропетровська, Донецька, Кiровоградська, МиколаТвська, Одеська, Полтавська, Сумська, Черкаська

4 Закарпатська, 1вано-Франшська, Луганська, Львiвська, Тернопiльська

Джерело: авторська розробка.

Plot of Means for Each Cluster

<C

0

1

о <C

Var2 Var4 Var6 Var8

Variables

VarlQ

Var12

Cluster 1 Cluster 2 Cluster 3 Cluster 4

Рис. 4. Середш нopмoванi значення показнимв для кластepiв за метою користування послугами мepeжi 1нтернет

в УкраТш у 2018 р. (метод k-середшх)

Джерело: авторська розробка.

О

<

ш

За напрямами користування мережею 1нтернет чiтких вiдмiнностей мiж видкеними групами perioHiB Украши у 2018 р. не виявлено.

Дослкження використання 1нтернет-послуг е актуальним i потребуе подальшо! роботи в цьому на-пpямi. ■

Л1ТЕРАТУРА

1. Рядно О. А., Беркут О. В. Дослщження структури та динамки диферен^ацп соцiально-економiч-ного розвитку репошв УкраТни на основi кластерного аналiзу. EKOHOMi4Huü всник Донбасу. 2016. № 1. С. 60-67. URL: https://core.ac.uk/download/ pdf/87393771.pdf

4.

Меркулова Т. В., Богданова Г. C. Довiра i со^ально-економiчний розвиток: кластерний аналiз зв'язку показникiв. BicHUK Харювського нацюнального ушверситету iMeHi В. Н. Kapa3iHa. Cepin «EK0H0Mi4-на». 2016. Вип. 91. C. 74-79. URL: https://periodicals. karazin.ua/economy/article/view/8654/8189 £рша А. М. Статистичне моделювання та прогнозу-вання : навч. поаб. / КиТв : КНЕУ, 2014, 348 с. Корепанов Г. С., Лазебник Ю. О., Пономарьова Т. В. Застосування кластерного аналiзу для групування репошв за рiвнем швестицмноТ привабливостК Bi-сник Харювського нацюнального ушверситету iMeHi В. Н. Kapa3iHa. Сeрiя «Економiчна». 2014. Вип. 86. С. 63-70. URL: https://periodicals.karazin.ua/economy/ article/view/5409/4956

5. Корепанов О. С., Степанов О. М. Статистичний ана-лiз ринку прац в УкраTнi методами багатовимiр-ноТ класиф^ацп: регiональний аспект. Проблеми економки. 2017. № 4. С. 384-392. URL: https://www. problecon.com/export_pdf/problems-of-economy-2017-4_0-pages-384_392.pdf

6. Доступ домогосподарств Украши до штернету у 2018 роц (за даними вибiркового обстеження умов життя домогосподарств Украши) : статистичний збiрник. КиТв : Державна служба статистики УкраТ-ни, 2019. 45 с.

7. Zadeh L. A., Abbasov A. M., Shahbazova Sh. N. Analya sis of Twitter Hashtags: Fuzzy Clustering Approach // Fuzzy Information Processing Society (Nafips) Held Jointly with 2015 : 5th World Conference on Soft Computing (WCONSC), 2015. Annual Conference of the North American, IEEE.

DOI: 10.1109/NAFIPS-WConSC.2015.7284196

8. Anumol B., Pattani R. V. Efficient Density Based Clustering of Tweets and Sentimental Analysis Based on Segmentation. International Journal of Computer Techniques. 2016. Vol. 3. Issue 3. P. 53-57. URL: http://www. ijctjournal.org/Volume3/Issue3/IJCT-V3I3P9.pdf

9. Baralis E., Cerquitelli T., Chiusano S., Grimaudo L., Xiao X. Analysis of Twitter Data Using a Multiple-Level Clustering Strategy // International Conference on Model and Data Engineering. Springer, 2013. P. 13-24. URL: https://link.springer.com/chap-ter/10.1007/978-3-642-41366-7_2

10. Vicente M., Batista F., Carvalho J. P. Twitter Gender Classification Using User Unstructured Information // Fuzzy Systems (Fuzz-IEEE) : IEEE International Conference. IEEE, 2015. P. 1-7.

DOI: 10.1109/FUZZ-IEEE.2015.7338102

11. Ifrim G., Shi B., Brigadir I. Event Detection in Twitter Using Aggressive Filtering and Hierarchical Tweet Clustering // Second Workshop on Social News on the Web (Snow). Seoul, Korea, 8 April 2014, ACM. URL: http:// ceur-ws.org/Vol-1150/ifrim.pdf

12. DBSCAN // Вiкiпедiя. URL: https://uk.wikipedia.org/ wiki/DBSCAN

13. Friedemann V. Clustering A Customer Base Using Twitter Data. 2015. URL: https://pdfs.semanticscholar.org/ 08cd/1743d71b9f3e54208871c1562c6083b25f24.pdf

14. Global Digital Report 2019 - We are Social. URL: https://wearesocial.com/global-digital-report-2019

15. Li C., Sun A., Weng J., He Q. Tweet Segmentation and Its Application to Named Entity Recognition. 2015.

DOI: 10.1109/TKDE.2014.2327042

16. Kaur N. A Combinatorial Tweet Clustering Methodology Utilizing Inter and Intra Cosine Similarity. Regina, 2015. URL: https://ourspace.uregina.ca/bitstream/ handle/10294/6549/Kaur_Navneet_200331665_ MASC_SSE_Fall2015.pdf?sequence=1

17. Soni R., Mathai K. J. Improved Twitter Sentiment Prediction Through Cluster-Then-Predict Model. International Journal of Computer Science and Network. 2015. Vol. 4. Issue 4. P. 559-563. URL: https://arxiv.org/ ftp/arxiv/papers/1509/1509.02437.pdf

Науковий керiвник - Чала Т. Г., кандидат економтних наук, доцент кафедри статистики, обл1ку та аудиту Харгавського нацю-нального ушверситету iм. В. Н. Каразша

REFERENCES

Anumol, B., and Pattani, R. V. "Efficient Density Based Clustering of Tweets and Sentimental Analysis Based on Segmentation". International Journal of Computer Techniques. 2016. http://www.ijctjournal.org/Vol-ume3/Issue3/IJCT-V3I3P9.pdf Baralis, E. et al. "Analysis of Twitter Data Using a Multiple-Level Clustering Strategy". International Conference on Model and Data Engineering. Springer, 2013. https://link.springer.com/chapter/ 10.1007/978-3-642-41366-7_2 "DBSCAN". Vikipediia. https://uk.wikipedia.org/wiki/DB-SCAN

Dostup domohospodarstv Ukralny do lnternetu u 2018 rots! (za danymy vyblrkovoho obstezhennla umov zhyttla domohospodarstv Ukralny): statystychnyl zblrnyk [Access of Households of Ukraine to the Internet in 2018 (According to a Sample Survey of Living Conditions of Households in Ukraine): A Statistical Collection]. Kyiv: Derzhavna sluzhba statystyky Ukrainy, 2019. Friedemann, V. "Clustering A Customer Base Using Twitter Data". 2015. https://pdfs.semanticscholar.org/08cd/17 43d71b9f3e54208871c1562c6083b25f24.pdf "Global Digital Report 2019 - We are Social". https://weare-

social.com/global-digital-report-2019 Ifrim, G., Shi, B., and Brigadir, I. "Event Detection in Twitter Using Aggressive Filtering and Hierarchical Tweet Clustering". Second Workshop on Social News on the Web (Snow). 2014. http://ceur-ws.org/Vol-1150/ifrim.pdf Kaur, N. "A Combinatorial Tweet Clustering Methodology Utilizing Inter and Intra Cosine Similarity". Regina, 2015. https://ourspace.uregina.ca/bitstream/han-dle/10294/6549/Kaur_Navneet_200331665_MASC_ SSE_Fall2015.pdf?sequence=1 Korepanov, H. S., Lazebnyk, Yu. O., and Ponomaryova, T. V. "Zastosuvannia klasternoho analizu dlia hrupuvannia rehioniv za rivnem investytsiinoi pryvablyvosti" [Using Cluster Analysis to Regions Grouping by the Degree of Investment Appeal]. Visnyk Kharkivskoho natsionalno-ho universytetu imeni V. N. Karazina. Seriia «Ekonomi-chna». 2014. https://periodicals.karazin.ua/economy/ article/view/5409/4956 Korepanov, O. S., and Stepanov, O. M. "Statystychnyi analiz rynku pratsi v Ukraini metodamy bahatovymirnoi kla-syfikatsii: rehionalnyi aspekt" [Statistical Analysis of the labor Market in Ukraine Using Multidimensional Classification Methods: the Regional Aspect]. Prob-lemy ekonomiky. 2017. https://www.problecon.com/ export_pdf/problems-of-economy-2017-4_0-pag-es-384_392.pdf Li, C. et al. Tweet Segmentatlon and Its Appllcatlon to Named Entlty Recognltlon, 2015. DOI: 10.1109/TKDE.2014.2327042 Merkulova, T. B., and Bohdanova, H. C. "Dovira i sotsialno-ekonomichnyi rozvytok: klasternyi analiz zviazku po-kaznykiv" [Trust and Socio-Economic Development: Cluster Analysis of Parameter Interdependences]. Visnyk Kharkivskoho natsionalnoho universytetu imeni V. N. Karazina. Seriia «Ekonomichna». 2016. https://pe-riodicals.karazin.ua/economy/article/view/8654/8189 Riadno, O. A., and Berkut, O. V. "Doslidzhennia struktury ta dynamiky dyferentsiatsii sotsialno-ekonomichno-

ho rozvytku rehioniv Ukrainy na osnovi klasternoho analizu" [A Study of the Structure and Dynamics of Differentiation of Social and Economic Development of Ukraine Based on a Cluster Analysis]. Ekonomichnyi visnyk Donbasu. 2016. https://core.ac.uk/download/ pdf/87393771.pdf Soni, R., and Mathai, K. J. "Improved Twitter Sentiment Prediction Through Cluster-Then-Predict Model". International Journal of Computer Science and Network. 2015. https://arxiv.org/ftp/arxiv/papers/1509/1509.02437.pdf Vicente, M., Batista, F., and Carvalho, J. P. "Twitter Gender Classification Using User Unstructured Information".

Fuzzy Systems (Fuzz-IEEE) : IEEE International Conference. IEEE, 2015. 1-7. DOI: 10.1109/FUZZ-IEEE.2015.7338102 Yerina, A. M. Statystychne modeliuvannia ta prohnozuvan-nia [Statistical Modeling and Forecasting]. Kyiv: KNEU, 2014.

Zadeh, L. A., Abbasov, A. M., and Shahbazova, Sh. N. "Analysis of Twitter Hashtags: Fuzzy Clustering Approach". Fuzzy Information Processing Society (Nafips) Held Jointly with 2015 : 5th World Conference on Soft Computing (WCONSC). IEEE, 2015. DOI: 10.1109/NAFIPS-WConSC.2015.7284196

<C

0

1

o <C

o

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

<

s

U

252 BI3HECIHQOPM № 3 '2020

www.business-inform.net

i Надоели баннеры? Вы всегда можете отключить рекламу.