Научная статья на тему 'ӘЛЕУМЕТТІК ЖЕЛІЛЕРДЕГІ ЖАЗБАЛАРЫ АРҚЫЛЫ МАШИНАЛЫҚ ОҚЫТУДЫ ҚОЛДАНЫП, АДАМДАРДЫҢ MBTI (MYERS-BRIGGS TYPE INDEX) ТИПІН АНЫҚТАУ'

ӘЛЕУМЕТТІК ЖЕЛІЛЕРДЕГІ ЖАЗБАЛАРЫ АРҚЫЛЫ МАШИНАЛЫҚ ОҚЫТУДЫ ҚОЛДАНЫП, АДАМДАРДЫҢ MBTI (MYERS-BRIGGS TYPE INDEX) ТИПІН АНЫҚТАУ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
89
15
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МАШИНАЛЫқ ОқЫТУ / ТұЛғА ЕРЕКШЕЛіКТЕРі / әЛЕУМЕТТіК ЖЕЛіЛЕР / МәТіНДі өңДЕУ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Суннатилла Ә. З., Нурахов Е. С., Мыңжасар А. А.

Бұл зерттеу адамдардың әулеметтік желілерде жариялаған мәтін негізінде психологиялық типін Myers-Briggs Type Index классификациясы бойынша анықтайтын машиналық оқыту әдістерін қолданып, классификатор жасауға бағытталған. Мақала тұлға типін анықтау тапсырмасын машиналық оқытуды пайдалану арқылы автоматтандыруды жүзеге асыруға негізделген, MBTI тұлға индикаторы арқылы жеке тұлғаның ерекшеліктерін анықтауға түсініктеме келтірілген. Машиналық оқытудың логистикалық регрессия, кездейсоқ орман және анықтамалық векторлар әдістері қолданылған, осыған ұқсас жұмыстарға әдеби талдау жасалған. Мақалада зерттеу жұмысының барысы мен әр классификатордың нәтижелері және қолданылған тәсілдердің талдауы берілген. Қазіргі карантиндік шектеулер жағдайында адамдардың онлайн жұмыс форматына ауысуына байланысты компанияларда кадрларды іріктеуде осындай зерттеулер үлкен көмегін тигізуі мүмкін, себебі зерттеу адамдардың жеке қасиеттерін әлеуметтік желідегі жазбаларына байланысты анықтауды көздейді. Бұл жұмыста қазақ тілі үшін қолдануда қарапайым, әрі көп есептеу қуаттылығын қажет етпейтін, ең тиімді машиналық оқыту алгоритмдері пайдаланылған және сәйкесінше әр әдіс үшін жұмыс нәтижелері келтірілген, келтірілген әдістердің ішінде анықтамалық векторлар әдісі арқылы қазақ тіліне арналған классификатордың дәлдігі мен сенімділігі жақсы деңгейде болды.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

IDENTIFICATION OF MBTI (MYERS-BRIGGS TYPE INDEX) HUMAN TYPE USING TEXT ON SOCIAL NETWORKS BASED MACHINE LEARNING

This study aims to create a classifier using machine learning methods that determine the psychological type of people based on the text published on social networks according to the Myers-Briggs Type Index classification. The article is based on the implementation of automation of the task of determining the personality type using machine learning, with an explanation for determining the characteristics of a person using the MBTI personality indicator. The methods of logistic regression, random forest and support vector machines were used, and a literary analysis of similar works was carried out. The article presents the progress of research work and the results of each classifier, as well as an analysis of the approaches used. In the context of the current quarantine restrictions, such studies can be of great help in the selection of personnel in companies due to the transition of people to an online format of work, since the study involves determining the personal qualities of people based on their posts in social networks. In this paper, the most effective machine learning algorithms for the Kazakh language, which are simple to use and do not require a lot of computing power, were used and, accordingly, the results of the work for each method were presented, among these methods, the accuracy and reliability of the classifier for the Kazakh language by the method of support vectors were at a good level.

Текст научной работы на тему «ӘЛЕУМЕТТІК ЖЕЛІЛЕРДЕГІ ЖАЗБАЛАРЫ АРҚЫЛЫ МАШИНАЛЫҚ ОҚЫТУДЫ ҚОЛДАНЫП, АДАМДАРДЫҢ MBTI (MYERS-BRIGGS TYPE INDEX) ТИПІН АНЫҚТАУ»

FTAXP 20.19.01

DOI: 10.52512/2306-5079-2021-86-2-136-144

ЭЛЕУМЕТТ1К ЖЕЛ1ЛЕРДЕГ1 ЖАЗБАЛАРЫ АРЦЫЛЫ МАШИНАЛЬЩ ОЦЫТУДЫ ЦОЛДАНЫП, АДАМДАРДЬЩ MBTI (MYERS-BRIGGS TYPE INDEX) ТИП1Н АНЬЩТАУ

Э.З. Суннатилла*, Е.С. Нурахов, А.А. Мыцжасар Эл-Фараби атындагы Казак ¥лттык Университетi, Алматы, Казахстан e-mail*: asel. sunna@mail.ru

Бул зерттеу адамдардын эулеметпк желшерде жариялаган мэтш непз1нде психологиялык тишн Myers -Briggs Type Index классификациясы бойынша аньщтайтын машиналык окыту эд1стерш колданып, классификатор жасауга багытталган. Макала тулга титн аныктау тапсырмасын машиналык окытуды пайдалану аркылы автоматтандыруды жузеге асыруга непзделген, MBTI тулга индикаторы аркылы жеке тулганын ерекшелжтерш аныктауга тусшктеме келпршген. Машиналык окытудын логистикалык регрессия, кездейсок орман жэне аныктамалык векторлар эд1стер1 колданылган, осыган уксас жумыстарга эдеби талдау жасалган. Макалада зерттеу жумысынын барысы мен эр классификатордын нэтижелер1 жэне колданылган тэалдердщ талдауы бершген. Каз1рп карантиндж шектеулер жагдайында адамдардын онлайн жумыс форматына ауысуына байланысты компанияларда кадрларды 1р1ктеуде осындай зерттеулер улкен кемепн типзу1 мумк1н, себеб1 зерттеу адамдардын жеке касиеттерш элеуметпк желвдеп жазбаларына байланысты аныктауды кездейдг Бул жумыста казак тш ушш колдануда карапайым, эр1 кеп есептеу куаттылыгын кажет етпейтш, ен тшмд1 машиналык окыту алгоритмдер1 пайдаланылган жэне сэйкесшше эр эдю уш1н жумыс нэтижелер1 келпр1лген, келпршген эд1стердщ шшде аныктамалык векторлар эд1а аркылы казак тшне арналган классификатордын дэлдт мен сешмдшп жаксы денгейде болды.

Туйт свздер: машинстыц оцъту, тулга ерекшелiктерi, MBTI, 3MeyMemmiK желшер, Mdmindi вцдеу.

Kipicne

Жеке тулганы бшу жэне тушну аркылы кептеген артыкшылыктарга кол жетюзуге болады. Технологиянын каркынды есуiмен бiрге жеке тулганы бiлу автоматты турде жузеге асады. Психологиялык зерттеулер жеке тулганын кейбiр ерекшелiктерiнiн лингвистикалык мiнез-кулыкпен езара байланысын керсетедi. Элеуметпк желiлердiн колданысына суйене отырып, адамдардын жариялаган жаналыктарына байланысты жеке тулганы болжау мумкшдш туып отыр.

Эр адамнын эр тYрлi хоббиi, кызыгушылыгы, жеке тулгасы жэне ерекше адам ретiнде калыптастыратын баска да сипаттамалары бар. Осы айырмашылыктардын iшiнен оларды эртYрлi топтарга классификациялау мYмкiндiгi туады, осылайша жарнаманын тиiмдiлiгiн арттыру, маркетингтщ баска максаттары, жумыс нэтижелерiн елшеу жэне баска функцияларды жаксарту Yшiн колдануга болады. Казiргi уакытта адамдардын барлыгы дерлiк элеуметтiк желiлердiн ен болмаганда бiреуiн пайдаланады [1]. Сонымен катар, олар элеуметтiк желiлерде кызыгушылыгы немесе хоббшмен байланысты жазбалар жариялайды, бул акпарат кейiнiрек олардын жеке тулгалык касиеттерiн бiлуге мYмкiндiк береди Сонымен катар, казiргi карантиндiк шектеулер жагдайында адамдардын онлайн жумыс форматына ауысуына байланысты компанияларда кадрларды iрiктеуде осындай зерттеулер Yлкен кемегiн тигiзуi мYмкiн, себебi зерттеу адамдардын жеке касиеттерш элеуметтiк желiдегi жазбаларына байланысты аныктауды кездейдi.

Кейбiр элеуметтiк желi сайттары маркетингтiн тиiмдiлiгiн арттыру Yшiн кептеген эрекеттердi жасаса да, осы уакытка дейiн олар жеке адамдардын жариялаган акпараттарына негiзделiп болжанган тулга ерекшелiктерiн пайдалану аркылы маркетингтiн тшмдшгш жаксартуга багытталган жабдыктарды жасаган жок. Казiргi бар тэсiлдер, эдетте кыска мерзiмдi маркетингке негiзделген жэне адамнын интернеттеп iс-эрекеттерiне, cookie-файлдарга негiзделген.

Жумыста адамдарды сипаттау белгiсi ретiнде MBTI (Myers-Briggs type index) индикаторы тандалынды. MBTI - Myers-Briggs индикаторы Катарин Кук Бриггс жэне онын кызы Изабел Бриггс Майерс эзiрлеген, Карл Юнгтщ психологиялык типтер теориясына непзделген жеке тулга керсетюшь MBTI психологиялык тестшеу жYЙесiнiн мэнi - адамнын жеке факторларынын бiрегей комбинацияларын елшеу аркылы онын белгш бiр салага бетмдшгш, онын iс-эрекетiнiн стилiн, шешiмдерiнiн сипатын жэне езiне ынгайлы, эрi сенiмдi сезiнуге мYмкiндiк беретiн баска да

ерекшелштерш болжауга болады. БYгiнгi ^ш, шетел тэжрибесiне CYЙенсек, б^л индикатор жеке адамдар мен ^йымдар ездерш жа^сы TYCiHy Yшiн немесе ж^мыс орныньщ динамикасын оцтайландыру Yшiн ^олданылатын жалпы к¥Рал болып табылады. Ол бойынша адам 4 тYрлi бинарлы шкаланыц бiр мэнiмен багаланады:

1. Адам санасыныц багдары (E-I шкаласы): Extrovert - сырт^ы элеммен Yнемi коммуникацияда болатын адамдар / Introvert - езшщ iшкi элемiмен оцашада болуды артыщ квретiн адамдар.

2. А^паратты ^алай ^абылдауы (S-N шкаласы): Sensing - на^ты фактiлер мен тэжрибеге CYЙенедi / Intuition - шю сезiмдерiне назар аударатындар.

3. Шешiмдi ^алай ^абылдауы (T-F шкаласы): Thinking - логикага CYЙенiп, рационалды тYрде шешiм ^абылдайтындар / Feeling - эмоционалды тYрде адами ^ндылыщтарга ^арай шешiм ^абылдайтындар.

4. Эмiр CYPУ стилi (J-P шкаласы): Judging - алдын-ала барлыгын жоспарлап, сол бойынша эрекет етушшер / Perceiving - жагдайга ^арай дайындыщсыз эрекет ететш адамдар.

Эр адамныц MBTI тит терт санаттыц жиынтыгы ретiнде аныщталады. Мысалы, ез энергиясын кебiне бас^а адамдардыц ортасында болуынан алатын (Е), элемдеп а^паратты тYсiнy Yшiн интуицияны пайдаланатын (N), рационалды шешiм ^абылдайтын (Т) жэне алдын-ала жоспарлауды жен керетш (J) адам, нэтижесiнде ENTJ титне ие болады. Сэйкес типт аныщтаудыц ец кец тараган тэсш - жеке т^лганы тестiлеyден етюзу. Тест 93 с^ра^тан тирады.

Байланыс барган сайын элеyметтiк медиага непзделген элемде бiз интернеттегi ^олданушылар мен олардыц жеке т^лгалары арасында тыгыз байланыс бар-жогын бiлyге мYДделiмiз. Жеке т^лгалыщ ^асиеттер пайдаланушылардыц мшез-к¥л^ы мен талгамын аныщтауга мYмкiндiк бередi. Жеке т^лганы танып бiлy жеке пайдаланушыга багытталган персоналды жYЙелер К¥ру Yшiн мацызды аппарат бере алады. Б^л ж^мыста т^лганы аныщтау эдiсi ретшде мэтiндiк ендеу тэсiлдерiне ерекше назар аударылады. Негiзгi ма^саты адамныц MBTI титн оныц элеyметтiк желiдегi жазбаларыныц негiзiнде машиналыщ о^ыту эдiстерi кемепмен болжау болып табылады. Алгоритм мэтшнщ Yзiндiсiн енгiзiлетiн мэлiмет ретiнде ^абылдап, болжанган MBTI типiн шыгарады (мысалы, ENTJ). Крйылган тапсырманы орындауда машиналыщ о^ыту эдiстерi ^арастырылган. Ец тиiмдi эдiстi табу Yшiн олардыц нэтижелш ^ателт мен дэлдiгi бойынша салыстыру жэне талдау жYргiзiлдi.

Деректер Kaggle-деп MBTI деректер жиынынан алынды. М^нда 8675 пайдаланушыдыц 45-50 ец соцгы элеyметтiк желi жазбаларыныц мэтiнi жэне пайдаланушыныц MBTI типi ^сынылган.

Материалдар мен эдктер

Адамныц т^лгасы оныц талгамына жэне ^ызыгушылыщтарына эсер ететш шешyшi фактор ретiнде есептеледi. Мысалы, Раулинг жэне Сианкарели жеке т^лгалыщ ерекшелштер жэне музыкалыщ жанр талгамы арасындагы байланысты аныщтаган [2]. Б^л байланыстар т^лга туралы аппарат багдарламалыщ жаса^тамаларды одан эрi дамытуга жэне персоналды сервис ^сыну Yшiн ^олдануга болатындыгын белгiлейдi. Ткальцик адамныц жеке т^лгалыщ ерекшелiктерiн рекомендациялыщ жYЙелерде бастап^ы ^сыну ауданын жа^сартуга (жаца пайдаланушыларга бастап^ы ^сыну) [3], ал Ферверда музыка тыцдау жасактамаларындагы интерфейстi музыкалыщ талгамга байланысты езгертуге ^олдануды ^сынды [4].

Т^лганы аныщтау Yшiн бiрнеше модельдер жасалды. Бес факторлы модель (FFM) компьютерлiк ^огамдастыщта ец танымал жэне кец ^олданылатын модель болып табылады жэне т^лганы бес жалпы елшемдерге (белгшерге) жiктейдi: тэжрибеге ашыщтыщ, адалдыщ, экстраверсия, келiсiмдiлiк жэне невротизм. Алайда, кец келемдi жэне кеп уа^ытты ^ажет ететiн сауалнамаларды ^олданбай, т^лгалыщ ^асиеттерге ие болу элi де кYPделi мiндет болып табылады.

1с-эрекет мэлiметтерi негiзiнде жеке ^асиеттердi ^алай аныщтауга болатындыгы туралы зерттеулерге ^азiрri кезде ^ызыгушылыщ артуда. Зерттеулер керсеткендей, жеке т^лганы ^ялы телефонды пайдалану деректерiнен немесе акустикалыщ жэне визуалды белгiлермен камералар мен микрофондар ар^ылы аныщтауга мYмкiндiк бар. Адамдардыц езара байланысыныц артуына байланысты, жа^ында жYргiзiлген зерттеулерде бейнеблогтар, Facebook-теп iс-эрекет жэне профильдiк суреттер сия^ты мэлiметтер ^олданыла бастады.

Жеке т^лганы суреттерден аныщтау бойынша да зерттеулер жасалынган. Челли жеке т^лганы аныщтау Yшiн Facebook профиль сyреттерiнiц мазм^нына назар аударды (мысалы, бет-элпет, мимика,

жалгыз немесе баодалармен) [5]. Кристанидыц ж^мысы т^лганы Flickr суреттершщ визуалды ерекшелштершен аныщтауга болатындыгын кврсеттi [6].

MBTI классификациясыньщ теракты т^лга типтерше ^атысты болжамды негiздiлiгi туралы ^jipri кездегi пiкiрталастар бар. MBTI жYЙесiне ^арама-^арсы, психометрияда ^олданылатын кец таралган т^лга типiн жiктеy жYЙесi - б^л Yлкен Бестiк т^лганы классификациялау жYЙесi. Б^л жYЙе жеке т^лганыц статистикалыщ бес ортогоналды влшемдерiн ^арастырады: экстраверсия, келiсiмдiлiк, ашы^ты^, саналылыщ жэне невротизм. MBTI-дан айырмашылыгы, Yлкен Бес жYЙесi статистикалыщ т^ргыдан жеке адамныц вмiрiндегi влшенетiн белгiлерге ^атысты болжамды кYшке ие. Алайда Пеннебакер мен Кингтщ ж^мыстары жеке т^лганыц бес ^асиеттершщ твртеyi мен тврт MBTI влшемдерi арасындагы мацызды корреляцияны кврсетедк ойлау/сезу келiсiмдiлiкпен, багалау/^абылдау саналылыщпен, экстраверсия/интроверсия экстраверсиямен жэне сезiм/тYЙсiк ашыщтыщпен байланысы аныщталды [7]. Б^л корреляциялар MBTI т^лгалыщ влшемдерi т^лганыц теракты ерекшелштерш салыстырмалы тYрде бейнелейдi жэне жазушылыщ стиль мен теракты жеке ^асиеттер арасындагы байланысты модельдеу эрекетiн непздейдь

MBTI типiн аныщтау бойынша ж^мыстар rçазiрri кезде аз жэне мYмкiндiктерi толыщ зерттелмеген. Дегенмен, машиналыщ о^ыту саласында мацызды ^адамдар жасалды. Машиналыщ о^ыту саласында нейронды жYЙелер MBTI титн аныщтауда салыстырмалы кiшi квлемдеп деректер жиынында табысты нэтижелер кврсетп [8], [9]. Гавриельску жэне Шампу ж^мыстарында ^олмен жазылган мэтiндiк деректерге Yш децгейлi архитектура ^олданган [10]. Б^л терец нейронды архитектуралары MBTI тишн айтарлыщтай дэлдiкпен болжауга ^абшетп деген т^жырымдаманыц дэлелi. Карри Гуинн жэне Майк Комисин ж^мысында да классикалыщ машиналыщ о^ыту тэсiлдерiн, соныц iшiнде аныщтамалыщ векторлары эдiсiн ^олдану ар^ылы MBTI типiн дэл аныщтай алды [11]. Олардыц зерттеyлерi адамныц психологиялыщ ерекшелiктерiн ацыщтау Yшiн мэ^ндш мэлiметтердiц взi гана жеткiлiктi болатынын дэлелi болып табылады.

Зерттеу барысы

Деректер жиынтыгы екi баганнан тирады, бiрiншiсi адамныц типi, ал еюншю баганда сэйкес типтегi адамдар жазган мэтiндiк хабарламалар жиынтыгы. Бастап^ы деректер жиыны агылшын форумынан алынгандыщтан, алдымен мэтiндер ^аза^ тiлiне аударылды. Элеуметпк желiлерде адамдар мэтiндiк ^арым-^атынас кезшде жаргон свздер мен белгiлi бiр стильдi ^олданады, сондыщтан деректер алдын-ала вцдеyдi ^ажет етедi. Алдын-ала вцдеу кезшде деректер жиынынан тыныс белгшер^ веб-сiлтемелер, сандар, хэштегтер жэне символдыщ белгiлер алып тасталынды жэне бас эрштер кiшi эрiптерге ауыстырылды. Деректердеп эрбiр свз мYмкiндiгiнше магыналы болуы Yшiн мэтiндiк хабарламалар жиынтыгында кездесетш «стоп-свздер» («мен», «пен» жэне т.б. секiлдi шылаулар) жэне MBTI типтершщ атаулары да алып тасталынды.

Эрi ^арай, NLP эдiстерi, соныц швде TF-IDF-тi ^олдану ар^ылы мэлiметтердiц белгшерш аныщталды, осыдан кейiн машиналыщ о^ытуды белгiлерге ^олдану тапсырмасы ^алады, алайда алдымен бiзге ^андай кластар бойынша жiктейтiнiмiздi аныщтап алу ^ажет. Бiзде деректердi типтер бойынша Yлестiрyдiц ею тYрлi н^с^асы бар. Бiрi - толыщ 16 класты аныщтап, солар бойынша о^ыту. Б^Л жагдайда, барлыщ MBTI типтерi бойынша деректер жиынын 16 класса бвлу ^ажет болады. Еюншю - эр шкала бойынша бинарлы кластарга жштеу, б^л кезде, бiз мэлiметтердi эр шкала бойынша ею класса бвлемiз.

Толыщ 16 кластыщ тэсiлдiц бiр кемшiлiгi - кластар арасындагы ^абаттасулар квп жэне оларды бiр-бiрiнен на^ты ажырату ^иынга согады. Сонымен ^атар, деректер жиыны барлыщ 16 тип бойынша бiркелкi таралмаган. Мысалы, ец квп таралган INFP типi 1832 рет кездесед^ ал ец аз ISFJ тек 39 рет кездеседь Бiз осы н^с^аны пайдаланып, мэлiметтерге машиналыщ о^ытуды ^олданганда, классификатор басым типке (типтерге) сэйкес болжам жасауга бейiм болады. Элеуметпк медиа мэтiнi rçазiрдiц взшде аныщ емес жэне эртYрлi деректерден т^ратындыгын ескере отырып, б^л вз кезегшде классификаторды вте ^^сас жэне шулы мэлiметтер арасында ^са^ айырмашылыщтарды iздеyге мэжбYP етедi, соцында нэтижес нашар жэне тиiмсiз болады. Бершген кластар iс жYзiнде бiр-бiрiнен толыщ тэyелсiз емес, б^л толыщ бвлiнyдi табуга тырысатын классификаторга кедерп келтiредi [12]. 1-диаграммада мэлiметтер жиынындагы эр типтiц кездесу жиiлiгi кврсетшген.

2000 1832

INFP INFJ INTP ENTPENFP ISTP ENTJ ISTJ ENFJ ISFJ ESTP ESFP ESFJ ESTJ ■ MBTI тит-epi

1- диаграмма. Деректер жиынында эр типтщ кездесуi

Екiншi тэсiл бойынша жеке тулганьщ терт санатыныц эркайсысы Yшiн екiлiк классификаторларды куру оцтайлы шешiм болып табылады (мысалы, E / I, S / N, T / F, J / P), содан кешн MBTI жалпы болжамын алу Yшiн терт нэтижеш бiрiктiру гана кажет (2-диаграмма). Бул келесщей артыкшылыктарды бередi:

- Накты айырмашылыктарды ажырата отырып, дэлдiгi кYрт жаксаратын мэлiметтер берiледi.

- 16 класка Караганда екiге белiнгенде (мысалы, E / I), эр класс Yшiн деректер жиыны Yлкейедi.

■ 1 индикатор бойынша катарлар саны ■ 2 индикатор бойынша катарлар саны

3981 3434

6676 7478 4694 5241

1999 1197

I / E N / S T / F J / P

2- диаграмма. Эр жеке класс Yшiн деректер жиынындагы катарлар саны

Эрбiр жеке касиеттерге эртYрлi болжам жасау аркылы мацызды нэтиже алынады. Тагы да бiр ескеру кажет фактор, бул - эр шкаладагы индикаторлардыц тэуелаздт. Оларды еркiн тYPде белу мYмкiншiлiгi болуы Yшiн эр шкала езара тэуелшз болуы керек. Мысалы, адамныц эксртаверт немесе интроверт болуы оныц шешiм кабылдауда акылмен объективтi тYPде немесе эмоцияга CYЙенiп кабылдауына тэуелдi болмауы керек. Муны 1-кестедегi шкала мэндерi арасындагы корреляция аркылы тексеруге болады.

1-кесте. Деректер жиынындагы шкалалар арасындагы корреляция

Шкала I/E N/S T/F J/P

I/E 1.0000 -0.0458 -0.0695 0.1619

N/S -0.0458 1.0000 -0.0809 0.0149

T/F -0.0695 -0.0809 1.0000 -0.0046

J/P 0.1619 0.0149 -0.0046 1.0000

Деректердщ барлыгын ею бинарлы топтаргы белiп алганнан кешн оларга мэтiндi алдын ала ецдеу, ягни мэтiндегi тыныс белгiлерi мен стоп сездердi (шылау, одагай сиякты магынасы жок сездер) алып тасталды. Себебi мундай сездер бiзге кажетп негiзгi сездердi аныктауда кедергi келтiруi мYмкiн. Одан соц тазаланган мэтшнен TF-IDF аркылы белгiлерiн аныктау операциясы орындалды. Классификация тапсырмасын орындау барысында бинарлы деректердщ 80%-ы окыту жинагы Yшiн,

ал калган 20%-ы теспк жинак Yшiн екiге бвлiндi. Сондай-ак эр кезенде бiр катарлар алынбас деректердi бвлуде кросс-валидация пайдаланылды. Кросс-валидация - модельде колданылатын статистикалык талдаудыц тэуелшз мэлiметтер жиынтыгында каншалыкты сэттi жумыс ютейтшш тексеруге арналган эдiс [13]. Эдетте кросс-валидация максаты болжау болып табылатын жагдайларда колданылады жэне болжамды модель iс жYзiнде каншалыкты жумыс ютей алатындыгын багалай алады. Бiр кросс-тексеру циклi мэлiметтер жиынтыгын бвлштерге бвлудi, содан кейiн бiр бвлшке модель куруды (окыту жиынтыгы деп аталады) жэне баска бвлiкке Yлгiнi тексерудi (тест жиынтыгы деп аталады) камтиды. Нэтижелердщ таралуын азайту Yшiн кросс-валидацияныц эртYрлi циклдерi эртYPлi бвлiмдерде жYзеге асырылады, ал валидация нэтижелерi барлык циклдерде орташа болады.

Нэтижелерi

Машиналык окыту эдiстерi

Тулгалар титне жiктеу тапсырмасын жYзеге асыру Yшiн машиналык окытудыц логистикалык регрессия, кездейсок орман эдiсi, аныктамалык вектор эдiстерi колданылды.

Логистикалык регрессия

Логистикалык регрессия - бул машиналык окытудыц сызыктык классификация алгоритм^ ол болжамдык талдау алгоритмi жэне ыктималдык тужырымдамасына непзделген.

Бул эдю квптеген белгшердщ мэндерше сэйкес белгiлi бiр окиганыц ьщтималдыгын болжау Yшiн колданылады. Ол Yшiн тэуелдi айнымалы Y енгiзiледi, ол ею мэннщ бiреуiн гана кабылдай алады - эдетте бул 0 (окига болган жок) жэне 1 (окига болган) сандары жэне квптеген тэуелаз айнымалылар (белгiлер, предикторлар немесе регрессорлар деп те аталады) - х1,... ,хп накты сандары, олардыц негiзiнде тэуелдi айнымалыныц белг^ бiр мэнiн кабылдау ыктималдыгын есептеу кажет. Кужаттарды жiктеу жагдайында тэуелдi айнымалыныц рвлiн С; категориясы орындайды, ал тэуелсiз айнымалылардыц рвлiн й1,..., йп кужаттар жиынтыгы аткарады.

Жалпы айтканда, логистикалык регрессияны сигмоидты активтендiру функциясы бар бiр кабатты нейрондык желi ретiнде усынуга болады, оныц салмагы логистикалык регрессия коэффициента^ болады.

Кездейсок орман эдю

Кездейсок орман эдю - бул икемд^ колдануга оцай машиналык окыту алгоритм^ тiптi гиперпараметрлердi баптаусыз да, квбшесе жаксы нэтиже бередi. Бул - сондай-ак карапайымдылыгы жэне эртYрлiлiгiмен (оны классификация жэне регрессиялык тапсырмалар Yшiн де колдануга болады) ерекшеленетш ец квп колданылатын алгоритмдердiц бiрi [14]. Карапайым свзбен айтканда, кездейсок орман бiрнеше шешiм агаштарын тургызады жэне дэлiрек жэне туракты болжам жасау Yшiн оларды бiрiктiредi.

Жалпы, шешiм агашын талдау - бул квптеген салаларда колдануга болатын болжамды модельдеу куралы. Шешiм агаштарын алгоритмдш тэсiл аркылы салуга болады, ол мэлiметтер жиынтыгын жагдайларга байланысты эртYрлi жолмен бузуы мYмкiн [15]. Оларды жштеу тапсырмалары Yшiн де, регрессия Yшiн де колдануга болады.

Аныктамалык вектор эдю (SVM)

Аныктамалык вектор эдю ^УМ) - вте сапалы, сенiмдi жэне реттелiп бакыланатын окыту алгоритмдершщ бiрi. Бул эдiс логистикалык регрессия сиякты, деректер жиынтыгындагы кластарды бвлетiн гипержазыктыкты табуга тырысады. Аныктамалык вектор алгоритмшщ максаты - деректер нYктелерiн анык жiктейтiн N влшемдi кецiстiктегi гипержазыктыкты табу (N - мYмкiндiктер саны). Деректер нYктелерiнiц ею класын бвлу Yшiн квптеген гипержазыктыктарды тацдауга болады. Максат - максималды шегi бар жазыктыкты табу, ягни екi кластыц деректер нYктелерiнiц арасындагы ец Yлкен аракашыктыгы бар гипержазыктыкты тацдау. Шектеп кашыктыкты максималды ету болашак деректердi сенiмдi турде жштеуге болатындай етiп кYшейтудi камтамасыз етедi [16].

Гипержазыктыктар - бул деректер н^телерш жiктеуге квмектесетiн шешiм шекаралары. Гипержазыктыктыц бiр жагындагы деректер бiрiншi класка, ал екiншi жагындагылары екiншi класка тиесiлi болады. Сондай-ак, гиперпланныц влшемi ерекшелiктердiц санына байланысты.

1с жYзiнде деректердщ к^рылымы жиi белгюз жэне бвлу гипержазыктыктарын д^рыс К¥рУ вте сирек кездеседi, ягни Yлгiнiц сызыктык бвлiнyiне кепiлдiк беруге болмайды. Алгоритм бiр класка жататын ^жаттар болуы мYмкiн, бiрак iс жYзiнде олар керiсiнше болуы керек. М^ндай деректер шыгарындылар деп аталады, олар эдю катесш жасайды, сондыктан оларды елемеген д^рыс. Б^л сызыктык бвлшбеу мэселесiнiц мэнi.

Нэтижелерi

2-кесте. Эр эдю бойынша болжау дэлдшнщ пайыздык кврсеткiшi

I/E N/S F/T J/P

Логистикалык регрессия 76.43% 86.80% 72.16% 60.29%

Кездейсок орман эд1а 76.14% 86.69% 67.03% 59.31%

Аныктамалык вектор эдю 76.14% 86.69% 72.16% 60.69%

1-кестеде 2р колданылган эдю бойынша алынган нэтижелер классификаторлардыц дэлдiктерi ретiнде берiлген. Логистикалык регрессия жэне аныктамалык векторлар машиналык окыту эдютершщ пайыздык кврсеткiштерi вте жогары мэндердi кврсеттi. Мэтiннiц кыскалыгы мен осындай кыскаша мэтiндегi негiзгi акпаратты жинаудагы киындыктарды ескере отырып, кол жетюзшген дэлдiгiмiз эсерлi кврiнедi. ЭртYрлi элеуметпк сипаттагы адамдардыц салыстырмалы тYPде кыска жеке элеyметтiк медиа жазбаларында кездесетш тiлдi колдану тэсiлдерiнде Yлкен айырмашылыктардыц бар болуы тацгаларлык болып табылады.

Талкылау мен шектеулер

Эyлеметтiк желшердеп мэтiндiк мэлiметтер алуан тYрлi формада кездеседi (SMS/жедел хабарламалар, Facebook/Instagram/форум хабарламалары, Twitter жазбалары, блог жазбалары, макалалар жэне т.б.). Олардыц эркайсысы кездейсок жэне бiрнеше кыска хабарламалардан бастап ресми жазбалардыц Yлкен бвлiктерiне дешн вздерiнiц жеке жазу стильдерiн ^станады. Жогарыда айтылгандай, деректер жиынтыгы жазу стилшщ бiр тYрi гана болып табылатын форум хабарламаларынан алынган. Модель адамныц кыска хабарламалары немесе ^зак макалаларынан гврi адамныц форумдарда жазган хабарламалары аркылы адамныц MBTI титн дэлiрек болжай алады.

Б^л зерттеуде MBTI индивидуалды типi негiзiнде т^лганыц типiн болжау процесiн автоматтандыруга арналган машиналык окытудыц логистикалык регрессия, кездейсок орман жэне аныктамалык вектор эдiстерi зерттелдi. Мэтiндi алдын ала вцдеу к¥рзды ретiнде NLTK пайдаланылды. Зерттеу бойынша шет тiлдерi Yшiн, атап айтканда агылшын, немiс, испан, кытай корей т.б. тiлдер Yшiн мэтш сипатына карап, т^лга типiн аныктау мэселесi жаксы зерттелген [17], элi кYнге дейiн жетiлдiрiлyде. Алайда, казак тш Yшiн жасалган ж^мыстар аз деп айтуга болады. Б^л ж^мыста казак тiлi Yшiн колдануда карапайым, эрi квп есептеу куаттылыгын кажет етпейтiн, ец тиiмдi машиналык окыту алгоритмдерi пайдаланган жэне сэйкесiнше эр эдю Yшiн ж^мыс нэтижелерi кел^ршген. Б^л ж^мыста келтiрiлген эдiстердiц шшде аныктамалык векторлар эдiсi аркылы казак тшше арналган классификатордыц дэлдiгi мен сешмдшп жаксы децгейде болды.

Корытынды

Б^л зерттеуде MBTI индивидуалды типi негiзiнде т^лганыц типiн болжау процесш автоматтандыруга арналган машиналык окытудыц логистикалык регрессия, кездейсок орман жэне аныктамалык вектор эдiстерi зерттелдь Мэтiндi алдын ала вцдеу к¥рзды ретiнде NLTK пайдаланылды.

ПайдаланылFан эдебиеттер

1. Стивенсон М. Введение в нейролингвистическое программирование

2. Rawlings D., Ciancarelli V. (1997) Music preference and the five-factor model of the neo personality inventory. Psychology of Music. P. 120-132

3. Ferwerda B., Schedl M., Tkalcic M. (2015) Personality & emotional states: Understanding users' music listening needs. UMAP 2015 Extended Proceedings

4. Ferwerda B., Schedl M. (2014) Enhancing music recommender systems with personality information and emotional states: A proposal. Proc. EMPIRE workshop.

5. Celli F., Bruni E., Lepri B. (2014) Automatic personality and interaction style recognition from Facebook profile pictures. Proceedings of the ACM International Conference on Multimedia. P. 1101-1104

6. Cristani M., Vinciarelli A., Segalin C., Perina A. (2013) Unveiling the multimedia unconscious: Implicit cognitive processes and multimedia content analysis. Proceedings of the 21st ACM international conference on Multimedia.

7. Pennebaker J.W., King L.A. (1999) Linguistic Styles: Language Use as an Individual Difference. Personality and Social Psychology. 77(6). P. 1296-1312

8. Hernandez R., Knight I.S. (2017) Predicting Myers-Briggs Type Indicator with Text Classification. 31st Conference on Neural Information Processing Systems, NIPS.

9. Gavrilescu M. (2015) Study on determining the Myers-Briggs personality type based on individual's handwriting. The 5th IEEE International Conference on E-Health and Bioengineering.

10. Majumder N., Poria S., Gelbukh A., Cambria E. (2017) Deep learning-based document modeling for personality detection from text. IEEE Computer Society, IEEE Intelligent Systems. https://sentic.net/deep-learning-based-personality-detection.pdf

11. Komisin M., Guinn C. (2012) Identifying personality types using document classification methods. Proceedings of the 25th International Florida Artificial Intelligence Research Society Conference, FLAIRS-25. P. 232237

12. Ингерсолл Г.С., Мортон Т.С., Фэррис Э.Л. (2015) Обработка неструктурированных текстов. Поиск, организация и манипулирование. / Пер. с англ. Слинкин А.А. М.: ДМК Пресс. - 414 с.

13. Harrington R., Loffredo D.A. (2010) MBTI personality type and other factors that relate to preference for online versus face-to-face instruction. The Internet and Higher Education. Volume 13, Issues 1-2, pp. 89-95

14. Verhoeven, B., Daelemans, W., Plank, B. (2016) TwiSty: A Multilingual Twitter Stylometry Corpus for Gender and Personality Profiling. Proceedings of the 10th edition of the Language Resources and Evaluation Conference European Language Resources Association (ELRA)

15. Friedman J.H. (2001) Greedy function approximation: A gradient boosting machine. The Annalls of Statistics. 29(5). 1189-1232.

16. Gallo F.R., Simari G.I., Martinez M.V., Falappa M.A. (2020) Predicting user reactions to Twitter feed content based on personality type and social cues. Future Generation Computer Systems, volume 110, p. 918-930.

17. Bencke L., Cechinel C., Munoz R. (2020) Automated classification of social network messages into Smart Cities dimensions. Future Generation Computer Systems, volume 109, p. 218-237.

References

1. Stivenson M. Vvedenie v nejrolingvisticheskoe programmirovanie [Introduction to neuro-linguistic programming] [in Russian]

2. Rawlings D., Ciancarelli V. (1997) Music preference and the five-factor model of the neo personality inventory. Psychology of Music. P. 120-132

3. Ferwerda B., Schedl M., Tkalcic M. (2015) Personality & emotional states: Understanding users' music listening needs. UMAP 2015 Extended Proceedings

4. Ferwerda B., Schedl M. (2014) Enhancing music recommender systems with personality information and emotional states: A proposal. Proc. EMPIRE workshop.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

5. Celli F., Bruni E., Lepri B. (2014) Automatic personality and interaction style recognition from Facebook profile pictures. Proceedings of the ACM International Conference on Multimedia. P. 1101-1104

6. Cristani M., Vinciarelli A., Segalin C., Perina A. (2013) Unveiling the multimedia unconscious: Implicit cognitive processes and multimedia content analysis. Proceedings of the 21st ACM international conference on Multimedia.

7. Pennebaker J.W., King L.A. (1999) Linguistic Styles: Language Use as an Individual Difference. Personality and Social Psychology. 77(6). P. 1296-1312

8. Hernandez R., Knight I.S. (2017) Predicting Myers-Briggs Type Indicator with Text Classification. 31st Conference on Neural Information Processing Systems, NIPS.

9. Gavrilescu M. (2015) Study on determining the Myers-Briggs personality type based on individual's handwriting. The 5th IEEE International Conference on E-Health and Bioengineering.

10. Majumder N., Poria S., Gelbukh A., Cambria E. (2017) Deep learning-based document modeling for personality detection from text. IEEE Computer Society, IEEE Intelligent Systems. https://sentic.net/deep-learning-based-personality-detection.pdf

11. Komisin M., Guinn C. (2012) Identifying personality types using document classification methods. Proceedings of the 25th International Florida Artificial Intelligence Research Society Conference, FLAIRS-25. P. 232237

12. Ingersoll G.S., Morton T.S., Ferris E.L. (2015) Obrabotka nestrukturirovannykh tekstov. Poisk, organizacziya i manipulirovanie. / Per. s angl. Slinkin A.A. M.: DMK Press. - 414 s. [Processing of unstructured texts. Search, organization, and manipulation. / Translated from English. Slinkin A. A. M.: DMK Press - 414 p.] [in Russian]

13. Harrington R., Loffredo D.A. (2010) MBTI personality type and other factors that relate to preference for online versus face-to-face instruction. The Internet and Higher Education. Volume 13, Issues 1-2, pp. 89-95

14. Verhoeven B., Daelemans W., Plank B. (2016) TwiSty: A Multilingual Twitter Stylometry Corpus for Gender and Personality Profiling. Proceedings of the 10th edition of the Language Resources and Evaluation Conference European Language Resources Association (ELRA)

15. Friedman J.H. (2001) Greedy function approximation: A gradient boosting machine. The Annalls of Statistics. 29(5). 1189-1232.

16. Gallo F.R., Simari G.I., Martinez M.V., Falappa M.A. (2020) Predicting user reactions to Twitter feed content based on personality type and social cues. Future Generation Computer Systems, volume 110, p. 918-930.

17. Bencke L., Cechinel C., Munoz R. (2020) Automated classification of social network messages into Smart Cities dimensions. Future Generation Computer Systems, volume 109, p. 218-237.

Определение MBTI (MYERS-BRIGGS TYPE INDEX) типа человека с использованием машинного

обучения на основе текста в социальных сетях

А.З. Суннатилла*, Е.С. Нурахов, А.А. Мынжасар Казахский национальный университет им. аль-Фараби, Алматы, Казахстан e-mail*: asel.sunna@mail.ru

Это исследование направлено на создание классификатора, используя методы машинного обучения, которые определяют психологический тип людей по классификации Myers-Briggs Type Index на основе текста, опубликованного в социальных сетях. Целью работы является автоматизация задачи определения типа человека с помощью машинного обучения, дается объяснение идентификации личностных черт с помощью индикатора личности MBTI. В машинном обучении применены методы логистической регрессии, случайного леса и опорных векторов, проведен литературный анализ аналогичных работ. В статье представлен ход исследовательской работы и результаты каждого классификатора и анализ используемых подходов. В связи с переходом людей на онлайн-формат работы в условиях нынешних карантинных ограничений подобные исследования могут оказать большую помощь в подборе персонала в компаниях, так как исследование предполагает выявление личностных качеств людей по их записям в социальных сетях. В данной работе использованы наиболее эффективные алгоритмы машинного обучения, простые в использовании для казахского языка и не требующие большой вычислительной мощности и, соответственно, приведены результаты работы для каждого метода, среди приведенных методов на хорошем уровне оказались точность и надежность классификатора для казахского языка методом опорных векторов.

Ключевые слова: машинное обучение, черты личности, MBTI, социальные сети, обработка текста.

Identification of MBTI (MYERS-BRIGGS TYPE INDEX) human type using text on social networks based

machine learning

AsselZ. Sunnatilla*, Edil S. Nurakhov, Akniyet A. Myngzhassar al-Farabi Kazakh National University, Almaty, Kazakhstan e-mail*: asel.sunna@mail.ru

This study aims to create a classifier using machine learning methods that determine the psychological type of people based on the text published on social networks according to the Myers-Briggs Type Index classification. The article is based on the implementation of automation of the task of determining the personality type using machine learning, with an explanation for determining the characteristics of a person using the MBTI personality indicator. The methods of logistic regression, random forest and support vector machines were used, and a literary analysis of similar works was carried out. The article presents the progress of research work and the results of each classifier, as well as an analysis of the approaches used. In the context of the current quarantine restrictions, such studies can be of great help in the selection of personnel in companies due to the transition of people to an online format of work, since the study involves determining the personal qualities of people based on their posts in social networks. In this paper, the most effective machine learning algorithms for the Kazakh language, which are simple to use and do not require a lot of computing power, were used and, accordingly, the results of the work for each method were presented, among these methods, the accuracy and reliability of the classifier for the Kazakh language by the method of support vectors were at a good level.

Keywords: machine learning, personality, MBTI, social network sites, text processing.

АВТОРЛАР ТУРАЛЫ АППАРАТ

Суннатилла Эсел Зайниддинкызы, магистрант, эл-Фараби атындагы Казак улттык университетшщ, акпараттык технологиялар факультет^ информатика кафедрасы, Компьютерлш гылымдар мамандыгы, 2 курс. Адрес: Казакстан, Алматы, 050026, Карасай батыр, 156; asel.sunna@mail.ru

Нурахов Едш Сергазиевич, PhD, эл-Фараби атындагы Казак улттык университетшщ, акпараттык технологиялар факультет^ информатика кафедрасынын ага окытушысы. Адрес: Казакстан, Алматы, 050040, Тимирязева 54; eldi mg@gmail.com

Мьщжасар Акниет Ануарбеккызы, магистрант, эл-Фараби атындагы Казак улттык университетшщ, акпараттык технологиялар факультет^ информатика кафедрасы, Компьютерлш гылымдар мамандыгы, 2 курс. Адрес: Казакстан, Алматы, 050026, Карасай батыр, 156; myngzhassar akniyet@mail.ru

ИНФОРМАЦИЯ ОБ АВТОРАХ

Суннатилла Асель Зайниддинкызы - магистрант, 2 курса, специальности Компьюреные науки, кафедры информатики, факультета информационных технологий, Казахского национального университета имени аль-Фараби. Адрес: Казахстан, Алматы, 050026, Карасай батыра, 156; asel.sunna@mail.ru

Нурахов Едил Сергазиевич - PhD, старший преподаватель кафедры информатики, факультета информационных технологий, Казахского национального университета имени аль-Фараби. Адрес: Казахстан, Алматы, 050040, Тимирязева 54; eldi mg@gmail.com

Мынжасар Акниет Ануарбеккызы - магистрант, 2 курса, специальности Компьюреные науки, кафедры информатики, факультета информационных технологий, Казахского национального университета имени аль-Фараби. Адрес: Казахстан, Алматы, 050026, Карасай батыра, 156; myngzhassar akniyet@mail.ru

INFORMATION ABOUT THE AUTHORS

Assel Z. Sunnatilla, master's degree in Computer science, Department of Informatics, faculty of information technologies, al-Farabi Kazakh National University. Address: Kazakhstan, Almaty, 050026, Karasay batyr, 156; asel.sunna@mail.ru

Edil S. Nurakhov, PhD, senior lecturer of Computer Science Department, Faculty of Information Technology, al-Farabi Kazakh National University. Address: Kazakhstan, Almaty, 050040, Timiriyazeva 54; eldi mg@gmail.com

Akniyet A. Myngzhassar, master's degree in Computer science, Department of Informatics, faculty of information technologies, al-Farabi Kazakh National University. Address: Almaty, Kazakhstan, 050026, Karasay batyr, 156; myngzhassar akniyet@mail.ru

Редакцияга тYCтi / Поступила в редакцию / Received 10.03.2021 Жариялауга кабылданды / Принята к публикации / Accepted 29.06.2021

i Надоели баннеры? Вы всегда можете отключить рекламу.