Научная статья на тему 'ДОСЛіДЖЕННЯ МЕТОДіВ АНАЛіЗУ ВіДГУКіВ ПРО ТОВАРИ МАГАЗИНіВ ЕЛЕКТРОНіКИ'

ДОСЛіДЖЕННЯ МЕТОДіВ АНАЛіЗУ ВіДГУКіВ ПРО ТОВАРИ МАГАЗИНіВ ЕЛЕКТРОНіКИ Текст научной статьи по специальности «Науки об образовании»

CC BY
134
10
i Надоели баннеры? Вы всегда можете отключить рекламу.
Журнал
ScienceRise
Область наук
Ключевые слова
ОБРОБКА ПРИРОДНОї МОВИ / ОБЧИСЛЮВАЛЬНі АЛГОРИТМИ / АНАЛіЗ ДАНИХ / КОМП'ЮТЕРНА ЛіНГВіСТИКА / NATURAL LANGUAGE PROCESSING / COMPUTATIONAL ALGORITHMS / DATA ANALYSIS / COMPUTATIONAL LINGUISTICS

Аннотация научной статьи по наукам об образовании, автор научной работы — Вечур О.В., Сподарець О.М.

Робота присвячена вивченню методів аналізу відгуків про товари магазинів електроніки. Предметом дослідження є відгуки про товари. Метою роботи є аналіз методів обробки природної мови в контексті задачі аналізу відгуків. Методом дослідження є комп'ютерне та математичне моделювання. В роботі були розглянуті різні класи методів аналізу відгуків про товари магазинів електроніки, в якості практичної реалізації було проведено порівняння результатів передбачення. Результати дослідження мають застосування при аналізі відгуків будь-якого магазину

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Research of the methods of the analysis of reviews about the goods of electronics shops

The research is devoted to the study of methods for analyzing reviews. The subject of research is the feedback on the goods. The aim of research is analysis of the NLP methods in the context of the task of reviewing feedback. The research method is computer and mathematical modeling. Various classes of methods of the analysis reviews about the good are considered in the work, a comparison of the forecasting results is implemented. Research results can be applied for the analysis of reviews of any store

Текст научной работы на тему «ДОСЛіДЖЕННЯ МЕТОДіВ АНАЛіЗУ ВіДГУКіВ ПРО ТОВАРИ МАГАЗИНіВ ЕЛЕКТРОНіКИ»

УДК 004.82

Б01: 10.15587/2313-8416.2018.135069

ДОСЛ1ДЖЕННЯ МЕТОД1В АНАЛ1ЗУ В1ДГУК1В ПРО ТОВАРИ МАГАЗИН1В ЕЛЕКТРОН1КИ

© О. В. Вечур, О. М. Сподарець

Робота присвячена вивченню методiв аналiзу вiдгукiв про товари магазинiв електротки. Предметом до^дження е вiдгуки про товари. Метою роботи е анал1з методiв обробки природной мови в контекстi задачi анал1зу вiдгукiв. Методом до^дження е комп'ютерне та математичне моделювання. В роботi були розглянутi рiзнi класи методiв аналiзу вiдгукiв про товари магазитв електронiки, в якостi практичног реалгзацИ було проведено порiвняння результатiв передбачення. Результати до^дження мають застосування при аналз вiдгукiв будь-якого магазину

Ключовi слова: обробка природной мови, обчислювальнi алгоритми, анализ даних, комп 'ютерна лiнгвiс-тика

1. Вступ

Комп'ютерний ан^з тексту на природнш мо-вi активно розвиваеться в останш роки багатьма ко-лективами. Доступш сьогодш обчислювальш потуж-носп дозволяють застосовувати для обробки великих масивiв докуменпв широкий клас математичних ме-тодiв, що сприяють ефективному вирiшенню завдань пошуку, класифiкацii, кластерного аналiзу, виявлен-ня прихованих закономiрностей в даних та iн.

З кожним роком загальний свiтовий обсяг еле-ктронноi' торгiвлi збiльшуеться на 10-20 %. За прогнозами експерпв, до шнця 2018 року близько 18 % ввд уах роздрiбних продажiв буде вiдбуватися в 1н-тернетi, а до 2040 року цей показник досягне 95 %. Збшьшення шлькосп електронно! торпвл^ особливо у сферi роздрiбних продажiв, нерозривно пов'язане зi збiльшенням шлькосп користувачiв 1нтернет-магазинiв.

Важливу роль в кожному 1нтернет-магазиш вь дграють вiдгуки про товари магазину. Вщгуки про товари забезпечують одразу юлька важливих функ-цiй: по-перше, вони забезпечують канал зворотного зв'язку мiж покупцем та магазином; по-друге, ввдгу-ки дають змогу iншим користувачам дiзнатися про досвiд користування товаром та взаемоди з магазином вщ таких самих покупцiв.

Усе вищезгадане робить вiдгуки про товари 1нтернет-магазишв надзвичайно важливою частиною електронно! комерцii.

2. Аналiз лiтературних даних та постановка проблеми

Проблемi аналiзу природно! мови присвячено достатньо багато уваги, що демонструеться значною кiлькiстю публжацш на дану тему.

Велика кшьшсть дослiджень, наприклад [14], шдшмае питання аналiзу методiв машинного навчання та !х оптимiзацii. Цi роботи глибоко роз-кривають теоретичнi засади рiзних типiв машинного навчання в контексп обробки та аналiзу природно! мови, а саме навчання з учителем в рiзних йо-го варiацiях [3], методи створення та оптимiзацii наборiв навчальних даних для автоматичного навчання [1], неперервне автоматичне навчання на

0CH0Bi подальшого аналiзу природно! мови [4] та методи покращення результапв прогнозування [2]. Bei щ роботи та безлiч iнших висвгглюють широкий круг проблем та задач обробки природно! мови, однак бшьшють з цих робгг присвячена загаль-нiй теорп аналiзу текстiв або специфiчним части-нам роботи та оптимiзацi! алгоритмiв та не беруть до уваги специфшу ввдгушв про товари магазинiв електрошки, а саме додатковi атрибути вщгуку, окрiм самого тексту та ту особливють текстiв в№ гукiв, що вони зазвичай коротш, бiльшiсть вщгушв з тестового набору мае до двох речень.

Також, багато дослщжень присвячено саме аналiзу вiдгукiв. Наприклад, в робот [5] дослвджу-еться проблема зняття неоднозначностi займенника ти/ви. Це дозволяе пiдвищити точнiсть на наступних етапах моделювання. Однак, саме по собi визначення позначеного займенником об'екту не мае практичного застосування.

Базуючись на вищезгаданих роботах по темi аналiзу природно! мови та на шших, загальновiдомих класичних дослiдженнях, дощльним е проведення додаткових дослiджень в напрямку аналiзу вiдгукiв на товари магазишв.

3. Мета та 3aia4i дослiдження

Метою дано! статi е дослвдження та покращення юнуючих методiв аналiзу вiдгукiв про товари 1нтернет-магазишв електронiки та отримання шфор-мацй' про досвiд користування товаром або послугою та взаемодй' з магазином, яка може бути використана для виявлення закономiрностей та прогнозування властивостей вщгушв, наприклад, прогнозування оцшки вiдгуку на основi його тексту.

Для досягнення мети були поставлен наступнi

задачi:

1. огляд юнуючого стану розв'язання проблеми, виявлення протирiч вiдомих теоретичних або ек-спериментальних результатiв;

2. побудова математичних та комп'ютерних моделей для аналiзу, класифiкацi! та передбачення властивостей вщгушв;

3. практична реалiзацiя класифiкатора на ос-новi для кожно! з моделей;

4. тдготовка та очистка тестових даних, тре-нування моделей та оцшка отримано! якостi класифь каци та передбачення для кожно! з моделей;

5. аналiз результатiв класифжацп та передбачення для кожно! з моделей, порiвняння результатiв з очшуваними та !х iнтерпретацiя в контекст задачi аналiзу ввдгушв на товари магазишв електронiки.

4. Матерiали та методи дослiдження

Сучасний 1нтернет-магазин не можливо уяви-ти без можливосп залишення ввдгушв про товари та про сам магазин. Зпдно дослвджень, проведених у США та Канащ в 2014 роцi, 88 % покупщв читають ввдгуки про магазини та товари перед прийняттям ршення про купiвлю. Також у результата дослщжен-ня було показано, що для користувачiв однаково ва-жливими е i к1льк1сть i якiсть вiдгукiв [6].

В данш роботi розглянуто методи автоматизо-ваного комп'ютерного аналiзу ввдгушв про товари 1нтернет-магазишв та прогнозування властивостей на основi аналiзу тексту вщгуку. Сучасний стан розвит-ку шформацшних технологiй дае змогу автоматизу-вати анал1з вiдгукiв, виявлення, не помггних на перший погляд, закономiрностей та навiть прогнозування результату та якосп ввдгуку.

Для досягнення цього були використанi про-аналiзованi методи обробки природно! мови на осно-вi векторизацп текстiв ввдгушв за допомогою загаль-новвдомого алгоритму TF-IDF та побудови прогно-зуючих моделей.

5. Дослвдження методiв моделювання для ввдгушв на товари магазишв

В якосп початкових даних була взята B^ip-ка вiдгукiв на мобiльнi телефони з 1нтернет-магазину Amazon. Ця B^ipo налiчуe бiльше 400 тисяч ввдгушв на piзноманiтнi телефони вщ бю-джетних до флагманських моделей piзних модель-них рошв.

Кожен вiдгук про товар магазину складаеться з дек1лькох атpибутiв:

- товар, про який залишено ввдгук;

- рейтингова оцiнка. Задаеться ктентом та приймае значения ввд 1 до 5;

- текст вщгуку: дов№ний текст;

- коpиснiсть вщгуку: к1льк1сть людей, як1 вщ-мггили вiдгук як корисний.

Для наочносп сприйняття в табл. 1 наведено дешлька ввдгушв з вибipки з метою розумшня з чим ми маемо справу.

Сукупнють цих атрибупв i робить предметну галузь ввдгушв на товари магазинiв електpонiки особливою та дае змогу будувати та навчати моделi ви-користовувати комбшацш властивостей вiдгуку, а не лише тексту.

Дослщимо статистичнi властивосл вибipки. З цiею метою на рис. 1 наведено графж розпод^ шль-костi вiдгукiв за довжиною. Як ми можемо перекона-тися, коpистувачi не мають схильностi писати довп вiдгуки на товари.

Таблиця 1

Частина вибiрки, яка буде використана в якостi вхiдних даних

Назва оцшка Текст вщгуку Корисшсть

Apple iPhone 6 5 Excellent phone works great,Looks great ,Works fantastic 0

Apple iPhone 6 1 It was all chippy around the edges 6

Apple iPhone 6 4 over all good condition. work great 0

Рис. 1. Розподш довжини тексту вщгушв

В ходi дано! роботи буде проведено досль дження алгоршшв для обробки природно! мови, якою викладений текст вiдгуку, на основi чого буде проведено прогнозування оцшки ввдгуку.

Нажаль, текст вiдгуку у чистому виглядi погано тдходить для машинно! обробки. Вони мають у своему склащ iнформацiю, яка не мае прямого вщ-ношення до дослiджуваних властивостей, а саме, рiз-

ш символи, гiпертекстова розмiтка. Також даш не е нормал1зованими. Тому перед моделюванням нам необх1дно тдготовити данi для обробки. З шею метою зроблено наступнi кроки:

- видалеш небуквенi символи;

- видалеш стоп-слова.

Наступним кроком буде нормал1защя даних. Важливим кроком для шдвищення ефективностi та точностi результата е приведения всiх даних до од-ше! форми. З шею метою зроблено наступш кроки:

- переведено ва слова в нижнш регiстр. Це допоможе об'еднати однаковi слова незалежно ввд !х написання;

- скорочено ва слова до певно! основи (сте-мiнг). Цей процес називають злиттям. Цей крок до-зволяе пiдвищити точнiсть.

Для перевiрки точностi моделювання роздше-но вихвдну вибiрку на 2 частини у сшввщношенш 3 до 7: б№ша частина буде використана для навчання моделей, а менша для перевiрки результатiв навчання моделей.

Пiсля етапу подготовки даних текст вiдгуку позбувся шумових символ1в, загальних сл1в, якi не несуть смислового навантаження (стоп-слiв), даш нормал1зоваш, але все ще представлеш в не придат-ному для обробки формал.

Для обробки статистичними методами та методами глибинного навчання даш мають бути представлеш у векторному виглядг Для векторизацп ви-користано-алгоритм TFIDF. Трансформовано кожний ввдгук у вектор, де елемент визначае чи е певна озна-ка з набору у ввдгуку та у якш шлькосп. Загальний вигляд вектору ознак:

Я =( ••• ^ ), (1)

де Я - це вектор ьтого ввдгуку, Wk - значення еле-менту вектору, яке приймае значення 0, якщо ознака ввдсутня у вщгуку та числове значення, яке дорiвнюе кiлькостi включень певно! ознаки у вiдгуку.

При розбиваннi тексту на ознаки було визнано доцшьним використати п-грами, тобто абстракцiю словосполучень. Дуже часто зустрiчаються словос-получення, як1 не можливо проаналiзувати за окре-мими словами [7]. В практичнш реалiзацi!' були ви-користаш найбiльш значущi п-грами ввд першого до четвертого порядку.

Пiсля шдготовки даних та проведення розбит-тя на ознаки i векторизацi! можна перейти до анал1зу методiв створення прогнозуючо! моделi. Для порiв-няння рiзних методiв була обрана задача прогнозування рейтингово! оцiнки товару користувачем на основi тексту ввдгуку, тобто ми намагаемося зрозумь ти на сшльки покупцю сподобався товар виходячи з його вiдгуку, що вимагае також i елементи аналiзу тональностi. Основним показником якостi моделi обираемо точнiсть прогнозування рейтингу товару на основi тексту вiдгуку.

В ходi моделювання були порiвнянi так мате-матичнi моделi:

- На!вна Баесова класифiкацiя. Ця класифь кацшна модель заснована на використаннi теореми

Баеса. У загальному виглядi формула мае такий вигляд:

classify ( f ... fn ) =

n (2)

= arg maxcp (C = c)Пр(^ = fi I c = c)

i=i

- класифiкатор на основi стохастичного градь ентного спуску;

- класифжатор на основi випадкового люу (Random Forest). Його суть у використанш набору дерев ухвалень ршень. Фiнальне рiшення по класи-фгкаци приймаеться пiсля проведення «голосування» кожного з дерев. Результатом е клас, за який «прого-лосувала» найбiльша к1льк1сть дерев;

- класифжатор на основi градiентного бустш-гу. Цей метод заснований на комбiнуваннi простих моделей для побудови ефективно! моделi;

- мультикласовий на!вний Баесов класифша-тор на основi методу опорних векторiв (SVM with NB features (NBSVM))[8].

- глибинне навчання на основi довго! коротко-часно! пам'ятi (архiтектура рекурентних нейронних мереж, запропонована 1997 року Зеппом Хохрайте-ром та Юргеном Шмiдгубером)[9] Перевагою цього методу е те, що цей тип нейронних мереж мае змогу вивчати довгостроковi залежносп, що може бути дуже корисним при обробш тексту, який мае певш залежносп в реченнях, що можуть бути закешованi в пам'ять нейронно! мережа;

- згортковi нейроннi мереж! [10]. Цей тип нейронних мереж традицшно використовуеться для задач обробки природно! мови та показуе хорошi ре-зультати.

6. Результати моделювання та прогнозу-

вання

Для практично! реалiзацiï порiвнюваних мето-дiв була обрана мова програмування Python та бiблi-отека scikit-learn. Мова програмування Python широко використовуеться для наукового моделювання. Бь блютека scikit-learn - це просте та ефективне ввдкри-те програмне забезпечення для аналiзу даних, в тому чи^ й для аналiзу природно! мови.

В табл. 2 наведеш результати практично! реа-лiзацi! усiх вищезгаданих методiв та апробацп !х на наявному наборi тестових.

Таблиця 2

Результати точносп передбачення рейтингово! оцшки

Назва методу Точнiсть

На!вний Баесов класифжатор 0.6569

Класифiкатор на основi стохастичного гращентного спуску 0.6818

Класифiкатор на основi випадкового лiсу 0.6565

Класифiкатор на основi градiентного бусп-нгу 0.6372

Мультикласовий на!вний Баесов класифь катор 0.6865

Класифiкатор на основi довго! короткоча-сно! пам'яп 0.6727

Класифiкатор на основi згортковi нейрон-нi мереж1 0.6781

7. Обговорення результат прогнозування для моделей

Ввдносно невисокий результат на!вного Баесо-вого класифiкатора е наслщком простоти моделi та припущень, як покладенi в основу моделi. Такий ви-сновок можна щдтвердити тим, що найкращий результат показав покращений алгоритм на!вного Баесового класифшатору на основi методу опорних векторiв.

Невисокий результат класифiкаторiв на основi випадкового лiсу та градiентного бустшгу зумовле-ний дуже високою розрщжешстю даних, що е характерною рисою коротких замггок, таких, як вщгуки на товари 1нтернет магазишв. В перспективi можливе покращення точносп роботи цих алгоритмiв за до-помогою введення додаткових обмежень зумовлених предметною галуззю, налаштування параметрiв навчання та зменшенням розмiрностi векторизованих даних за допомогою вiдбирання в ознаки тiльки най-важливiшi. Нажаль, останне може негативно вплину-ти на максимально можливу точнiсть передбачення.

Високий результат продемонстрували класифь катори на основi глибинного навчання нейронних мереж. Цi моделi очшувано проявили себе краще, нiж шш^ що зумовлено !х достатньою складшстю для обробки предметно! галузi достатньо велико! розмiрнос-тi, якою i е аналiз вiдгукiв на товари штернет-магазинiв. В перспективi можливе бiльше пiдвищення точностi за допомогою збшьшення розмiрностi векторизованих даних. 1ншим методом пiдвищення точнос-тi може бути збiльшення розмiрностi та глибини самих моделей нейронних мереж. Нажаль, обидва цi шдходи негативно впливають на швидкодiю алгоритму.

Неможливо однозначно вiдповiсти на питання який з алгоритмiв аналiзу найкращий або найпрший. Кожен з них тдходить для вирiшення певного класу практичних задач та мае потенщал вийти в лiдери.

В якосп подальших крошв в дослiдженнi ме-тодiв аналiзу вiдгукiв на товари штернет-магазишв можна розробити та дослщити властивостi алгоритму, заснованому на комбшацп декiлькох вищезгада-них моделей або дослщження бiльш специфiчних обмежень для предметно! галуз^ що може виходити за рамки тшьки лише одше! науки та знаходитися на стику психологи та шформатики.

8. Висновки

В результатi виконання роботи були дослвдже-нi рiзнi класи методiв аналiзу вiдгукiв на товари магазишв електрошки, практищ порiвнянi !х можливос-тi та результати передбачення. З щею метою були виршеш наступнi задачi:

1. дослвджено сучасний стан розв'язання про-блеми аналiзу вiдгукiв на товари магазишв, в результат чого було наочно висвгглено необхiднiсть досль дження;

2. побудовано математичнi та комп'ютерш моделi для аналiзу вiдгукiв на основi рiзноманiтних класiв методiв (Баесов класифiкатор, класифiкатор на основi випадкового люу та iншi);

3. реалiзоване прикладне програмне застосу-вання для практично! перевiрки обраних математич-них та комп' ютерних моделей;

4. в якосп тестових даних була використана вибiрка реальних вiдгукiв з категори розблокованих стiльникових телефонiв магазину Amazon. На нш були натреноваш моделi та отриманi результати прогнозування;

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

5. проаналiзовано результати для кожно! з моделей, порiвняно з теоретично очiкуваними результатами та штерпретовано отриманi результати в кон-текстi задачi аналiзу вiдгукiв на товари магазинiв електрошки.

Лггература

1. Data programming: Creating large training sets, quickly / Ratner A. et. al. // Advances in Neural Information Processing Systems (NIPS). New York: Curran Associates, 2016. P. 3567-3575.

2. Lei T., Barzilay R., Jaakkola T. Rationalizing neural predictions // Empirical Methods in Natural Language Processing. Austin, 2016. P. 107-117. doi: http://doi.org/10.18653/v1/d16-1011

3. Roth B., Klakow D. Combining generative and discriminative model scores for distant supervision // Empirical Methods in Natural Language Processing. Seattle, 2013. P. 24-29.

4. Srivastava S., Labutov I., Mitchell T. Joint concept learning and semantic parsing from natural language explanations // Empirical Methods in Natural Language Processing. Copenhagen, 2017. P. 1527-1536. doi: http://doi.org/10.18653/v1/d17-1161

5. Voigt R., Jurafsky D. The Users Who Say 'Ni': Audience Identification in Chinese-language Restaurant Reviews // Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing. Beijing, 2015. P. 314-319. doi: http://doi.org/10.3115/v1/p15-2052

6. 88% Of Consumers Trust Online Reviews As Much As Personal Recommendations // Search Engine Land. URL: https://searchengineland.com/88-consumers-trust-online-reviews-much-personal-recommendations-195803 (Last accessed: 04.06.2018)

7. Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank // Stanford University Sentiment Analysis. URL: https://nlp.stanford.edu/sentiment/ (Last accessed: 07.06.2018)

8. Wang S., Manning C. Baselines and Bigrams: Simple, Good Sentiment and Topic Classification // Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics. Jeju, 2012. P. 90-94.

9. Hochreiter S., Schmidhuber J. Long Short-Term Memory // Neural Computation. 1997. Vol. 9, Issue 8. P. 1735-1780. doi: http://doi.org/10.1162/neco.1997.9.8.1735

10. Backpropagation Applied to Handwritten Zip Code Recognition / LeCun Y. et. al. // Neural Computation. 1989. Vol. 1, Issue 4. P. 541-551. doi: http://doi.org/10.1162/neco.1989.1.4.541

Рекомендовано до публгкацИ д-р техн. наук Шостак I. В.

Дата надходження рукопису 03.05.2018

Вечур Олександр Володимирович, кандидат техшчних наук, доцент, кафедра програмно! шженерп, Харшвський нацюнальний ушверситет радюелектрошки, пр. Науки, 14, г. Харшв, Укра!на, 61166 E-mail: avechur@gmail.com

Сподарець Олексш Михайлович, кафедра програмно! iнженерi!', Харшвський нацюнальний ушверситет радюелектрошки, пр. Науки, 14, г. Харшв, Укра!на, 61166; E-mail: alexspodarets@gmail.com

i Надоели баннеры? Вы всегда можете отключить рекламу.