Научная статья на тему 'Как анализ корпуса рецензий пользователей помогает выбирать технику'

Как анализ корпуса рецензий пользователей помогает выбирать технику Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
102
30
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Кириллов Д.Ю.

На материале анализа корпуса рецензий пользователей с Яндекс.Маркета было проведено исследование оценки таких аспектов как быстродействие, надежность и т.д. на примере смартфонов. В основе лежит сопоставление результатов, с одной стороны, извлечения информации и мнений из корпуса рецензий, а с другой той информации, что предоставляет рекламодатель. Демонстрируется, например, что оценка быстродействия пользователями близка с информацией от рекламодателя, оценки по работе батареи или камеры могут существенно различаться, а информацию о надежности устройства можно получить только из рецензий.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Как анализ корпуса рецензий пользователей помогает выбирать технику»

Как анализ корпуса рецензий пользователей помогает выбирать технику

Кириллов Д.Ю., СПбГУ kirillov.bot.daniil@yandex.ru

Аннотация

На материале анализа корпуса рецензий пользователей с Яндекс.Маркета было проведено исследование оценки таких аспектов как быстродействие, надежность и т.д. на примере смартфонов. В основе лежит сопоставление результатов, с одной стороны, извлечения информации и мнений из корпуса рецензий, а с другой той информации, что предоставляет рекламодатель. Демонстрируется, например, что оценка быстродействия пользователями близка с информацией от рекламодателя, оценки по работе батареи или камеры могут существенно различаться, а информацию о надежности устройства можно получить только из рецензий.

1 Введение

Проблема выбора электроники знакома каждому. Для человека, не разбирающегося в технических характеристиках это крайне нетривиальная задача, поскольку имеющийся на рынке ассортимент с лихвой перекрывает наши потребности. Только уникумы способны легко ориентироваться в тысячах моделей смартфонов, и то, как правило, это технические специалисты, имеющие с ними дело каждый день. У всех остальных глаза разбегаются, стоит только зайти в приличный интернет-магазин.

В данной работе мы рассмотрим актуальность анализа корпуса рецензий в рекомендательных системах по выбору техники.

При выборе девайсов мы ориентируемся на три источника информации:

• свой пользовательский опыт и своего окружения

• известные технические характеристики устройства

• отзывы тех, кто уже имел с этим устройством дело (например, рецензии на сайтах магазинов).

Собственному опыту мы доверяем больше всего, но его широта ограничена, так как всё в руках не подержишь. Для учета неко-

торых технических характеристик нужно обладать определенными знаниями, например, понимать, когда четырехъядерный процессор будет лучше восьмиядерного. С этой позиции, рецензии других людей содержат в себе обширную и более удобную для восприятия субъективную точку зрения об устройстве, но тогда нужно принимать во внимание человеческий фактор и ориентироваться на корпус рецензий достаточного объема.

Оптимальным вариантом выбора техники является сопоставление информации о технических характеристиках устройства и опыта реальных пользователей, прежде всего корпуса рецензий.

2 Материал и методика

Исходный корпус отзывов о смартфонах состоит из 240 отзывов с сервиса Яндекс -маркет. Корпус представлен текстами на русском разговорном языке с сайта, где пользователи оставляют свои отзывы об использовании техники.

Примеры отзывов:

1: Достоинства:

Производительность.

Недостатки:

Камера (стала жутко белить картинку) Звук (хотя мне просто не нравится звук, выдаваемый SONY) GPS

Комментарий:

За такую цену смартфон должен быть получше. После нескольких месяцев использования камеры что-то произошло и она стала жутко белить. Несколько раз терял GPS в тех местах, где другие смартфоны работали (при этом у попутчиков GPS на других телефонах отлично работал, дело всё происходило офлайн за границей).

2: Достоинства:

Это единственный аппарат, который дёргаю более 3 лет, оставаясь доволен (ИМХО). Рекомендую настоятельно! Достоинств крайне много: отличный экран с качественной цветопередачей и заводской защитой от брызг и ударов. Мегафункцио-

нален и эргономичен, отлично проявил себя на протяжении более 3 лет активной эксплуатации. Модули "интернет-приёмника" и wi-fi нареканий не вызвали. "На УРА"ра-ботает при одновременном запуске и использовании кучи разнообразного софта. Достаточно трудно убиваем даже без чехла, защитных стёкол и плёнок - полгода пришлось обходиться без данных аксессуаров (итог: ни одной внешневидимой царапины).

Недостатки:

Большая часть недостатков окажется субъективной и будет зависеть от модели партии, однако: 1. Камера при видеосъемке оставляет желать лучшего (размытость и замыленность) даже при максимальных настройках софта или смене прошивки (20 пикселей не спасают только при фото -матрица в данном аппарате могла бы быть и лучше); 2. На заглушке для зарядки устройства через продолжительное время отлетают резинки. Есть риск попадания сторонних частиц в зазоры аппарата через гнездо; 3. При активном использовании батарея со временем сходит "на нет" - при включении стандартного режима энергосбережения "Stamina" срок работы аппарата без подзарядки составит max 40 часов в средней загрузке против 7-8 дней в первые месяцы начала эксплуатации. (хотя и этого будет многим достаточно); 4. Со временем при одновременном использовании модулей внешних соединений (wi-fi, gps и интернет) наблюдается перегрев процессора с явными "оттёками" желтизны в левой верхней части экрана; 5. Не совсем минус, однако: заниженный общий уровень звука при подключении гарнитуры (любой) -политика Sony ( "высокий уровень громкости может повредить ваш слух"). Можно вылечить "грамотной" перепрошивкой.

Комментарий:

Обладатель партии 14w17, при этом досталась скудная комплектация с дешёвыми ушными "затычками", которые вскоре поменял, докупив mdr-nc31-em. Несмотря на минусы, аппарат прослужил более 3 лет верой и правдой, заслужив пятёрку, ибо большинство минусов проявилось лишь на третий год юзки данной модели. Аппарат жив и по сей день. Надеюсь, что Sony и дальше будет радовать неубиваемыми аппаратами.

3 : Достоинства:

хорошиёй экран и сборка

Недостатки:

плохая камера хоть и говорят что камера хорошая , но как не крути настройки всё равно что-то не так(в оснвном фотография либо тёмная либо синит) . нигде не чинется

Комментарий :

у меня через два года телефон полностью умер сам по себе

В качестве источника материала для исследования мы выбрали Яндекс.Маркет, как популярный рекомендательный сервис, не использующий анализ рецензий пользователей. Устройством для исследования были выбраны смартфоны, так как для них исследование наиболее актуально, ввиду огромного и постоянно расширяющегося ассортимента.

В данной работе применяется подход, при котором список аспектов объектов (в нашем случае - смартфонов) не извлекается из отзывов автоматически, а составляется вручную исходя из потребностей пользователей системы, в которой будет использоваться модуль анализа тональности (ср. [Bermingham, Smeaton, 2007; Dave, Lawrence, Pennock, 2003; Sidorov, Velasquez, Stamatatos, Gelbukh, Chanona-Hernândez, 2014; Asanov] и др.).

В процессе создания рекомендательной системы на базе information extraction и анализа тональности (sentiment analysis) были отобраны наиболее важные характеристики рассматриваемой техники (или аспекты в рамках нашего исследования, этим термином мы и будем далее пользоваться): «быстродействие», «работа батареи», «работа камеры», «надежность», «вес», «размер», «дизайн», «удобство использования» и т.д. (ср. предыдущие работы нашей группы по рекомендательным системам, напр., [Pronoza, Yagunova, Lyashin, 2013; Pronoza, Volskaya, Yagunova 2014; Проноза Е.В., Ягунова, 2015] и др.).

Для каждого аспекта были выделены варианты. Например, для аспекта «работа батареи» были выделены варианты «время работы от батареи», «оценка работы батареи», «время зарядки батареи». Каждому варианту соответствует множество значений, которые он может принимать. Список вариантов, сравнение по которым прово-

дится в данной статье, приведен в таблице 1.

Табл. 1. Исследуемые варианты

Параметр Множество значений

Оценка быстродействия {Хорошо; Плохо}

Оценка работы батареи {Хорошо; Плохо}

Оценка работы камеры {Хорошо; Плохо}

Оценка надежности {Хорошо; Плохо}

Для выделения параметров в тексте с каждым из них сопоставляется набор ключевых слов, по которым его можно определить. Например, для параметра «Оценка быстродействия» можно выделить такие ключевые слова, как «производительность», «скорость работы», «процессор» (Примеры: «Мощное железо, в игрушки не играю, но модельки со скетчфаба кру-

Табл. 2. Статистика покрытия

тит как на стационарном ПК на ¡7», «Отличный процессор даже для 2017», «хорошая производительность»), а для параметра «Оценка работы батареи» такие, как «автономность», «время работы», «батарея», «аккумулятор» (Примеры: «хорошо держит батарею», «Аккумулятор отличный», «быстро разряжается несмотря многочисленные энергосберегающие фишки», «Хорошо держит заряд»).

Информация извлекается с помощью шаблонов. Текст проверяется на наличие ключевых слов («процессор», «камера», «батарея»), а затем анализируется окно -2/+5 слова от ключевого на наличия оценочных слов («хороший», «быстрый», «отличный»), по которым делается вывод о тональности.

В таблице 2 преставлена статистика встречаемости в корпусе искомой информации.

Модель 8опу Хрейа 23 8опу Хрепа 22 Х1аош1 М14 ОпеР1ш ОпеР1ш X ьа а4 Н818 ьа ую Н9618

Процент покрытия вариантом «Оценка быстродействия» 43 50 65 38 28 48

Процент покрытия вариантом «Оценка работы батареи» 43 50 53 50 40 55

Процент покрытия вариантом «Оценка работы камеры» 58 50 55 28 60 80

Процент покрытия вариантом «Оценка надежности» 58 40 20 3 73 28

В основе результирующей рекомендательной системы будут использованы модели машинного обучения.

3 Предварительные результаты

Было проверено, как часто пользователи положительно оценивают исследуемые варианты. Статистика по положительным оценкам представлена в таблице 3.

Табл. 3. Количество положительных оценок исследуемых вариантов (%)

Модель 8опу Хрепа 23 8опу Хрепа 22 Х1аош1 М14 ОпеР1ш ОпеР1ш Х ьа а4 Н818 ьа ую Н9618

Положительно об «Оценке быстродействия» 94 90 92 93 64 84

Положительно об «Оценке работы батареи» 76 60 86 35 13 14

Положительно об «Оценке работы камеры» 65 65 73 64 100 97

Положительно об «Оценке надежности» 9 44 50 100 3 64

Друг с другом сравнивались смартфоны ми производителем. Эти характеристики

со сходными характеристиками указанны- представлены в таблице 4.

Табл. 4. Количество положительных оценок исследуемых вариантов (%)

Модель 8опу Хрепа 23 8опу Хрепа 22 Х1аош1 М14 ОпеР1ш ОпеР1ш Х ьа а4 Н818 ьа ую Н9618

Положительно об «Оценке быстродействия» 94 90 92 93 64 84

Положительно об «Оценке работы батареи» 76 60 86 35 13 14

Положительно об «Оценке работы камеры» 65 65 73 64 100 97

Положительно об «Оценке надежности» 9 44 50 100 3 64

При сходных характеристиках указанных производителем, как правило, сходной является и оценка пользователями этих характеристик. Например, оценка пользователями быстродействия первых четырех моделей, обладающих одинаковой начинкой, практически совпадает.

Тем не менее, идиллия заканчивается, когда дело доходит до характеристик, которые производителями не озвучиваются. Самым ярким примером является параметр «Надежность». Даже у смартфонов, выпущенных одним производителем в один год, оценка надежности пользователями может кардинально отличаться. Надежность Sony Xperia Z3 оценивается положительно только в 9 процентах случаев, в остальных негативно (примеры: «При легком ударе дважды разбивалось стекло даже с защитным стеклом», «После 1,5 лет стал сильно греться в момент разговора так, что невозможно общаться. Вердикт - проблема с платой, замена которой стоит 12 000 рублей»), в отличие от выпущенного ранее Sony Xperia Z2, чья надежность оценивается гораздо выше (примеры: «Достаточно трудно убиваем даже без чехла, защитных стёкол и плёнок», «Продуманный аллюминиевый прочный корпус, легко лежит в руке»). Еще более наглядная ситуация с моделями компании LG. Несмотря на упоминание надежности LG G4 H818 практически в каждом отзыве, положительным является всего один. Причина в браке материнской платы, из-за которого редкий смартфон доживает до двухлетнего юбилея. Естественно, в официальных характеристиках этот момент не указан, и узнать о нем можно только из рецензий (примеры: «Ровно через месяц после гарантии у смартфона погас экран, благо была доп гарантия. На форумах у всех такая же беда.», «Эффект постоянной перезагрузки дефект», «проработал

1год7месяцев и все..... bootloop ...выключился

и больше не включается.», «Умер спустя полгода.»). Что же касается LG V10 H961S, то надежность смартфона, выпущенного чуть позже, оценивается довольно неплохо (примеры: «Металл на боковинах жесткий и не царапается ну разве что об камень его со всей дури долбануть а вобще у него хорошая ударопрочность по военным стандартам и даже стекло на экране двойное и намного крепче обычной гориллы 4.», «Вычитала про LG V10, что одним из его достоинств, помимо ну ооочень серьезных технических харак-

теристик, является ударопрочность. Поживем - увидим, но пока полет - нормальный (если быть честной, уже несколько полетов было и на кафель, и на асфальт, и на лед, и наступали и тд и тп)) даже чехол на него не покупаю и на стекло защитных пленок не клею - пока ни единой, ни единой!! царапинки. В сумку просто с ключами вместе бросаю и бегаю с детьми на детской площадке и с горки катаюсь. В общем, я расслабилась окончательно, когда люди видят, как я обращаюсь с телефоном и даю его маленьким детям, они в шоке. А я с таким видом, типа «да подумаешь, разобьется»)) Но я то знаю, что корпус у него защищен по военным стандартам, натурально - по военным, там у них свои ГОСТы. Большой дисплей 5.7 дюймов тоже защищен - ударопрочным стеклом с 2х-слойной структурой Gorilla Glass. Задняя крышка - материал по типу силикона, тоже не царапается, еще и удары смягчает, по бокам - сталь.»). Очевидно, что чтобы сделать информированный выбор между этими двумя моделями, потребовалось бы проанализировать отзывы.

4 Предварительные выводы

На материале анализа корпуса рецензий пользователей с Яндекс.Маркета были получены оценки таких аспектов как «быстродействие», «работа батареи», «работа камеры» и «надежность» на примере смартфонов. Сопоставив результаты извлечения информации и мнений из корпуса рецензий и ту информацию, что предоставляет рекламодатель, мы продемонстрировали, что оценка быстродействия пользователями близка с информацией от рекламодателя, оценки по работе батареи или камеры могут существенно различаться, а информацию о надежности устройства можно получить только из рецензий. Поэтому оптимальным при выборе техники следует опираться как на официальные характеристики, так и на анализ корпуса рецензий.

Благодарности

Я благодарю своего научного руководителя Е.В. Ягунову за помощь в подготовке к работе по теме подготовки к диплому и, в частности, за помощь в подготовке статьи. Я благодарю нашего преподавателя Е.В. Пронозу и студентов нашей программы за возможность обсуждения тематик «Рекомендательные си-

стемы» и «Математические методы обработки текстов».

Список литературы

Bermingham A., Smeaton A. Classifying Sentiment in Microblogs: Is Brevity an Advantage? // Proceedings of the International Conference on Information and Knowledge Management (CIKM), 2010. Das S. R., Chen M. Y. Yahoo! for Amazon: Sentiment Parsing from Small Talk on the Web // Management Science, vol. 53 (9), pp. 1375-1388, 2007.

Dave K., Lawrence S., Pennock D. M. Mining the Peanut Gallery: Opinion Extraction and Semantic Classification of Product Reviews // Proceedings of the 12th International Conference on World Wide Web, pp. 519-528, 2003.

Sidorov G., Velasquez F., Stamatatos E., Gelbukh A., Chanona-Hernández L. Syntactic N-grams as Machine Learning Features for Natural Language Processing // Expert Systems with Applications, vol. 41 (3), 2014, pp. 853-860, 2014.

Pronoza E., Yagunova E., Lyashin A. Restaurant Information Extraction for the Recommendation System // Proceedings of the 6th Language Technology Conference: Human Language Technologies as a Challenge for Computer Science and Linguistics, 2nd Workshop on Social and Algorithmic Issues in Business Support: "Knowledge Hidden in Text", 2013.

Pronoza E., Volskaya S., Yagunova E. Corpus-based Information Extraction and Opinion Mining for the Restaurant Recommendation System. Proceedings of the 2nd Statistical Language and Speech Processing. L. Besacier et al. (Eds.): SLSP LNAI 8791, pp. 272-284, 2014

Daniar Asanov Algorithms and Methods in Recom-mender Systems https://www. snet.tu-berlin.de/fileadmin/f g220/courses/S S11 /snet-project/recommender-systems asanov.pdf

Проноза Е.В., Ягунова Е.В. Аспектный анализ отзывов о ресторанах для рекомендательных систем е-туризма. Компьютерная лингвистика и вычислительные онтологии: сборник научных статей. Труды XVIII объединенной конференции «Интернет и современное общество» (IMS-2015), ред.: Н.В. Борисов, А.В. Добров, В.П. Захаров, В.П. Леонов, Н.Н. Леонтьева. Санкт-Петербург, 23-25 июня 2015 г. - СПб: Университет ИТМО, 2015, с. 130-141.

i Надоели баннеры? Вы всегда можете отключить рекламу.