Кластеризация вопросительных запросов по UK и US Clustering of question queries for the UK and US
I i (" МОСКОВСКИЙ ШЩ ЭКОНОМИЧЕСКИЙ ЖУРНАЛ
УДК 339.13 DOI 10.24411/2413-046Х-2018-15068
Исследование выполнено при финансовой поддержке РФФИ и Пермского края в рамках
научного проекта № 18-410-590007
Плотников А.В.,
к.э.н., Пермский государственный аграрно-технологический университет им. ак. Д. Н. Прянишникова Plotnikov A.V.,
Candidate of Economic Sciences, Perm State Agro-Technological University named after Academician D.N. Pryanishnikov
Аннотация: Анализ поисковых запросов, по которым на сайт приходят посетители из поисковых систем достаточно актуален, т.к., понимая интенты пользователей, можно спрогнозировать количество визитов на сайт, применяя теорию вероятностей, можно спрогнозировать конверсию и количество заключенных контрактов. Основная суть исследования состоит в том, чтобы поисковые запросы разбить на кластеры методом Ward по UK и US, содержащие общие интенты пользователей сети Интернет. В результате образовалось два кластера по UK и три по US.
Summary: Analysis of search queries, which come to the site visitors from search engines is quite relevant. Because understanding the intents of users can predict the number of visits to the site. It is possible to predict the conversion and the number of contracts by applying the theory of probability. The main essence of the study is the clustering of search queries by the Ward method for the UK and US. The queries in the clusters contain a common intent of users of the Internet. As a result, were formed two clusters of UK and three of US.
Ключевые слова: интернет-маркетинг, цифровая экономика, поисковый маркетинг, Google Trends.
Keywords: Internet Marketing, Digital Economy, Search Engine Marketing, Google Trends.
Web-приложение Google Trends
Google Trends (GT) используется для анализа различных переменных в широком спектре областей, включая информационные технологии, коммуникации, медицину, здравоохранение, бизнес и экономику. Кроме того, этот анализ показывает, что исследования с использованием GT резко возросли за последнее десятилетие, и в этом процессе фокус исследований сместился на прогнозирование изменений, тогда как в прошлом основное внимание уделялось простому описанию и диагностике тенденций в области различных исследований, таких как наблюдение и мониторинг. Это демонстрирует, что в последние годы наблюдается расширение анализа данных в связи с появлением других социальных источников больших данных. [6] Существует множество исследований посвященные изучению поведения на основе данных GT. Так, например, Maria José Palma Lampreia Dos Santos [4] использовала данные GT, многомерный анализ и эконометрические модели для прогнозирования новых тенденций в аквапонике (высокотехнологичный способ ведения сельского хозяйства, сочетающий аквакультуру и гидропонику). Varun Dewan, Hartej Sur [8] использовали GT для оценки сезонности пациентов с симптомами болезней коленного сустава, которые могут свидетельствовать о травме колена. Исследование показывает, что интернет-поиск симптомов, связанных с травмами коленного сустава, показал сезонную тенденцию.Анализ данных GT помогает в разработке стратегий для стимулирования туризма в Кералу и, впоследствии, в разработке структурированной методологии, которая применяет различные эконометрические модели для прогнозирования ежемесячных тур-потоков из местных и иностранных туристов. [7] Другими авторами [5] предлагается модель прогнозирования потребления нефти в режиме реального времени в Интернете с использованием тенденций Google, которые точно отражают различные связанные факторы, основанные на множестве результатов поиска. В другом исследовании GT применяют при прогнозировании направления индексов фондового рынка. [3]
Кластеризация
Кластеризация - это группировка, необходимая для объединения запросов, схожих по интенту (смыслу, намерениям занятого поиском), независимо от их семантической релевантности соответствует общий интент, запросы выражают одно пользовательское намерение); проверки совместимости, одновременного продвижения запросов (например, можно ли настроить SEO оптимизацию по запросам некоторой страницы или потребуется раздельное продвижение по ним).[1]
Вопросительные запросы
Анализ поисковых запросов, по которым на сайт приходят посетители из поисковых систем достаточно актуален, т.к., понимая интенты пользователей, можно спрогнозировать количество визитов на сайт, применяя теорию вероятностей, можно спрогнозировать конверсию и количество заключенных контрактов. Когда речь идет о поиске, мы традиционно считаем, что результаты поиска - это веб-документы, релевантные запросам. Однако сейчас поисковые системы предлагают готовый ответ на вопрос, минуя визит пользователя на сайт. В 1980-х и 1990-х годах исследователи использовали подход к поиску информации, в котором рассматривали каждый вопрос как поисковый запрос, извлекали набор релевантных документов, извлекали варианты ответов из результатов и затем представляли лучший вариант ответа пользователю. В отличие от предыдущих QA-систем, которые полагались на поиск информации, чтобы извлекать ответы из неструктурированного контента, современные системы строят базы знаний, извлекая онтологию сущностей и отношений из комбинации структурированного и неструктурированного контента. Они используют последние разработки в области машинного обучения, представляя релевантный вопросу текст. [2]
Вопросительные запросы - это запросы на естественном языке, независимо от того, передаются ли они с клавиатуры или микрофона. К сожалению, существует множество возможностей для системы неправильно понимать искателя: орфографические ошибки, ошибки распознавания речи и множество ошибок обработки естественного языка. Никакая система не идеальна, но частота ошибок должна быть достаточно низкой, чтобы пользователи не разочаровывались поисковой системой и не переходили на пользование другой.
Гибридный подход
Учитывая все особенности, неудивительно, что мы видим гибридные подходы, которые сочетают традиционные поисковые системы с системами контроля качества поиска. Когда система QA имеет высокую степень доверия, она возвращает ответ; в противном случае поисковая система возвращается к выполнению поиска и возвращает ранжированный список результатов. Системы QA представляют собой логическую эволюцию поисковых систем, где пользователи ожидают на заданные вопросы получать готовые ответы, а не результаты поиска.
Кластеры
Были проанализирован вопросительные запросы по общей маске запроса «html» по странам UK (N=11964) и US (N=27292). В итоге было извлечено 57 уникальных слов для UK и 60 для US. Проведем кластерный анализ методом Варда (Ward) и построим
горизонтальные древовидные дендрограммы для вопросительных запросов по ЦК и ЦБ, используя программу 81ай81;1са. Этот метод направлен на объединение близко расположенных кластеров. В целом метод представляется очень эффективным, однако он стремится создавать кластеры малого размера. В результате мы видим (рис.1 и рис.2) отличия, на дендограмме по ЦК мы видим 2 основных больших кластера; по ЦБ - 2, где второй в свою очередь делится на 2. В заключении можно сказать, что слова, стоящие рядом скорее имеют общий смысл и могут использоваться на одной странице.
Рисунок 2. Кластеризация вопросительных запросов в поисковой системе Google (US)
Список литературы
1. Чекушин А. Азбука кластеризации [Электронный ресурс] searchengines.ru/azbuka_klasterizats.html
2. Daniel Tunkelang. Question Answering [Электронный ресурс] https://queryunderstanding.com/question-answering-94984185c203
3. Hongping Hu, Li Tang, Shuhua Zhang, Haiyan Wang, Predicting the direction of stock markets using optimized neural networks with Google Trends // Neurocomputing, Volume 285. 2018. С.188-195. https://doi.org/10.1016/j.neucom.2018.01.038.
4. Maria José Palma Lampreia Dos Santos, Nowcasting and forecasting aquaponics by Google Trends in European countries // Technological Forecasting and Social Change, Volume 134. 2018. - С. 178-185. https://doi.org/10.10167j.techfore.2018.06.002
5. Lean Yu, Yaqing Zhao, Ling Tang, Zebin Yang, Online big data-driven oil consumption forecasting with Google trends // International Journal of Forecasting. 2018. https://doi.org/10.1016/j.ijforecast.2017.11.005
6. Seung-Pyo Jun, Hyoung Sun Yoo, San Choi, Ten years of research change using Google Trends: From the perspective of big data utilizations and applications // Technological Forecasting and Social Change, Volume 130. 2018. С. 69-87. https://doi .org/10.1016/j.techfore.2017.11.009.
7. Sidhartha S. Padhi, Rupesh K. Pati, Quantifying potential tourist behavior in choice of destination using Google Trends // Tourism Management Perspectives, Volume 24. 2017. C.34-47. https://doi.org/10.1016Zj.tmp.2017.07.001
8. Varun Dewan, Hartej Sur, Using google trends to assess for seasonal variation in knee injuries // Journal of Arthroscopy and Joint Surgery. 2018. https://doi.org/10.1016/jjajs.2018.02.002