Научная статья на тему 'Автоматизация мониторинга цен на идентичные товары в интернет-магазинах'

Автоматизация мониторинга цен на идентичные товары в интернет-магазинах Текст научной статьи по специальности «Экономика и бизнес»

CC BY
447
50
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МНОГОКРИТЕРИАЛЬНОЕ СРАВНЕНИЕ / РАССТОЯНИЕ ЛЕВЕНШТЕЙНА / ИДЕНТИЧНОСТЬ ТОВАРОВ / ЦЕНОВАЯ КАТЕГОРИЯ / MULTICRITERIAL COMPARISON / LEVENSHTEIN DISTANCE / IDENTITY OF THE GOODS / PRICE CATEGORY

Аннотация научной статьи по экономике и бизнесу, автор научной работы — Султанов Р.О., Еланцев М.О., Чернышев К.С., Ившин С.А.

В статье рассмотрен алгоритм системы мониторинга товаров в интернет-магазинах. Система производит обход товаров в магазинах-конкурентах и сопоставляет их с номинальными товарами. Алгоритм сопоставления товаров определяет идентичные товары по названию товара и его цене. Задача сводится к точному сопоставлению строки названия товара из одного множества к другому, а также принадлежность товара к одной ценовой категории. Проведено исследование эффективности алгоритма на тестовых данных с различными параметрами алгоритма.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

AUTOMATION MONITORING OF GOODS INTERNET SHOPS COMPETITORS

In the article the algorithm goods monitoring system in the Internet-shops. The system produces a bypass goods in competing stores and compares them with nominal merchandise. The algorithm determines the comparison of the goods are identical products by product name and price. The problem is reduced to an exact comparison of the line product names from one set to another, as well as goods belonging to the same price category. A study of the effectiveness of the algorithm in the test data with the different parameters of the algorithm.

Текст научной работы на тему «Автоматизация мониторинга цен на идентичные товары в интернет-магазинах»

УДК 004.932.2

Р. О. Султанов

канд. техн. наук, доцент, кафедра «Программное обеспечение», ФГБОУ ВО «Ижевский государственный технический университет имени М. Т. Калашникова»

М.О. Еланцев

аспирант,

кафедра «Программное обеспечение», ФГБОУ ВО «Ижевский государственный технический университет имени М. Т. Калашникова»

К.С. Чернышев

старший преподаватель, кафедра «Программное обеспечение», ФГБОУ ВО «Ижевский государственный технический университет имени М. Т. Калашникова»

С.А. Ившин

студент бакалавриата, кафедра «Программное обеспечение», ФГБОУ ВО «Ижевский государственный технический университет имени М. Т. Калашникова»

АВТОМАТИЗАЦИЯ МОНИТОРИНГА ЦЕН НА ИДЕНТИЧНЫЕ ТОВАРЫ В ИНТЕРНЕТ-МАГАЗИНАХ

Аннотация. В статье рассмотрен алгоритм системы мониторинга товаров в интернет-магазинах. Система производит обход товаров в магазинах-конкурентах и сопоставляет их с номинальными товарами. Алгоритм сопоставления товаров определяет идентичные товары по названию товара и его цене. Задача сводится к точному сопоставлению строки названия товара из одного множества к другому, а также принадлежность товара к одной ценовой категории. Проведено исследование эффективности алгоритма на тестовых данных с различными параметрами алгоритма.

Ключевые слова: многокритериальное сравнение, расстояние Левенштейна, идентичность товаров, ценовая категория.

R.O. Sultanov, Kalashnikov Izhevsk State Technical University

M.O. Elancev, Kalashnikov Izhevsk State Technical University

K.S. Chernyshev, Kalashnikov Izhevsk State Technical University

S.A. Ivshin, Kalashnikov Izhevsk State Technical University

AUTOMATION MONITORING OF GOODS INTERNET SHOPS COMPETITORS

Abstract. In the article the algorithm goods monitoring system in the Internet-shops. The system produces a bypass goods in competing stores and compares them with nominal merchandise. The algorithm determines the comparison of the goods are identical products by product name and price. The problem is reduced to an exact comparison of the line product names from one set to another, as well as goods belonging to the same price category. A study of the effectiveness of the algorithm in the test data with the different parameters of the algorithm.

Keywords: multicriterial comparison, Levenshtein distance, identity of the goods, price category.

Одним из наиболее эффективных инструментов бизнеса является управление ценой. Зачастую именно ценовая политика позволяет предприятию выжить в условиях жестокой борьбы за покупателя. Чтобы застраховаться от неожиданностей многие предприятия используют мониторинг цен конкурентов. Мониторинг позволяет отслеживать ценовую ситуацию на рынке, определять тех его участников, которые стремятся к увеличению объема продаж за счет снижения цен на товары. Для решения этих задач была разработана автоматизированная система мониторинга цен конкурентов, которая включает получение и анализ данных с интернет-магазинов компаний-конкурентов.

В системе хранится набор номинальных товаров, которым сопоставляется набор това-

ров из магазина. После регистрации товаров в системе их цены обновляются автоматически с определенной периодичностью. Товары и цены хранятся в базе данных, схема которой показана на рисунке 1.

Рисунок 1 - Схема базы данных Товар в системе проходит жизненный цикл, представленный на рисунке 2.

Регистрация товара

Рисунок 2 - Жизненный цикл товара из магазина

Важной задачей является автоматическое сопоставление товаров из магазина с номинальными без участия пользователя, что обеспечит более эффективное введение в эксплуатацию системы и последующее её расширение. Были выделены следующие критерии сопоставления:

1. схожесть названий товаров;

2. принадлежность одной ценовой категории.

Для объединения критериев используется формула:

J{PVP2) = k • A + (1 -k)• B , (1)

где р и P2 - номинальный товар и товар из магазина, k - взвешивающий коэффициент, A - критерий схожести названий товаров, B - критерий принадлежности одной ценовой категории. Товар из магазина P2 привязывается к номинальному товару P1, если выполняется условие: J(P1,P2)< T, где T - порог оценки идентичности товаров.

Критерий схожести названий товаров

Для нахождения значения критерия схожести названий товаров необходимо использовать алгоритм, учитывающий совпадающие символы в строке, варианты перестановок символов, замены и удаления. Были рассмотрены алгоритмы: вычисления расстояния Левенштейна [1; 2] и Oliver similar text algorithm [3]. Алгоритм вычисления расстояния Левенштейна по сравне-

нию с Oliver similar text обладает большим быстродействием, а именно O(M ■ N) против O(max(N,M)3), где M и N - длины первой и второй строк соответственно. Так как результат вычисления расстояния будет зависеть от длин строк, необходимо нормировать этот критерий:

A =

levinshtain (S1,S2)

(2)

max (M,N)

где levinshtain(S1,S2) - расстояние Левенштейна для строк S1 и S2, которое вычисляется по формуле:

0;i = 0, j = 0; i, j = 0,i > 0; j; i = 0, j > 0; ' D(i, j -1) +1,

D(i -1, j) +1, yD(j -1, j -1) + m(S1 [i],S2 [j])

D (i, j ) =

(3)

min

; j > 0, i > 0,

где т(а,Ь) = <Г,а Ь. Формула (3) является рекурсивной, шаг по / символизирует удаление [1,а ф Ь

символа из 51, по } - вставку в 51, а шаг по обоим индексам символизирует замену символа

или отсутствие изменений.

Определение принадлежности ценовой категории системы

Для улучшения точности работы алгоритма привязки товаров необходимо учитывать принадлежность товаров к одной ценовой категории. Среднее отклонение цены идентичных товаров составляет от 0% до 20% [2]. Таким образом, критерий принадлежности ценовой категории будет иметь вид:

ГС, С < 0.2

B =

1, C > 0.2 '

(4)

abs (l1 -12)

где C =--^, l1 и l2 - цена на первый и второй товары.

max (l1,l2)

а)

б)

Рисунок 3 - Графики зависимости: а) эффективности алгоритма от взвешивающего коэффициента к; б) К от порога Т

Оценка работы алгоритма

Для оценки работы алгоритма было произведено сопоставление 222 товаров из магазинов и 650 номинальных товаров. Считается, что товар из магазина сопоставлен верно, если: он был сопоставлен с идентичным товаром, присутствующим среди номинальных; он не был сопоставлен ни с одним товаром и идентичного товара нет среди номинальных. Эффективность работы алгоритма R равна доле товаров, которые были верно сопоставлены.

Для определения оптимальных значений k и T была проведена серия экспериментов, результат которых предоставлен на рисунке 3.

При выборе k = 0.325 и T = 0.2 эффективность работы алгоритма составила 91%, что является приемлемым.

Реализованный алгоритм учитывает регистр букв в названиях товара, но не учитывает эквивалентность строк, написанных на разных языках, а также наличия в названии товара подстроки - названия каталога.

Для повышения эффективности алгоритма возможно рассмотрение такого критерия, как схожесть описания товара, а также создание словаря соответствия строк на разных языках и исключение названий каталогов из заголовка товара.

Список литературы:

1. Гасфилд Д. Строки, деревья и последовательности в алгоритмах: информатика и вычислительная биология / пер. с англ. И.В. Романовского. - СПб.: Невский Диалект, 2003. - 654 с.

2. Романовский И.В. Дискретный анализ: учебное пособие для студентов специализирующихся по прикладной математике и информатике. - 3-е изд., перераб. и доп. - СПб.: Невский Диалект, 2003. - 320 с.

3. Ian Oliver Programming Classics: Implementing the World's Best Algorithms // Prentice Hall, 1993. - С. 386.

4. Ротарь О.Ю., Гусейнова Н.Э. Обоснование отклонений цен от рыночных с помощью маркетинговой политики // Современные тенденции в экономике и управлении: новый взгляд. - 2014. - Вып. 29. - С. 121-126.

i Надоели баннеры? Вы всегда можете отключить рекламу.