Научная статья на тему 'Показатели асимметрии в задачах изучения поведенческой активности пользователей продукта'

Показатели асимметрии в задачах изучения поведенческой активности пользователей продукта Текст научной статьи по специальности «Экономика и бизнес»

CC BY
123
16
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
АСИММЕТРИЯ / РЕГРЕССИОННЫЙ АНАЛИЗ / КЛАСТЕРНЫЙ АНАЛИЗ / ТЕОРИЯ ГРАФОВ / ДЕНДРОГРАММЫ / ASYMMETRY / REGRESSION ANALYSIS / CLUSTER ANALYSIS / GRAPH THEORY / DENDROGRAMS

Аннотация научной статьи по экономике и бизнесу, автор научной работы — Кисляков Алексей Николаевич

В работе рассматривается концепция использования эффекта нарушения симметрии для оценки устойчивости развития рынков товаров и услуг на основе анализа результатов поведенческой активности пользователей продуктов. Разработанная методика основана на показателе асимметрии, который может быть полезен не только при оценке однородности выборки при построении регрессионных моделей, но и при оценке оптимального количества кластеров при решении задач кластеризации. применяться в целях прогнозирования и оптимизации ведения хозяйственной деятельности, а также для интерпретации закономерностей эволюции в социально-экономических системах, природных и биологических системах.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

INDICATORS OF ASYMMETRY IN THE TASKS OF STUDYING THE BEHAVIORAL ACTIVITY OF PRODUCT USERS

The paper considers the concept of using effect of the broken symmetry to assess the stability of the development of markets for goods and services based on the analysis of the results of behavioral activity of product users. The developed method is based on the asymmetry indicator, which can be useful not only for evaluating the sample homogeneity when constructing regression models, but also for evaluating the optimal number of clusters when solving clustering problems. It can be used for forecasting and optimization of economic activity, as well as for interpreting the laws of evolution in social and economic systems, natural and biological systems

Текст научной работы на тему «Показатели асимметрии в задачах изучения поведенческой активности пользователей продукта»

Кисляков А.Н.

ПОКАЗАТЕЛИ АСИММЕТРИИ В ЗАДАЧАХ ИЗУЧЕНИЯ ПОВЕДЕНЧЕСКОЙ АКТИВНОСТИ ПОЛЬЗОВАТЕЛЕЙ ПРОДУКТА

Аннотация. В работе рассматривается концепция использования эффекта нарушения симметрии для оценки устойчивости развития рынков товаров и услуг на основе анализа результатов поведенческой активности пользователей продуктов. Разработанная методика основана на показателе асимметрии, который может быть полезен не только при оценке однородности выборки при построении регрессионных моделей, но и при оценке оптимального количества кластеров при решении задач кластеризации. применяться в целях прогнозирования и оптимизации ведения хозяйственной деятельности, а также для интерпретации закономерностей эволюции в социально-экономических системах, природных и биологических системах.

Ключевые слова. Асимметрия, регрессионный анализ, кластерный анализ, теория графов, дендро-граммы.

Kislyakov A.N.

INDICATORS OF ASYMMETRY IN THE TASKS OF STUDYING THE BEHAVIORAL ACTIVITY OF PRODUCT USERS

Abstract. The paper considers the concept of using effect of the broken symmetry to assess the stability of the development of markets for goods and services based on the analysis of the results of behavioral activity of product users. The developed method is based on the asymmetry indicator, which can be useful not only for evaluating the sample homogeneity when constructing regression models, but also for evaluating the optimal number of clusters when solving clustering problems. It can be used for forecasting and optimization of economic activity, as well as for interpreting the laws of evolution in social and economic systems, natural and biological systems.

Keywords. Asymmetry, regression analysis, cluster analysis, graph theory, dendrograms.

Введение

Современное состояние исследований социально-экономических систем представляет собой процесс взаимного проникновения концепций, принципов, моделей и методов из смежных наук, что расширяет возможности для понимания явлений, происходящих в мире природы и человека [1, 2]. В условиях цифровизации рыночной экономики особую степень важности и актуальности приобретают задачи построения прогностических моделей эволюции рынков товаров и услуг, основанные на изучении поведения потребителей. Разумеется, принятие решений по развитию продуктов, позиционированию их

ГРНТИ 06.35.51 © Кисляков А.Н., 2020

Алексей Николаевич Кисляков - кандидат технических наук, доцент, доцент кафедры информационных технологий Владимирского филиала Российской академии народного хозяйства и государственной службы при Президенте Российской Федерации.

Контактные данные для связи с автором: 601293, Владимирская обл., г. Суздаль, ул. Ленина, д. 32 (Russia, Vladimir reg., Suzdal, Lenin str., 32). Тел.: +7 904 261-57-18. Е-mail: ankislyakov@mail.ru. Статья поступила в редакцию 03.04.2020.

на рынке, брендированию и т.п. должно сопровождаться не только маркетинговыми исследованиями, но и более обширными исследованиями состояния рынков на предмет стабильности развития.

В этой связи, целю работы является разработка методики оценки устойчивости функционирования рынков товаров и услуг на основе результатов анализа поведенческой активности пользователей продуктов. Разработанная методика позволяет создавать математические модели и автоматизированные интеллектуальные системы поддержки принятия решений в целях повышения эффективности ведения хозяйственной деятельности в изменяющихся условиях. Материалы и методы

Наиболее распространенными на сегодняшний день являются регрессионные прогностические модели, лежащие в основе большинства моделей интеллектуального анализа данных и машинного обучения, при создании которых возникает необходимость математического описания модели на основе обучающей выборки с большим количеством признаков-факторов и апробации созданной модели на основе тестовой выборки. Однако, зачастую возникают ситуации, когда при выполнении регрессионного анализа поведения клиентов модель хорошо работает на тестовой выборке, но показывает неудовлетворительные результаты на тестовых данных даже при кросс-валидации.

В этом случае сложность состоит не в переобучении модели, а в том, что в тестовой выборке существуют неочевидные закономерности, которые не учитываются при построении модели. Избежать данной ситуации позволяет ряд методов, таких как, например, ковариативный сдвиг, удаление смещенных признаков [3] и т.д. Однако, в большинстве случаев индикация и интерпретация именно этих закономерностей позволяет не только оценить качественные характеристики построенной модели, но и выявить основные направления развития продукта и отношения покупателей к нему, а также оценить устойчивость рынка продуктов с аналогичными характеристиками на основе изучения поведенческой активности его участников. При этом, реакция покупателей может зависеть от множества случайных факторов, нарушая баланс интересов участников рыночных отношений [4]. Это явление называется информационной асимметрией, и выражается в разной степени информированности групп «продавцов» и групп «покупателей» - пользователей продукта о состоянии рынка, что определяет различные поведенческие настроения и намерения участников рынка [5, 6].

Методы изучения явления информационной асимметрии [7] в контексте случайной изменчивости в поведении участников взаимодействия социально-экономической системы тесно связаны с вопросами изучения эволюционных процессов в биологических и природных системах, начиная с работ К. Присона, который изучал фундаментальные основы изменчивости в математических регрессионных моделях, до более поздних прикладных исследований в кристаллографии, где были разработаны метрики для оценки характеристики псевдосимметрии кристаллов, и целого ряда работ по биостатистике [8, 9], раскрывающих вопросы устойчивости эволюционных процессов на основе показателей асимметрии признаков биологических особей [10].

Однако математического аппарата теории статистики и возможностей построения и анализа регрессионных моделей в этом случае недостаточно. Теория графов в этом смысле обладает более обширными возможностями с точки зрения описания механизмов возникновения асимметрии, а также возможностей визуализации процессов. Одним из ключевых показателей, характеризующих явление нарушения симметрии в социально-экономических, живых и природных системах является флуктуирующая асимметрия [8,9]. Применительно к социально-экономическим системам асимметрия представляет собой случайные отклонения от устойчивого состояния системы, вызванные неспособностью эволюции социально-экономического системы точно следовать «программе», заложенной в экономической модели. Существуют показатели асимметрии [9], которые используются для характеристики стабильности развития системы и характеризуют степень вариативности (изменчивости) развития процесса в пределах нормы реакции системы.

В биостатистике реализационной изменчивостью характеризуются отличия между разными результатами реализации одной и той же наследственной программы [10]. Механизмы эволюции живых и социально-экономических систем в этом смысле схожи, ввиду того, что биологические, природные и социально-экономические системы являются открытыми, динамическими и стохастическими [11]. Поэтому при анализе асимметрии необходимо учитывать степень изменчивости признаков внутри групп элементов системы: так, модель взаимодействия участников рынка зависит от условий реализа-

ции одной и той же экономической модели в различных изменяющихся условиях. В благоприятных условиях внешней среды система развивается симметрично относительно всех субъектов взаимодействия - участников рынка, т.е. наблюдается симметрия и однородность признаков при описании процесса. Эта симметрия может быть выявлена при сравнении признаков внутри групп элементов системы на основе тестовой и обучающей выборки для регрессионной модели, путем сравнения на основе интегрального показателя симметрии.

Следует отметить, что относительно групп элементов системы и механизмов их взаимодействия симметрия может быть двухсторонней, центральной, трансляционной, функциональной и т.д. и зависит от контекста использования данного довольно широкого понятия. Мы в данной работе сосредоточимся на формах проявления асимметрии при наблюдении двух вариантов развития одного и того же процесса (рисунок 1), что является необходимым при исследовании качества регрессионных моделей.

Рис. 1. Формы проявления асимметрии

При рассмотрении указанных форм проявления асимметрии применительно к моделям взаимодействия участников рынка очевидно, что в случае направленной асимметрии регистрируется преобладание определенных признаков сделки только в одной из групп событий. Это характерно в случае неверного разбиения всего множества событий на тестовую и обучающую выборку. В случае антисимметрии могут встречаться как отклонения в сторону тестовой, так и в сторону обучающей выборки, и эти отклонения встречаются чаще, чем однородное состояние признаков взаимодействий. Это характерно для моделей «власти продавцов» или «власти покупателей» [7], когда наблюдается дисбаланс в отношениях участников рынка, описание признаков которых выходит за рамки построенной модели, т.е. имеются скрытые факторы, оказывающие влияние на процесс и не учтенные в модели.

Наконец, в случае флуктуирующей асимметрии наиболее часто наблюдается и преобладает явление устойчивого однородного состояния признаков сделок в тестовой и обучающей выборке, при этом сильные отклонения встречаются гораздо реже, чем слабые. Таким образом, чем меньше показатель асимметрии, тем устойчивей развитие системы, чему способствуют: благоприятные условия развития бизнеса, здоровая конкурентная среда; «гибкость» социально-экономических условий ведения хозяйственной деятельности, которая выражается в сбалансированности бизнес-процессов; устойчивые механизмы регулирования отклонений ключевых показателей эффективности бизнеса.

Для оценки показателя асимметрии используется следующее выражение [10]:

ой =

п-1

Мл =

2Р=1 Ь-г

¿1-1 =

(1)

где - показатель асимметрии, который рассчитывается как дисперсия различий между выборками относительно среднего различия; и ^ - значение признака для обучающей и тестовой выборки; М^ -среднее различие между выборками по всем показателям; п - общее количество измерений.

Таким образом, с помощью показателя асимметрии оценивается степень отклонения от среднего в ряду закономерно повторяющихся реакций системы. Однако, различные группы элементов, объединенные общими признаками (кластеры), могут вести себя по-разному [12, 13]. Характеристики взаимодействия кластеров могут быть визуализированы с использованием направленного графа [14]. В этой связи случайная изменчивость морфологических признаков социального графа взаимодействия повышается при отклонении от условий оптимума и/или появлении большего количества случайных факторов [15].

Результаты и обсуждение

В качестве примера рассмотрим возможность кластеризации базы данных, содержащей признаки поведенческой активности клиентов. Выборка состояла из ста клиентов (п = 100) и нескольких признаков. Данная выборка состоит из идентификатора клиента и нескольких показателей по каждому из признаков, характеризующих сделки с этим клиентом. Каждый из этих клиентов является вершиной сетевого графа, а связи между этими вершинами характеризуются мерами схожести сделок каждой пары клиентов. Методика оценки устойчивости структуры взаимодействия между участниками рынка с использованием показателя асимметрии включает ряд этапов.

На первом этапе выполняется разбиение выборки на тестовую и обучающую (в каждой по 50 клиентов с векторами признаков сделок). Затем выполняется кластеризация тестовой и обучающей выборок на основе иерархических методов, реализующих следующие варианты объединения [14]:

1. Агломеративная кластеризация начинается с п кластеров, где п — число наблюдений: предполагается, что каждое из них представляет собой отдельный кластер. Затем алгоритм пытается найти и сгруппировать наиболее схожие между собой точки данных; так начинается формирование кластеров.

2. Дивизионная кластеризация выполняется противоположным образом: изначально полагается, что все п точек данных представляют собой один большой кластер, а далее наименее схожие из них разделяются на отдельные группы.

Результаты кластеризации в виде дендрограмм [14, 16] показаны на рисунке 2, а характеристики качества итеративного процесса разбиения на кластеры указаны в таблице.

Рис. 2. Пример иерархической кластеризации дивизионным методом

На следующем этапе рассчитывается показатель асимметрии в соответствии с выражением (1) между тестовой и обучающей выборками по каждому из признаков. Для оценки вариативности показателя асимметрии необходимо выполнить сравнение его значений для различного количества кластеров (рисунок 3). Следует отметить, что показатели асимметрии рассчитывались после упорядочения как тестовой, так и обучающей выборок по результатам дивизионной и агломеративной кластеризации.

Из рисунка 3 видно, что порядок значений показателя асимметрии в обоих случаях схож и составляет 5,5-6,0 % для сравниваемых алгоритмов иерархической кластеризации, однако в случае агломе-ративной кластеризации наблюдается незначительное снижение показателя асимметрии до 4,0-4,5% для 4-6 кластеров. Это объясняется тем, что в соответствии с результатами исследований [17] именно такое количество кластеров оптимально для разбиения данной выборки и более ярко выражено для

алгоритма агломеративной кластеризации. Для оценки оптимального количества кластеров использовались следующие показатели: сумма квадратов расстояний между объектами внутри кластера и средняя ширина силуэта [13, 17]. В этой связи показатель асимметрии может быть полезен не только при оценке однородности выборки, но и при оценке оптимального количества кластеров [18].

Таблица

Характеристики качества процесса кластеризации

Показатель Тип выборки

обучающая выборка тестовая выборка

номер итерации разбиения 2 3 4 5 2 3 4 5

количество элементов в выборке п 50 50 50 50 50 50 50 50

Дивизионная кластеризация

сумма квад. расст. между наблюд. в класт. 9,51 7,46 5,94 5,30 10,20 8,22 7,47 6,23

сред. расст. между наблюд. внутри класт. 0,60 0,54 0,49 0,47 0,63 0,57 0,54 0,50

среднее расстояние между кластерами 0,75 0,74 0,70 0,70 0,74 0,73 0,72 0,71

средняя ширина силуэта 0,19 0,23 0,22 0,24 0,15 0,19 0,16 0,19

количество элементов в кластере № 1 43 34 19 19 40 18 10 10

количество элементов в кластере № 2 7 9 15 15 10 22 22 16

количество элементов в кластере № 3 0 7 9 9 0 10 8 8

количество элементов в кластере № 4 0 0 7 3 0 0 10 6

количество элементов в кластере № 5 0 0 0 4 0 0 0 10

Агломе ративная класте] ризация

сумма квад. расст. между наблюд. в класт. 9,64 8,15 6,54 5,88 9,15 8,44 7,52 6,36

сред. расст. между наблюд. внутри класт. 0,61 0,55 0,51 0,49 0,59 0,57 0,54 0,50

среднее расстояние между кластерами 0,67 0,67 0,68 0,69 0,74 0,73 0,73 0,73

средняя ширина силуэта 0,09 0,11 0,15 0,16 0,20 0,16 0,16 0,19

количество элементов в кластере № 1 21 21 13 13 24 24 24 24

количество элементов в кластере № 2 29 20 20 20 26 11 7 7

количество элементов в кластере № 3 0 9 9 9 0 15 15 9

количество элементов в кластере № 4 0 0 8 6 0 0 4 6

количество элементов в кластере № 5 0 0 0 2 0 0 0 4

Рис. 3. Результаты расчета показателя асимметрии для различного количества кластеров

Кроме того, исследования показали, что при неверной интерпретации кластеров в тестовой и обучающей выборке показатель асимметрии может как увеличиваться, так и снижаться, что дает возможность оценить правильность интерпретации признаков групп разбиения. Однако, для определения формы про-

явления асимметрии необходимо провести дополнительное исследование изменения значения показателя асимметрии при различных вариантах разбиения групп на кластеры. Результаты таких экспериментов, проведенных с использованием метода Монет-Карло [19] для 5 кластеров приведены на рисунке 4 в виде статистической гистограммы распределения вероятностей появления различных значений показателя асимметрии. Случайное переупорядочение выполнялось для тестовой выборки.

0,25 В 0,2

о

1 ОД

О,ОБ 0

0,25

0 ДБ

0,02 0,04 0,06 0,06 ОД 0,12 0,14 0г02 0,04 0,06 0,08 ОД 0Д2 0Д4

Пона э ател ь асимметри и П ока эател ь аси м метри и

а б

Рис. 4. Функция плотности вероятности распределения показателя асимметрии при различных вариантах разбиения тестовой и обучающей выборок для случая дивизионной (а) и агломеративной (б) кластеризации

Функции плотности вероятности распределения показателя асимметрии при различных вариантах разбиения тестовой и обучающей выборок, показанные на рисунке 4, позволяют сделать выводы о форме проявления асимметрии: в случае дивизионной кластеризации наблюдается направленная асимметрия в сторону увеличения значения показателя асимметрии, полученного при разбиении на 5 кластеров, равного 0,057. Это означает, что результат кластеризации позволяет улучшить разбиение выборок, снизив при этом показатель асимметрии.

В случае агломеративной кластеризации наблюдается случай проявления антисимметрии, при этом значения показателя асимметрии, полученное при разбиении на 5 кластеров, равное 0,044 совпадает с одним из наиболее вероятных интервалов значений показателя асимметрии, но существует еще один интервал значений показателя асимметрии, в котором вероятность имеет практически схожее значение и данный интервал также смещен в сторону увеличения значения показателя асимметрии.

В случае наиболее рационального разбиения должна наблюдаться флуктуирующая асимметрия, значение показателя которой будет совпадать с интервалом, имеющим наибольшую вероятность, и функция распределения вероятностей будет иметь симметричный вид. Результаты исследований позволяют сделать следующие выводы:

1. Показатель асимметрии при однородной выборке остается относительно стабильным при качественной кластеризации массива данных по нескольким признакам.

2. Флуктуирующая асимметрия наблюдается при наиболее рациональном варианте разбиения на кластеры при сбалансированных однородных выборках, но на практике встречается достаточно редко и является наиболее идеальным случаем.

3. Показатель асимметрии позволяет оценить качество кластеризации и выявить форму нарушения симметрии в выборках, а также при оценке оптимального количества кластеров.

4. Разработанную методику следует применять в целях повышения эффективности разработки и применения регрессионных моделей и алгоритмов кластеризации.

5. Исследованные свойства показателя асимметрии позволяют сделать вывод о полезности его применения в целях оценки устойчивости структур взаимоотношений на рынке товаров и услуг при анализе результатов кластеризации потребителей по вектору признаков.

Заключение

Наиболее актуальная проблема исследований эволюционных процессов на рынках товаров и услуг в условиях цифровизации, безусловно, требует исследования не только поведенческой активности пользователей продукта, но и исследования другой стороны процесса - анализа популярности групп продуктов по признакам. Разработанная методика позволяет решить и такую задачу, а математиче-

ский аппарат статистики и теории графов обладает универсальными подходами, позволяющими решать задачи на стыке многих областей знаний и более эффективно применять регрессионный и кластерный анализ для исследований явлений в сложных системах и создания математических моделей описания процессов, протекающих в них.

Благодарности

Исследование выполнено при поддержке гранта Российского фонда фундаментальных исследований (РФФИ) № 18.07.00170.

ЛИТЕРАТУРА

1. Рау В.Г., Рау Т.Ф., Малеев А.В. Статистические модели в квантовой физике, экологии и экономике. М.: Издательский дом Академии Естествознания, 2015. 144 с.

2. Рау В.Г., Поляков С.В., Рау Т.Ф., Фирсов И.В., Тогунов И.А. Некоторые особенности применения групп нарушенной симметрии для «визуализации» процессов в природных, «живых» и социально-экономических системах // Региональная экономика: опыт и проблемы. Материалы XII международной научно-практической конференции (Гутманские чтения), 15 мая 2019 года. Владимир: Владимирский филиал РАНХиГС, 2019. С. 11-119.

3. Gupta S. How (dis)similar are my train and test data. [Электронный ресурс] Режим доступа: https://towards-datascience.com/how-dis-similar-are-my-train-and-test-data-5бaf3923de9b (дата обращения 30.03.2020).

4. Кисляков А.Н. Метод виртуального увеличения выборки при прогнозировании редких продаж в условиях информационной асимметрии // Вестник Алтайской академии экономики и права. 2019. № 1-2. С. 47-54;

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

5. Рау В.Г., Кисляков А.Н., Тихонюк Н.Е., Рау Т.Ф. Принцип нарушения асимметрии в моделях развития экономических систем опыт и проблемы // Региональная экономика: опыт и проблемы. Материалы XI международной научно-практической конференции (Гутманские чтения), 15 мая 2018 года. Владимир: Владимирский филиал РАНХиГС, 2018. С. 201-211.

6. Тихонюк Н.Е., Кисляков А.Н. Экономические модели работы с асимметрией информации: эволюция подходов // Региональная экономика: опыт и проблемы. Материалы XI международной научно-практической конференции (Гутманские чтения), 15 мая 2018 года. Владимир: Владимирский филиал РАНХиГС, 2018. С. 23б-244.

7. Кисляков А.Н. Тихонюк Н.Е. Модель ценообразования однородного рынка с учетом асимметричности информации // Инновационное развитие экономики. 2019. № 1. С. 93-100.

8. Зорина А.А. Методы статистического анализа флуктуирующей асимметрии // Принципы экологии. 2012. Т. 1. № 3. С. 24-47.

9. Зорина А.А. Формирование флуктуирующей асимметрии в процессе индивидуального развития Вetula pendula // Принципы экологии. 2014. № 4. С. 31-52.

10. Баранов С. Г., Бурдакова Н. Е. Оценка стабильности развития. Методические подходы. Владимир: Изд-во ВлГУ, 2015. 72 с.

11. Олифир Д. И. Городская агломерация как сложная самоорганизующаяся система с диссипативными свойствами // Известия Санкт-Петербургского государственного экономического университета. 2020 № 1 (121). С. 73-78.

12. Демидова Л.А., Степанов М.А. Подход к решению задачи выявления структурных трансформаций в группах временных рядов // Cloud of Science. 2019. Т. б. № 2. С. 201-22б.

13. Якимов В.Н., Шурганова Г.В., Черепенников В.В., Кудрин И.А., Ильин М.Ю. Методы сравнительной оценки результатов кластерного анализа структуры гидробиоценозов (на примере зоопланктона реки Линда Нижегородской обл.) // Биология внутренних вод. 201б. № 2. С. 94-103.

14. Murtagh F., Contreras P. Methods of Hierarchical Clustering. [Электронный ресурс]. Режим доступа: https://arxiv.org/pdf/l l05.0l2l.pdf (дата обращения 30.03.2020).

15. Tripathi S., Bhardwaj A., Poovammal E. Approaches to Clustering in Customer Segmentation // International Journal of Engineering &Technology, 2018. Vol. 7 (3.12). Р. 802 -807.

16. Kassambara A. Practical Guide to Cluster Analysis in R: Unsupervised Machine Learning (Multivariate Analysis). Volume 1. CreateSpace Independent Publishing Platform, 2017. 188 р.

17. Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Springer, 2017. 745 р.

18. Кисляков А.Н. Интеллектуальный анализ потребительского спроса в условиях информационной асимметрии // Современная экономика: проблемы и решения. 2019. № 10 (118). С. 8-17.

19. Кисляков А.Н. Имитационное моделирование оптимальной цены предложения в контрактной системе государственных и муниципальных закупок // Управленческое консультирование. 2019. № 5 (125). С. 53-б2.

i Надоели баннеры? Вы всегда можете отключить рекламу.