Научная статья на тему 'ПРОГНОЗИРОВАНИЕ ИЗМЕНЕНИЙ ПОТРЕБЛЕНИЯ ДОМАШНИХ ХОЗЯЙСТВ С ИСПОЛЬЗОВАНИЕМ НЕЙРОННЫХ СЕТЕЙ'

ПРОГНОЗИРОВАНИЕ ИЗМЕНЕНИЙ ПОТРЕБЛЕНИЯ ДОМАШНИХ ХОЗЯЙСТВ С ИСПОЛЬЗОВАНИЕМ НЕЙРОННЫХ СЕТЕЙ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
59
19
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ПОТРЕБЛЕНИЕ ДОМАШНИХ ХОЗЯЙСТВ / НЕЙРОННЫЕ СЕТИ / МНОГОСЛОЙНЫЙ ПЕРСЕПТРОН / RLMS

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Петайкина Анастасия Дмитриевна

Статья посвящена исследованию влияния изменений дохода на потребление домашних хозяйств России - в частности, ставится задача разработать и обучить нейронную сеть, способную построить прогноз изменения потребления на основе данных об изменении дохода, индивидуальных характеристик домашних хозяйств, а также фактора существования ограничений ликвидности. Актуальность использования нейронной сети объясняется предположением о нелинейной взаимосвязи между потреблением и факторами, способными объяснить его изменение. Исследование проводится с использованием данных в разрезе отдельных домашних хозяйств, доступных в базе данных RLMS HSE за период с 2006 по 2019 гг. По результатам исследования было выявлено, что применение нейронных сетей позволяет улучшить прогнозные свойства модели по сравнению с использованием линейной регрессии, что свидетельствует в пользу существования нелинейных связей между показателями. Статья подготовлена в рамках выполнения научно-исследовательской работы государственного задания РАНХиГС при Президенте Российской Федерации.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

PREDICTING CHANGES IN HOUSEHOLD CONSUMPTION USING NEURAL NETWORKS

The article is devoted to research of influence of income changes on consumption of the households in Russia - in particular, the task is to develop and train a neural network capable of forecasting changes in consumption based on data on income changes, individual characteristics of households, as well as the factor of the existence of liquidity constraints. The relevance of the use of a neural network is explained by the assumption of a non-linear relationship between consumption and factors that can explain its change. The study is conducted using data broken down by individual households available in the RLMS HSE database for the period from 2006 to 2019. According to the results of the study, it was found that the use of neural networks improves the predictive properties of the model compared to the use of linear regression, which is evidence in favor of the existence of non-linear relationships between the indicators. The article was prepared within the framework of the research work of the state assignment of RANEPA.

Текст научной работы на тему «ПРОГНОЗИРОВАНИЕ ИЗМЕНЕНИЙ ПОТРЕБЛЕНИЯ ДОМАШНИХ ХОЗЯЙСТВ С ИСПОЛЬЗОВАНИЕМ НЕЙРОННЫХ СЕТЕЙ»

Цифровая экономика

ПРОГНОЗИРОВАНИЕ ИЗМЕНЕНИИ ПОТРЕБЛЕНИЯ ДОМАШНИХ ХОЗЯЙСТВ С ИСПОЛЬЗОВАНИЕМ НЕЙРОННЫХ СЕТЕЙ

А. Д. ПЕТАЙКИНА

Статья посвящена исследованию влияния изменений дохода на потребление домашних хозяйств России — в частности, ставится задача разработать и обучить нейронную сеть, способную построить прогноз изменения потребления на основе данных об изменении дохода, индивидуальных характеристик домашних хозяйств, а также фактора существования ограничений ликвидности. Актуальность использования нейронной сети объясняется предположением о нелинейной взаимосвязи между потреблением и факторами, способными объяснить его изменение. Исследование проводится с использованием данных в разрезе отдельных домашних хозяйств, доступных в базе данных Н1МБ ИБЕ1 за период с 2006 по 2019 гг. По результатам исследования было выявлено, что применение нейронных сетей позволяет улучшить прогнозные свойства модели по сравнению с использованием линейной регрессии, что свидетельствует в пользу существования нелинейных связей между показателями.

Статья подготовлена в рамках выполнения научно-исследовательской работы государственного задания РАНХиГС при Президенте Российской Федерации.

Ключевые слова: потребление домашних хозяйств, нейронные сети, многослойный персептрон, Р1_МБ. JEL С23, С45, С53, Е21.

Введение

Значительный массив существующей эмпирической литературы посвящен изучению потребительского поведения - в частности, исследованию взаимосвязей между потреблением и доходом, а также его изменением. Понимание того, что лежит в основе потребительского поведения домашних хозяйств, а также способность прогнозировать уровень потребления являются важными составляющими в ряду мер государственного стимулирования, позволяя правильно выстраивать политику социальной поддержки населения.

Базовыми теориями потребления являются гипотеза перманентного дохода М. Фридмана [7] и гипотеза жизненного цикла Ф. Модильяни [4], согласно которым потребитель строит поведение исходя из уровня своего постоянного дохода. Однако базовые теории основываются на нереалистичных предпосылках (рациональность ожиданий индивидов, совершенство финансовых рынков), что

ставит под сомнение их практическую ценность.

Важное место в изучении потребительского поведения домашних хозяйств занимает литература, посвященная рассмотрению причин нереалистичности базовых теорий, в качестве которых выделяют в основном близорукость экономических агентов и ограничения ликвидности. Так, в работе М. Флавина [6] проводится проверка несовершенства финансовых рынков (существования ограничений ликвидности) как причины невыполнения базовых теорий потребления. Автор использует данные по США за период с 1933 по 1941 гг. и с 1950 по 1981 гг. В качестве фактора существования ограничений ликвидности он использует уровень безработицы и оценивает три спецификации модели: без включения фактора ограничений ликвидности, с включением его в качестве инструментальной переменной и с прямым включением этого фактора в модель. В результате оценивания описанных специфи-

Петайкина Анастасия Дмитриевна, младший научный сотрудник РАНХиГС при Президенте Российской Федерации (Москва), е-таИ: petaykina-ad@ranepa.ru

1 Данные доступны по ссылке: https://www.hse.ru/rlms/spss

каций модели Флавин приходит к выводу, что ограничение ликвидности может служить причиной невыполнения базовых теорий потребления. При этом он отмечает, что в результате включения уровня безработицы непосредственно в модель оценки чувствительности потребления к шоку дохода значимо изменяются, что свидетельствует о важности включения этой переменной напрямую в модель.

В качестве фактора существования ограничений ликвидности могут использоваться и другие показатели. Так, в исследовании Д. Ши [12] эту роль исполняет ставка по краткосрочным облигациям федерального займа США (Т-ЬШб), а в работе М.О. Мамедли [1] - ставка по краткосрочным потребительским кредитам. При оценивании модели авторы этих работ также используют несколько наборов инструментальных переменных, в которые входят лаговые значения процентных ставок.

Р. Миченер в своем исследовании приходит к выводу, что изменение реальной процентной ставки во времени может приводить к чрезмерной чувствительности потребления к доходу [10]. Это говорит о том, что невключение процентной ставки в модель может вызывать переоценку коэффициентов чувствительности потребления к шокам дохода из-за пропущенной переменной. Таким образом, включение процентных ставок в качестве фактора существования ограничений ликвидности непосредственно в модель одновременно позволяет избежать потенциальной проблемы пропущенной переменной.

Заметим, что при включении самих процентных ставок в модель ограничения ликвидности могут определяться прямо: при повышении процентных ставок по кредитам все меньшее число домашних хозяйств могут воспользоваться им для поддержания текущего уровня потребления при наступлении негативного шока дохода. Аналогичное объяснение применимо и для случая использования разницы в процентных ставках по кредитам и депозитам.

При включении в модель уровня безработицы влияние ограничений ликвидности на

поведение домашних хозяйств может стать неочевидным. Да, если уровень безработицы растет, то часть экономических агентов теряет работу, а значит, не может взять кредит на текущие нужды, поскольку теперь у них нет подтвержденного дохода, а без этого почти ни один банк не станет выдавать кредит (поскольку велика вероятность его невозврата). При этом связь между уровнем безработицы и его влиянием на потребительское поведение может быть нелинейной.

В рассмотренных работах авторы использовали в модели линейную зависимость между потреблением, доходом домашних хозяйств и другими факторами. Однако, поскольку существует вероятность наличия нелинейной связи между показателями, было бы целесообразно учесть ее при проведении расчетов. И для целей такого анализа возможно применять нейронные сети.

Нейронные сети - это совокупность математических методов, позволяющих решать различные задачи. В зависимости от конфигурации нейронной сети такими задачами могут быть анализ данных, классификация, моделирование процессов, прогнозирование на основе обученных моделей. Поскольку отличительными чертами нейронных сетей являются способность к обучению, возможность параллельного вычисления, устойчивость к ошибкам, они позволяют эффективно решать задачи, в которых требуется произвести нелинейное моделирование.

Нейронные сети дают возможность решать ряд проблем, возникающих при моделировании экономических процессов. Среди таких проблем можно выделить: • Отсутствие априорных моделей. Для моделирования экономических процессов обычно используют эконометрические модели, однако, из-за сложности экономической системы, невозможности проведения контролируемых экспериментов, а также наличия значимых факторов, не поддающихся оценке, они не всегда позволяют решить задачу количественного прогно-

зирования - тогда как нейронные сети ввиду гибкости своей системы дают такую возможность. Так, например, Д. Муди [11] выявил, что нейронные сети часто оказываются эффективнее стандартных моделей временных рядов.

• Зашумленность данных. Шум в данных может быть обусловлен как различными ненаблюдаемыми переменными, так и методом сбора данных. Поскольку ряды по многим показателям коротки, а также за-шумлены, важным вопросом является управление сложностью модели: при построении нелинейных моделей с помощью нейронных сетей можно управлять сложностью модели, выбирая эффективное число параметров, для того чтобы сбалансировать смещение и дисперсию, и используя методы регуляризации и спецификации модели.

• Нелинейность. При классическом моделировании обычно применяются методы регрессионного анализа с линейной зависимостью между показателями, тогда как в действительности такая зависимость зачастую является нелинейной. Нейронные сети улавливают нелинейные связи между переменными благодаря нелинейной функции активации, что позволяет повысить точность прогнозов макроэкономических показателей.

Нейронные сети активно используются для решения задач, предполагающих наличие нелинейной зависимости между параметрами. Так, например, в работе А.В. Полбина и М.А. Кропочевой [3] нейронные сети применяются для моделирования зависимости обменного курса рубля от цен на нефть. Авторы построили нейронную сеть, позволяющую спрогнозировать обменный курс рубля с достаточной точностью, а также показали, что прогнозы, построенные с использованием нейронной сети, более точны по сравнению с прогнозами на основе линейной регрессии.

Кроме того, нейронные сети часто применяются для решения задач прогнозирования

спроса на электроэнергию. Так, в работе А. Азаде, С.Ф. Гадери и С. Сохраб-хани [5] по прогнозированию потребления электричества в Иране было показано, что предиктивные способности построенной нейронной сети превосходят предиктивные способности модели А1\ЮУА.

В настоящей работе ставится задача разработать и обучить нейронную сеть для целей прогнозирования изменения потребления домашних хозяйств в ответ на изменение их дохода, а также сравнить результаты прогнозов нейронной сети и линейной регрессии. Актуальность использования нейронной сети объясняется предположением о нелинейной взаимосвязи между потреблением и факторами, способными объяснить его изменение. В работе использованы данные по отдельным домашним хозяйствам, доступные в базе данных Р1_МБ ИБЕ.

В первом разделе работы описаны данные, на основе которых проводится исследование, во втором приведен выбор оптимальной архитектуры нейронной сети, в третьем представлен процесс преобразования данных, обучения модели, а также прогнозирования на ее основе.

Описание данных

Для проведения исследования в настоящей работе используются данные Российского мониторинга экономического положения и здоровья населения (Р1_МБ) НИУ ВШЭ за период с 2006 по 2019 гг. Полученная база данных включает от 4824 до 6516 домашних хозяйств из 32 регионов России, которые были опрошены в рамках одной волны. Рассмотрим более подробно процесс обработки используемых данных с применением подхода, аналогичного применяемому в более ранней работе автора [2].

Для того чтобы получить агрегированные значения дохода, потребления и сбережений, были проанализированы показатели, отвечающие за траты на те или иные потребительские товары и услуги, а также доходы из различных

источников. В случае, если на вопрос «Приобретали ли вы ...?» домашнее хозяйство отвечало «Да», однако не указывало количество или стоимость приобретенного блага, значение считалось пропущенным. (В среднем доля пропущенных значений по показателям составляет 4-5%, но для некоторых показателей она достигает 30-38%.) Так как отсутствие даже одной компоненты дохода или потребления может существенно повлиять на результат оценивания чувствительности потребления к шокам дохода, пропущенные значения необходимо заполнить. Рассмотрим процесс заполнения более детально:

- Продукты питания. База данных содержит информацию о физическом количестве и о денежной стоимости покупок за последнюю неделю для более чем 50 категорий продуктов питания, включая алкогольные и безалкогольные напитки и табачные изделия. Чтобы получить данные за месяц, это число умножается на 30:7=4,284. И хотя база данных содержит вопрос об общей стоимости покупок продуктов питания за последние 30 дней, эта переменная потенциально может иметь большую ошибку измерения, поэтому в настоящей работе она не учитывается.

Если домашнее хозяйство приобрело товар (ответило «Да» на вопрос «Приобретали ли вы ...?»), но не указало количество или стоимость приобретенного блага, применяется заполнение пропущенных значений. Для этого делается прогноз на основе оценивания линейной регрессии, где в качестве зависимых переменных используются фиктивные переменные на принадлежность домашнего хозяйства к федеральному округу и на тип населенного пункта, в котором оно расположено, а также переменные, отвечающие за размер домашнего хозяйства, число молодых (до 16 лет), а также пожилых (старше 60 лет) его членов. Аналогичный подход к заполнению пропущенных значений был использован в работе Ю. Городниченко и др. [8].

- Потребление выращенных самостоятельно продуктов питания. База данных со-

держит информацию о физическом количестве продуктов, произведенных и потребленных самостоятельно. Эти переменные также имеют пропущенные значения. Для их заполнения используется прогноз на основе оценки линейной регрессии, описанный ранее.

Проблема учета продуктов, выращенных самостоятельно, заключается в том, что об их потреблении известно только физическое количество, но неизвестна сумма в денежном выражении. Для решения этой проблемы были рассчитаны цены для каждой категории продуктов, выращиваемых самостоятельно, исходя из физического количества и суммы в денежном выражении, которую домашнее хозяйство потратило на покупку аналогичных категорий товаров. Эти цены были усреднены по регионам. С помощью найденных цен было рассчитано потребление выращенных самостоятельно продуктов питания.

- Другие категории потребления. По ним заполнение пропущенных значений производилось описанным ранее образом. Из рассмотрения было исключено потребление товаров длительного пользования (данные по расходам на транспорт, предметы домашнего обихода и бытовую технику).

- Доход по различным категориям. В текущей базе данных представлены сведения по различным категориям доходов, таким как трудовой доход, финансовый доход, доход от продажи выращенных самостоятельно продуктов питания, а также различные субсидии, трансферты и льготы. Все данные представлены за последние 30 дней. Заполнение пропущенных значений также проводилось с использованием линейной регрессии.

После заполнения пропущенных значений описанные переменные были объединены в две категории -«доход» и «потребление». Для того чтобы устранить потенциальную проблему наличия выбросов, были рассчитаны значения 5-го и 95-го процентиля для дохода и потребления, а затем из базы данных были удалены записи, для которых доход или потребление были меньше 5-го и больше 95-го проценти-

ля. Далее, для целей исследования, доход и потребление были преобразованы в первые разности.

Поскольку в рамках обзора существующей эмпирической литературы было показано, что факторы имеющихся ограничений ликвидности (в число которых входят процентная ставка по кредитам и уровень безработицы) играют важную роль в моделировании потребительского поведения домашних хозяйств, были собраны данные по средневзвешенным процентным ставкам по потребительским кредитам и уровню безработицы в регионах России. В качестве влияющего фактора был принят также спред (разница) между средневзвешенными процентными ставками по потребительским кредитам и депозитам. Данные по ставкам были взяты с сайта Центрального банка РФ. (Перечень используемых переменных, их краткое описание и источники данных приведены в табл. 1.) Отметим также, что на этапе подготовки данных для обучения нейронной

сети значения изменения дохода и потребления были нормализованы с использованием метода Минимакс (MinMax).

Архитектура нейронной сети

Искусственная нейронная сеть (ИНС) состоит из нейронов, взаимодействующих между собой. (Строение отдельного нейрона представлено на рис. 1.)

У искусственного нейрона имеется несколько входов (xr x2, ... , xn), на которых он принимает различные сигналы с разными весами (w..), далее он эти сигналы преобразует и передает другим нейронам. Выходное значение для нейрона j с учетом весов можно рассчитать по формуле

net. = Y.w. x + w.„ = w.X+b,

j ^ jn n j° j

где w.„ = b — константа; w. = {w.,, w.,, ... , w.} -

jO j ji j2 jn1

набор весов; X = {xv x2,..., xn}T- набор входных данных (переменных). Далее вычисленная

Таблица 1 Описание данных

Переменная Описание Источник

Зависимые переменные

Изменение потребления - Потребление домашними хозяйствами услуг повседневного пользования и потребительских товаров, в том числе собранных на своей земле, исключая товары длительного пользования. Взята разница между уровнями потребления соседних периодов RLMS

Объясняющие переменные

Изменение дохода - Совокупный доход домашних хозяйств, в том числе от продажи продуктов, выращенных на своей земле. Взята разница между уровнями дохода соседних периодов RLMS

Дополнительные переменные

Loan rate - it Средневзвешенная процентная ставка по среднесрочным (до 3 лет) потребительским кредитам ЦБ РФ

Spread - Ar Разница между процентной ставкой по долгосрочным потребительским кредитам и по краткосрочным (до 1 года) депозитам физических лиц ЦБ РФ

Unemployment Уровень безработицы Росстат

FO Федеральный округ, в котором находится регион проживания домашнего хозяйства RLMS

Status Тип населенного пункта, в котором находится домашнее хозяйство RLMS

Size Размер домашнего хозяйства RLMS

Young Число членов домашнего хозяйства младше 16 лет RLMS

Senior Число членов домашнего хозяйства старше 60 лет RLMS

Источник: составлено автором.

Рис. 1. Строение отдельного нейрона

Источник, построено автором.

взвешенная сумма входных данных преобразуется в выходное значение с помощью функции активации.

Определив отдельный нейрон, перейдем к рассмотрению нейронной сети, в которой нейроны некоторым образом соединяются. Существует множество вариантов для взаимосвязи между нейронами. В настоящем исследовании используется классическая архитектура сети с многослойным персептроном (Multilayer Perception - MLP).

MLP - это полносвязная ИНС с прямой связью. Она имеет как минимум три слоя нейронов. Первый слой - «входной»: он выполняет только одну задачу - распределение входных сигналов остальным нейронам. Нейроны «входного» слоя не производят никаких вычислений. Второй слой - «скрытый»: на нем нейроны преобразуют информацию, полученную от «входного» слоя в соответствии с выбранной функцией активации. Третий слой - «выходной»: на него подается конечный результат. Число нейронов на «входном» и «выходном» слоях определяется размерностью данных: нейроны «входного» слоя соответствуют независимым переменным, а нейроны «выходного» - зависимым (прогнозируемым) переменным. Стоит также отметить, что количество «скрытых» слоев, а также количество нейронов в них могут варьироваться. Общепринятых правил проектирования нейронной сети нет.

Далее рассмотрим архитектуру нейронной

сети, выбранную для целей настоящего исследования.

1. Количество нейронов на «входном» и «выходном» слоях. Как отмечалось ранее, оно зависит от числа входных, а также от числа прогнозируемых переменных. В качестве входных переменных используются изменение дохода, один из факторов существования ограничений ликвидности, а также индивидуальные характеристики домашнего хозяйства (FO, Status, Size, Young, Senior). Поскольку переменные FOи Status не содержат количественного смысла, на них строятся фиктивные переменные. С учетом всех объясняющих и фиктивных переменных число нейронов на «входном» слое получилось равным 16, а число нейронов на «выходном» слое - 1, поскольку производится прогнозирование только изменения потребления.

2. Количество «скрытых» слоев и количество нейронов в них. В процессе подбора архитектуры нейронной сети было протестировано более 300 моделей с разным количеством «скрытых» слоев и разным количеством нейронов в них. Оптимальной моделью была признана нейронная сеть с четырьмя «скрытыми» слоями, содержащими 150, 150, 50 и 16 нейронов в первом, втором, третьем и четвертом слое соответственно.

3. Функция активации. Классической функцией активации при использовании многослойного персептрона является ReLU (Rectified Linear Unit), математическое выражении которой выглядит следующим образом:

A(x)=max(0,x).

4. Функция потерь. В качестве функции потерь используется средняя квадратическая ошибка (MSE) - среднее арифметическое квадратов разностей между предсказанными и реальными значениями.

5. Регуляризация. Для предотвращения переобучения нейронной сети была примене-

на функция дропаут (dropout). Ее основное назначение состоит в том, чтобы обучить не одну нейронную сеть, а ансамбль нейронных сетей, а затем усреднить полученные результаты. Каждая из сетей получается с помощью исключения нейронов из сети с некоторой заданной вероятностью - таким образом, исключенные нейроны не вносят свой вклад в процесс обучения.

6. Коэффициент скорости обучения (LR). LR-это гиперпараметр, который определяет порядок того, как будут корректироваться веса с учетом функции потерь в градиентном бустинге. Если LR очень мал, то градиентный спуск может быть слишком медленным, если наоборот, то градиентный спуск может не попасть в точку минимума. После проведенных тестов был выбран LR в размере 0,0001.

Итак, архитектура выбранной модели описана. Далее перейдем к обсуждению подготовки данных и обучению модели.

Обучение модели и прогнозирование

Прежде чем проводить обучение модели, рассмотрим более подробно имеющиеся данные. (На рис. 2 показаны гистограммы с рас-

пределением изменений дохода и потребления в зависимости от количества таких наблюдений.)

На рисунке видно, что в базе данных содержится много наблюдений о домашних хозяйствах с изменением дохода и/или потребления, близким к нулю, тогда как крупные (в абсолютном выражении) изменения дохода и потребления наблюдаются значительно реже. Такая выборка является примером несбалансированной, обучение модели на которой приводит к тому, что модели не хватает примеров крупных изменений показателей, вследствие чего она может давать неправильные прогнозы. (В табл. 2 представлены результаты обучения трех нейронных сетей с разными факторами на несбалансированной выборке.)

Если посмотреть на рассчитанные метрики качества, представленные в табл. 2, то можно увидеть, что все модели показывают достаточно плохие результаты на тестовой выборке. При этом у обученной на тех же данных линейной регрессии результаты оказались немного лучше, чем у нейронных сетей (за исключением модели с уровнем безработицы). Поскольку в процессе обучения каждая из моделей построила свой прогноз для тестовой выборки, обратим внимание на средние

Рис. 2. Распределение изменений дохода и потребления

20 000

15 000

17 500

is

р 15 000 g

g 12 500 ю

™ 10 000 о

Ь 7500

5 5000

2500

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

-50 -25 0 25 50 75 100 Изменение дохода, тыс. руб.

Источник: построено автором.

12 000

,5 9000

Ь 6000

3000

-100 -50 0 50 100

Изменение потребления, тыс. руб.

значения этих прогнозов. (См. табл. 3.) Здесь видно, что в случае несбалансированной выборки нейронные сети скорее недооценивают изменение потребления, поскольку в выборке не хватает наблюдений с большими изменениями потребления и дохода.

Существует несколько способов борьбы с дисбалансом в выборке - уменьшить количество данных в преобладающем классе или увеличить количество данных в меньшем классе. В рамках данного исследования будем использовать метод SMOGN (Synthetic Minority Over-Sampling Technique for Regression with Gaussian Noise) [9]. Его основное назначение заключается в объединении двух стратегий -увеличения меньшего класса и уменьшения большего. SMOGN генерирует новые синтетические наблюдения на основе метода k-бли-жайших соседей, а также удаляет наблюдения из выборки, если они «слишком» распространены. При этом встроенные алгоритмы SMOGN сами определяют, какие наблюдения

относятся к меньшему, а какие - к превалирующему классу.

Недостатком метода БМОСЫ является то, что при генерации новых значений он игнорирует самые большие значения показателей, поскольку для них расстояние между к-бли-жайшими соседями слишком велико. Поэтому, наряду с использованием БМОСЫ, применим наиболее простой метод - «дообога-тим» выборку вручную, продублировав наблюдения с большими изменениями дохода и потребления (в качестве таких наблюдений были взяты 5% наблюдений с наибольшими по модулю изменениями дохода и потребления). (Распределение изменений дохода и потребления в обогащенной выборке представлено на рис. 3.) На рисунке видно, что распределение изменений дохода и потребления сгладилось, а значит, проблему несбалансированности выборки удалось, как минимум, смягчить.

Далее на основе обогащенной выборки снова обучим модели. (См. табл. 4.) И мы ви-

Таблица 2

Результаты обучения нейронной сети на несбалансированной выборке

Модель 1 - процентные ставки Модель 2 -по кредитам спред процентных ставок Модель 3 - уровень безработицы

MLP

MSE 0,0228 0,0233 0,0228

MAE 0,1153 0,1167 0,1162

Я2 0,195 0,192 0,207

Линейная регрессия

MSE 0,0222 0,0226 0,0225

MAE 0,1150 0,1164 0,2269

Я2 0,202 0,207 0,199

Источник: составлено автором.

Таблица 3

Статистика прогнозов на несбалансированной выборке

Модель 1 - процентные ставки Модель 2 - спред процентных Модель 3 - уровень

по кредитам ставок безработицы

Тестовая выборка 1700,6 1700,6 1700,6

Прогноз по MLP 1020,5 1501,8 1319,5

Прогноз по LinReg 1733,8 1610,6 1720,1

Источник: составлено автором.

дим здесь, что результаты обучения существенно поменялись: на обогащенной выборке результаты обучения нейронной сети превосходят результаты, полученные с помощью линейной регрессии. Это говорит о том, что теперь выборка более сбалансирована, вследствие чего нейронная сеть успевает обучиться и на наблюдениях с крупными изменениями дохода и потребления.

Следует также отметить, что результаты, полученные с помощью линейной регрессии, достаточно близки у всех трех моделей, тогда как при обучении нейронной сети выделяется модель с использованием уровня безработицы. Это может говорить о том, что во влиянии

уровня безработицы на изменение потребления домашних хозяйств действительно есть нелинейная зависимость, которую уловила построенная нейронная сеть. Кроме того, во влиянии процентных ставок на изменение потребления также наблюдается нелинейная связь, однако она не так ярко выражена или не так хорошо определяется моделью.

Далее на основе обученных спецификаций нейронной сети построим прогноз изменения потребления в ответ на изменение дохода определенной величины. Для этого был создан дополнительный набор данных, где для каждого домашнего хозяйства и для каждого периода времени, в которое это домашнее хозяйство

Рис. 3. Распределение изменений дохода и потребления в обогащенной выборке

7000

-50 -25 0 25 50 75 Изменение дохода, тыс. руб.

Источник: построено автором.

-100 -50 0 50 100

Изменение потребления, тыс. руб.

Таблица 4

Результаты обучения нейронной сети на обогащенной выборке

Модель 1 - процентные ставки Модель 2 - спред процентных по кредитам ставок

Модель 3 - уровень безработицы

М1.Р

МЭЕ

0,0353

0,0358

0,0358

МАЕ 0,1523 0,1535 0,1535

Я2 0,614 0,619 0,663

Линейная регрессия

МвЕ 0,0454 0,0455 0,0458

МАЕ 0,1801 0,1801 0,1812

Я2 0,477 0,478 0,459

Источник: составлено автором.

наблюдалось, значение изменения дохода заменялось значениями -10 000, -5000, -1000, 1000, 5000, 10 000 руб. Такое «манипулирование» данными позволило спрогнозировать влияние одинаковых по абсолютному значению положительных и отрицательных изменений дохода на потребление для каждого домашнего хозяйства в каждый период времени. Затем прогнозы усреднялись по времени и по всем домашним хозяйствам. (См. табл. 5.)

Из результатов, полученных на основе обучения нейронной сети, видно, что домашние хозяйства в среднем сильнее реагируют на отрицательные изменения дохода. Причем такое поведение наблюдается для моделей с разными факторами существования ограничений ликвидности. Это свидетельствует в пользу утверждения об асимметрии в потребительском поведении. Если сравнивать результаты, полученные на основе обучения нейронной сети, и прогнозы, полученные на основе линейной регрессии, можно увидеть, что линейная регрессия строит в среднем более высокие прогнозы изменения потребления в ответ на разные изменения дохода. Поскольку в соответ-

ствии с метриками качества нейронная сеть дает более точные прогнозы, можно предположить, что такой результат связан с тем, что во влиянии факторов существования ограничений ликвидности на потребление домашних хозяйств действительно существует нелинейность, которую линейная регрессия не способна уловить.

Заключение

В работе проведено исследование, направленное на подбор модели для прогнозирования изменений потребления на основании данных об изменении дохода, индивидуальных характеристик домашних хозяйств, а также фактора существования ограничений ликвидности. Для этих целей были построены нейронная сеть (многослойный персептрон), а также линейная регрессия. При подготовке данных для обучения нейронной сети использовались современные методы борьбы с дисбалансом в выборке (SMOGN).

На основе выбранных метрик качества было определено, что нейронная сеть строит более точные прогнозы по сравнению с линей-

Таблица 5

Результаты прогнозирования, руб.

Изменение дохода Модель 1 - процентные ставки Модель 2 -по кредитам спред процентных ставок Модель 3 - уровень безработицы

М1.Р

Ду=-10 000 -11 396 -11 468 -11 279

Ду =-5000 -5319 -5101 -5199

Ду= -1000 -1162 -888 -974

Ду =10ОО 603 713 867

Ду = 5000 4763 4872 4767

Ду= 10 000 10 477 9675 9417

Линейная регрессия

Ду=-10 000 -6993 -6302 -5899

Ду =-5000 -2948 -2258 -1855

Ду= -1000 288 978 1380

Ау=1000 1906 2596 2997

Ду =5000 5142 5831 6232

Ду= 10 000 9188 9876 10 276

Источник: составлено автором.

ной регрессией, что свидетельствует в пользу предположения о существовании нелинейной взаимосвязи между используемыми показателями. Построенные прогнозы изменений по-

требления в ответ на различные изменения шоков дохода позволяют говорить об асимметрии в потребительском поведении домашних хозяйств. ■

Литература

1. Мамедли М.О. Гипотеза перманентного дохода, недальновидность потребления и ограничения ликвидности в России // Журнал экономической теории. 2015. № 4. С. 49—57.

2. Петайкина А.Д. Анализ влияния положительных и отрицательных шоков дохода на потребление домашних хозяйств // Экономическое развитие России. 2023. Т. 30. № 1. С. 39—46.

3. Полбин А.В., Кропочева М.А. Моделирование зависимости обменного курса рубля от цен на нефть с использованием нейронных сетей // Прикладная информатика. 2022. Т. 17. № 4. С. 127—142.

4. Ando A., Modigliani F. The «life cycle» hypothesis of saving: Aggregate implications and tests // The American Economic Review. 1963. Vol. 53. No. 1. Pp. 55-84.

5. Azadeh A., Ghaderi S.F., Sohrabkhani S. Annual electricity consumption forecasting by neural network in high energy consuming industrial sectors // Energy Conversion and Management. 2008. Vol. 49. No. 8. Pp. 2272-2278.

6. Flavin M. et al. Excess sensitivity of consumption to current income: liquidity Constraints or Myopia? // National Bureau of Economic Research, Inc. 1984. No. 1341.

7. Friedman M. The permanent income hypothesis // In: A theory of the consumption function. Princeton University Press. 1957. Pp. 20-37.

8. Gorodnichenko Y., Peter K.S., Stolyarov D. Inequality and volatility moderation in Russia: Evidence from micro-level panel data on consumption and income // Review of Economic Dynamics. 2010. Vol. 13. No. 1. Pp. 209-237.

9. Kunz N. SMOGN: Synthetic minority over-sampling technique for regression with gaussian noise / PyPi. 2020.

10. Michener R. Permanent income in general equilibrium // Journal of Monetary Economics. 1984. Vol. 13. No. 3. Pp. 297-305.

11. Moody J., Utans J. Architecture selection strategies for neural networks: Application to corporate bond rating prediction // In: Neural networks in the capital markets. New York: John Wiley & Sons. 1994. Pp. 277-300.

12. Shea J. Myopia, liquidity constraints, and aggregate consumption: A simple test // Journal of Money, Credit and Banking. 1995. Vol. 27. No. 3. Pp. 798-805.

References

1. Mamedli M.O. The permanent income hypothesis, shortsighted consumption and liquidity constraints in Russia // Journal of Economic Theory. 2015. No. 4. Pp. 49-57.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

2. Petaikina A.D. Impact of Positive and Negative income Shocks on Household Consumption // Russian Economic Development. 2023. Vol. 30. No. 1. Pp. 39-46.

3. Polbin A.V., Kropocheva M.A. Modeling the dependence of the ruble exchange rate on oil prices using neural networks // Applied Informatics. 2022. Vol. 17. No. 4. Pp. 127-142.

4. Ando A., Modigliani F. The «life cycle» hypothesis of saving: Aggregate implications and tests // The American Economic Review. 1963. Vol. 53. No. 1. Pp. 55-84.

5. Azadeh A., Ghaderi S.F., Sohrabkhani S. Annual electricity consumption forecasting by neural network in high energy consuming industrial sectors // Energy Conversion and Management. 2008. Vol. 49. No. 8. Pp. 2272-2278.

6. Flavin M. et al. Excess sensitivity of consumption to current income: liquidity Constraints or Myopia? // National Bureau of Economic Research, Inc. 1984. No. 1341.

7. Friedman M. The permanent income hypothesis // In: A theory of the consumption function. Princeton University Press. 1957. Pp. 20-37.

8. Gorodnichenko Y., Peter K.S., Stolyarov D. Inequality and volatility moderation in Russia: Evidence from micro-level panel data on consumption and income // Review of Economic Dynamics. 2010. Vol. 13. No. 1. Pp. 209-237.

9. Kunz N. SMOGN: Synthetic minority over-sampling technique for regression with gaussian noise / PyPi. 2020.

10. Michener R. Permanent income in general equilibrium // Journal of Monetary Economics. 1984. Vol. 13. No. 3. Pp. 297-305.

11. Moody J., Utans J. Architecture selection strategies for neural networks: Application to corporate bond rating prediction // In: Neural networks in the capital markets. New York: John Wiley & Sons. 1994. Pp. 277-300.

12. Shea J. Myopia, liquidity constraints, and aggregate consumption: A simple test // Journal of Money, Credit and Banking. 1995. Vol. 27. No. 3. Pp. 798-805.

Predicting Changes in Household Consumption Using Neural Networks

Anastasia D. Petaykina — Junior Researcher of the Russian Presidential Academy of National Economy and Public Administration (Moscow, Russia). E-mail: petaykina-ad@ranepa.ru

The article is devoted to research of influence of income changes on consumption of the households in Russia — in particular, the task is to develop and train a neural network capable of forecasting changes in consumption based on data on income changes, individual characteristics of households, as well as the factor of the existence of liquidity constraints. The relevance of the use of a neural network is explained by the assumption of a non-linear relationship between consumption and factors that can explain its change. The study is conducted using data broken down by individual households available in the RLMS HSE database for the period from 2006 to 2019. According to the results of the study, it was found that the use of neural networks improves the predictive properties of the model compared to the use of linear regression, which is evidence in favor of the existence of non-linear relationships between the indicators.

The article was prepared within the framework of the research work of the state assignment of RANEPA.

Key words: households' consumption, neural networks, multilayer perceptron, RLMS. JEL-codes: C23, C45, C53, E21.

i Надоели баннеры? Вы всегда можете отключить рекламу.