Применение модели Пуассона для анализа панельных данных

Егорова Екатерина Владимировна; Радионова Марина Владимировна

Применение модели пуассона для анализа панельных данных Application of the poisson model for analysis of panel data

УДК 330.43(075.8) Егорова Екатерина Владимировна,

Пермский государственный национальный исследовательский университет, г. Пермь Радионова Марина Владимировна,

доцент, кандидат физико- математических наук, Пермский государственный национальный исследовательский университет, г. Пермь Egorova E.V., [email protected] Radioniva M.V., [email protected]

Аннотация: В эконометрических исследованиях на практике нередко ставится задача моделирования величины, которая является дискретной, а именно отражает количество редких событий, произошедших за определенный период времени, при условии, что данные события происходят самостоятельно и раздельно друг от друга, с фиксированной средней интенсивностью. Из всех моделей, которые применяются для исследования таких данных, чаще всего используется Пуассоновская регрессия.

В данной статье описываются основные теоретические аспекты модели Пуассона и применение Пуассоновской регрессии для анализа панельных данных, а также практический пример использования, в котором смоделировано число новых производственных технологий по регионам России за период 2013-2017 г. в программе R.

Summary: Econometric studies in practice often pose the problem of modeling a quantity that is discrete, namely, it reflects the number of rare events that have occurred over a certain period, provided that these events occur independently and separately from each other, with a fixed average intensity. The Poisson regression is most often used of all the models that are used to study such data.

This article describes the main theoretical aspects of the Poisson model and the use of Poisson regression for the analysis of panel data, as well as a practical example of use, which modeled the

number of new production technologies for the regions of Russia for the period 2013-2017 in program R.

Ключевые слова: Пуассоновская регрессия, эконометрическое моделирование, панельные данные, новые производственные технологии.

Keywords: Poisson regression, econometric modeling, panel data, new production technologies.

Введение и обзор литературы

В эконометрических исследованиях на практике нередко ставится задача моделирования величины, которая является дискретной, а именно отражает количество редких событий, произошедших за определенный период времени, при условии, что данные события происходят самостоятельно и раздельно друг от друга, с фиксированной средней интенсивностью. В силу дискретности зависимой переменной линейные модели, связывающие количество событий с сопровождающими их регрессорами, не будут соответствовать реальным. Это связано с тем, что при выборе линейной модели расчетные значения зависимой переменной имеют все шансы принимать любые, время от времени нецелые значения [1]. Модели, используемые при исследовании процессов, связанных со «счетными переменными», называются моделями счетных данных. Существует несколько видов, такие как: модель преодоления препятствий , пуассоновская регрессия и ее модификация — модель с отрицательным биномиальным распределением.

Из всех моделей счетных данных на практике чаще всего используется Пуассоновская регрессия. Одним из первых случаев применения Пуассоновской регрессии является моделирование входящих телефонных звонков на коммутатор. После этого были отмечены случаи использования Пуассоновской регрессии при анализе надежности оборудования и предсказании его поломки, предсказание числа полетов, выполненное аэропортом в конкретный день в зависимости от даты, в медицинской сфере для анализа роста колонии бактерий в чашке Петри, предсказании летального исхода болезни при различных условиях, а также в экономике и социологии для анализа разнообразных счетных данных, например, для прогнозирования количества случаев банкротств в зависимости от изменения экономических показателей , а также для анализа разнообразных демографических данных [2].

Спецификация регрессионной модели Пуассона подразумевает, что каждое наблюдаемое значение моделируемого показателя сгенерировано распределением Пуассона с параметром , который связан с вектором объясняющих переменных .

Пусть - вектор параметров уравнения; - вектор-строка (транспонированный вектор-столбец) независимых переменных, характеризующих условия появления событий, тогда: .

Распределение Пуассона представляет собой вероятностное распределение, моделирующее случайную дискретную величину, которая является количеством повторяющихся событий при том, что эти события возникают с фиксированной средней интенсивностью и вне зависимости друг от друга. Это дискретное распределение, которое является одним из важных предельных случаев биномиального распределения. Второе название Пуассоновского распределения- распределение редких событий. Примерное равенство средней и дисперсии счетной зависимой переменной в выборочной совокупности - обязательное условие применимости пуассоновского распределения. [2]

Согласно следующему выражению можно определить вероятность возникновения числа событий в следующем виде:

Зависимость числа событий , произошедших за фиксированный временной интервал (7, 7+1) (день, неделя, месяц), от значений влияющих на это число факторов согласно Пуассоновской модели представляется следующим образом

Условное математическое ожидание числа событий для заданного набора Д.",

значений " ; при нулевом математическом ожидании ошибки определяется

как:

Условное математическое ожидание и условная дисперсия при заданных значениях X

факторов ' ; для модели Пуассона равны

между

собой

[1]

Пуассоновская регрессия очень часто берется за основу в эконометрических исследованиях, охватывая различные области применения. Проанализировав различные научные статьи, можно сделать вывод, что использование модели Пуассона достаточно обширно, области её применения условно можно разделить на три основные группы: медицина, экономика и социально- демографические процессы.

Приведем примеры из каждой сферы.

В статье Д.А. Шапошникова, Б.А. Ревич [3] показано, что Пуассоновская обобщенная линейная модель ежедневной смертности считается наиболее часто встречаемым методом вычисления рисков, которые обусловлены негативными причинами окружающей среды. В предоставленном исследовании рассматриваются инновационные биостатистические методы, позволяющие обнаружить связи между метеорологическими причинами и признаками общественного здоровья. Моделируемой переменной выступает смертность населения, обусловленная действием волн жары и мороза. В регрессионной модели хорошо отслеживается зависимость смертности от времени и загрязнения воздуха, дается рекомендация учитывать это явление. Учет метеорологических условий, оказывающих большое влияние на тепловой баланс (влажность воздуха и скорость ветра), достигается или включением их в модель в очевидном виде, или внедрением биоклиматических индексов. В регрессионном уравнении в качестве зависимой переменной выступает ожидаемая величина ежедневной смертности.

В статье [4] с помощью гравитационной модели Пуассона со смешанными эффектами (модель, где имеются и случайные, и фиксированные эффекты) оценивается отрицательное влияние Брексит (выход Великобритании из Европейского союза) на проекты, связанные с прямыми иностранными инвестициями (сокр. ПИИ). По сравнению с предыдущими исследованиями на эту тему, данная статья представляет собой новшество использования смешанных эффектов модели пуассоновской регрессии на основе панельных данных. Модель показывает ожидаемое количество событий за период времени, в течении которого они регистрируются. Было построено 3 модели для объяснения количества проектов ПИИ. Моделируемыми переменными являются: количество проектов ПИИ, количество новых рабочих мест, созданных проектами ПИИ и количество гарантированных рабочих мест проектами ПИИ. Эти переменные относятся к проектам и работам, которые привезены основными иностранными инвесторами в Великобританию из различных стран за 2012-2015 гг.

В статье Sunday B. Akpan, Inimfon V. Patrick, Samuel U. James [5] изучаются детерминанты решения и участия сельской молодежи в сельскохозяйственном производстве на примере исследования молодежи в регионе Нигерии. Объектом исследования являлись 300 молодых людей, проживающих в сельской местности штата Аква Ибом, одного из штатов в регионе. Для измерения уровня участия было выбрано количество часов, проведенных молодежью на ферме в день. Количество часов является дискретным и принимает только неотрицательные целые значения, в связи с чем была выбрана модель Пуассона. Возраст молодежи, количество дополнительных визитов, годы в

социальной организации, цель ведения сельского хозяйства были положительными факторами участия молодежи в сельскохозяйственной деятельности. Напротив, годы формального образования, доходы фермеров в предыдущем сельскохозяйственном сезоне, владение землей и доступ к кредитам негативно повлияли на участие молодежи.

Использование Пуассоновской регрессии для анализа панельных данных Рассмотрим применение модели Пуассона для анализа панельных данных с точки зрения теории. Будем описывать модели только с индивидуальными эффектами, не меняющимися во времени, то есть рассмотрим возможность учета специфического индивидуального эффекта, под которым будем подразумевать ненаблюдаемые и неизменяемые со временем характеристики объектов выборки. Модель с индивидуальными эффектами

Самая общая линейная модель для панельных данных предполагает, что свободный член и коэффициенты наклона могут варьироваться по индивидуальным наблюдениям и во времени:

где " 1 -это скалярная зависимая переменная, ' — индивидуальные эффекты, " -вектор

независимых переменных, -ошибка модели, i- индивидуальный индекс, t- индекс временного периода.

Для нелинейных моделей, в том числе модели Пуассона, аддитивная ошибка Ult не вводится. Вместо этого, более естественно напрямую моделировать условную плотность или условное среднее.

Общая нелинейная модель для условного среднего с ненаблюдаемыми неменяющимися во времени индивидуальными эффектами:

В модели Пуассона с индивидуальными эффектами ^^ ехр{* ■ ррогда предполагая условную независимость, совместная вероятность для i-го

наблюдения - равна

В

менее параметрическом подходе условное среднее моделируется

как где обозначает дополнительные

параметры, например, дисперсию. Это относится к одноиндексной модели с индивидуальными эффектами и к модели с мультипликативными эффектами. [6]

Модель сквозной регрессии

В статистической литературе модель называется усредненной моделью, так как в ней в явном виде не присутствует зависимость от индивидуальных эффектов. Индивидуальные эффекты были неявным образом усреднены. Эта модель является самой ограниченной из возможных, так как предписывает одинаковое поведение всем объектам выборки во все моменты времени. Другими словами, такая модель представляет собой обычную регрессию.

Для моделей условного среднего нелинейный случай сквозной регрессии имеет вид:

Такую модель можно оценить напрямую с помощью нелинейного МНК и использовать статистические выводы, основанные на робастных стандартных ошибках для панельных данных [6].

Модель со случайными эффектами

Предположение о том, что случайные эффекты имеют гамма- распределение, позволяет получить трактуемое решение для вероятности в модели со случайными эффектами.

т-г а САП-Г}] •, - 1 /?7

Предположим, что ; имеет " распределение со средним 1 и дисперсиеи ' и

плотностью наблюдения

g(ai\rJ) = tfcq>-V"* / Цт?)

Тогда без условная совместная плотность для будет иметь

вид

Получившиеся условие первого порядка для оценки Пуассона случайных эффектов

можно выразить как

Оценка Пуассона со случайным эффектом состоятельна при выполнении слабого предположения о том, что регрессоры строго экзогенны.

Для случайных эффектов доступно несколько альтернативных оценок.

Во-первых, оценка сквозной регрессии Пуассона игнорирует случайные эффекты и Ул I хк ~Р[ехр(х^Д)].

предполагает, что

В этом случае условие первого порядка будет в

ЛГ г

ZZ^-4) = o.

виде:

;-] г-1

Эта оценка состоятельна, если условное среднее имеет вид описанный выше

Поэтому обычная оценка ММП Пуассона для пространственных данных состоятельна, если истинная модель, это модель с мультипликативными эффектами. Следует использовать робастные оценки. Альтернативная оценка сквозной регрессии, основанная на модели условного среднего- это оценка, полученная с помощью нелинейного МНК. Тогда условие первого порядка будет выглядеть как [6]:

Модель с фиксированными эффектами

Наиболее часто используется модель Пуассона с фиксированными эффектами, так как оценка этой модели будет состоятельна при гораздо более слабых предположениях о распределении.

Оценку с фиксированным эффектом для модели Пуассона панельных данных можно вывести несколькими данными. Оценка максимального правдоподобия Пуассона

одновременно оценивает $ и •

равен:

Логарифм функции правдоподобия

In L(A а) = htnn^^AX^A)" / vir 1}] = Z \гщ Z4+:in i+Z >' * ^ - Zln4 П-

: t

Взятие производной

4 =

no ^:' и

дает

приравнивание ее к нулю Подставим это обратно в предыдущую формулу и опусти члены,

не содержащие $ . Получаем:

При взятии производной

по

получим

условия

первого

порядка:

Для решения этого уравнения и нахождения оценки $ используем соответствующие выборочные моментные тождества.

Для состоятельности оценки Пуассона с фиксированными эффектами необходимо чтобы регрессоры были строго экзогенны и модель условного среднего правильно специфицирована. [6]

Методология исследования, данные

В качестве примера использования регрессии Пуассона было смоделировано количество передовых производственных технологий, разработанных в регионе. Появление новых производственных технологий событие редкое, исходя из статистических данных, поэтому исследование этого вопроса является актуальным.

Передовые производственные технологии - технологии и технологические процессы (включая нужное для их реализации оборудование), контролируемые с поддержкою компьютера либо базирующиеся на микроэлектронике и применяемые при конструировании, производстве либо обработке продукции. В современном мире Российская Федерация значительно уступает в уровне введения новейших производственных технологий некоторым развивающимся государствам. Важно иметь сведения о том, какие факторы воздействуют на появление новых производственных технологий.

В наши дни к количеству новых производственных технологий относятся технологии, увеличивающие регулируемость, скорость и отдачу от производственных процессов, и характеризующие новые свойства товаров, — это аддитивные технологии и роботизация, новые материалы, промышленная автоматизация. Все, что объединяет их, — это цифровые технологии, системы автоматического проектирования, инжиниринга и изготовления, то есть промышленное инженерное программное обеспечение.

На количество и качество новых производственных технологий в России влияют экономические, социальные, политические факторы и не только. Выделим и уточним основные из них, опираясь на статью И. Дежиной, А. Пономарева [7] и публичный аналитический доклад [8].

Таблица 1- Факторные признаки

Показатель Единицы измерения Обозначения

Средняя заработная плата научных сотрудников тыс. salary

Число образовательных организаций высшего образования и научных организаций единицы educ_org

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Численность персонала, занятого научными исследованиями и разработками единицы researchers

Затраты на технологические инновации млн innovation costs

Внутренние затраты на научные исследования и разработки 11ЛН internal_co sts

Количество выданных патентов на изо бретения единицы patents

Численность населения единицы population

Для проведения исследования на панельных данных были выбраны данные по 60 регионам РФ за 2013-2017 год. Были взяты регионы, где имелась полная статистическая информация обо всех экзогенных переменных и моделируемой величине. Исследование выполнено вR — языке программирования для статистической обработки данных и работы с графикой.

В качестве зависимой переменной выступает количество передовых производственных технологий, разработанных в регионе.

Объясняющие переменные представлены в таблице 1. Источником является сайт Федеральной службы государственной статистики [9].

На основе выбранных переменных был проведен разведочный анализ данных. В таблице 2 представлены описательные статистики исследуемых переменных.

Таблица 2 — Анализ переменных

Переменная Среднее ^Минимум ]VlaKci-D.-ry ii Ст. ouch. В ариацня

TECHKOLO GY 23.88 1 1 53 1 5,77 0,66

Salary 42226, S3 133*75,80 128627,00 1 5676,92 0.3 7

educ_org 19,35 1 127 13,71 0,7

researchers 9748,02 93 23950,00 3 897,44 0,4

innovation_с osts 21125.88 55,50 99377,50 1 5 138,83 0,72

internal_со sts 14 579,56 77. Ю 35821,80 1 14E0.01 0,79

patents 408,04 3 5949.QO 75,35 0,18

population 2166,16 315,00 12507,00 1921,79 OsS9

Из таблицы 2 видно, что наибольшую вариацию имеет переменная, отвечающая за численность населения, наименьшая вариация у числа выданных патентов. Выявлено, что количество новых производственных технологий принимает значения от 1 до 153 единиц по всем регионам, среднее значение составляет 23,88. Данные неоднородны, так как вариации составляет 66%.

В таблице 3 представлена корреляционная матрица, отражающая коэффициенты корреляции между всеми переменными, участвующими в построении модели.

Таблица 3 — Корр еляцнонная матрица

Показатели eel uc_о rg patents researcher s iruiovati Oil_с osts internal _costs TECHN OLOGY

salary 0,226 0.261 0.268 0.4-2,6 0,3 0,274

edue_org 0.967 0,957 0.782 0,942 0,83

patents 0,955 0.804 0.946 0,773

researchers 0.83 9 0,99 0,856

innovationco sts 0.854 0,762

internal_co sts 0,845

На основе анализа таблицы 3 можно сказать, что на появление новых производственных технологий наибольшее влияние оказывает численность персонала, занятого научными исследованиями и разработками. Мультиколлинеарности нет.

Результаты

На основе Пуассоновской регрессии в программе Я было построено три модели: модель с фиксированными эффектами, модель со случайными эффектами и сквозная регрессия. После построение моделей с помощью тестов Вальда, Хаусмана и Бройша-Пагана, было выявлено, что наилучшей является модель с фиксированными эффектами, значения коэффициентов которой можно видеть в таблице 4. Это имеет свое логическое обоснование в силу того, что выборка по регионам РФ не случайна, каждый регион имеет свой фиксированный эффект, который может, например, выражаться в особенностях климата. Такие эффекты не меняются во времени и сопровождают регион от года в год.

Так же следует отметить, что так как модель Пуассона нелинейная, при интерпретации коэффициентов во внимание берутся маржинальные эффекты, рассчитанные с помощью аппарата предельного анализа, а не просто найденные коэффициенты.

Таблица 4 — Результаты моделирования

Переменные Оценки параметров модели

salary Средняя заработная плата научных сотрудников 0.000005

educ org Число образовательных организации высшего образования и научных организаций 0,03 2+

researcher s Численность персонала, занятого научными исследованиями и разработками 0,0001*

innovation costs Затраты на технологические инновации -0,0000004

internal с osts Внутренние затраты на ка}тшые исследования и разработки 0,00001**

patents Количество выданных патентов на изобретения -0.00004

population Численность населения 0.0004*

Примечание: и= *** — значимость на 10, 5, 1 °а-оы уровне

Выводы и обсуждение

На основании построенной модели выявлена прямая связь между появлением новых технологий и следующими факторами: средней заработной платой научных сотрудников, количеством человек, проживающих в регионе, числом образовательных организаций высшего образования и научных организаций, внутренними затратами на научные исследования и разработки, численностью персонала, занятого научными исследованиями и разработками. Выявлено, что связь между количеством новых производственных технологий и количеством выданных патентов на изобретения, а также между числом новых технологий и затратами на технологические инновации обратная, что является интересным наблюдением для дальнейших исследований этого вопроса. Исходя из полученных результатов можно сделать вывод, что Россия имеет хорошую перспективу для достижения высокой конкурентоспособности промышленности. Для этого необходимо знать и уметь предсказывать экономические и технологические направления, побуждение к развитию которых позволило бы нашей стране прогрессировать в этом вопросе, а также обращать внимание на те факторы, которые положительно влияют на рост числа новых технологий.

Список использованной литературы

1. Тихомиров Н.П., Дорохина Е.Ю. Эконометрика. М.: Изд-во Рос. экон. акад., 2002.- 640 с.

2. Понарин Э.Д., А.В. Лисовский, Ю.А. Зеликова Модели для Пуассоновских зависимых переменных. Можно ли прогнозировать результативность футбольных матчей? //Социология: 4М. 2013. № 36.C.5-12.

3. Шапошников Д.А., Ревич Б.А. О некоторых подходах к вычислению рисков температурных волн для здоровья// Анализ риска здоровья. № 1. 2018.С.3-8.

4. Simionescu М. The impact of Brexit on the UK inwards FDI // Economics, Management and Sustainability. 3(1). 2018.

5. Sunday B. Akpan, Inimfon V. Patrick, Samuel U. James. Determinants of decision and participation of rural youth in agricultural production: a case study of youth in southern region of Nigeria // RJOAS. 7 (43). July 2015.

6. Э. Колин Кэмерон, Правин К. Триведи. Микроэконометрика: методы и их применения, книга 2 (перевод с английского под научной редакцией Б. Демешева). М.: Издательский дом «Дело» РАНХиГС, 2015.- 633 с.

7. Дежина И., Пономарев А. Перспективные производственные технологии: новые акценты в развитии промышленности// Ф0РСАЙТ.2014. Т.8. №2. С.5-13.

8. Публичный аналитический доклад по развитию новых производственных технологий. Сколковский Институт Науки и Технологий, 2014.

9. Статистический сборник «Регионы России. Социально-экономические показатели» [электронный ресурс] // URL : http://www.gks. ru/bgd/regl/b17_14p/Main.htm

Применение модели Пуассона для анализа панельных данных Текст научной статьи по специальности «Математика»

Аннотация научной статьи по математике, автор научной работы — Егорова Екатерина Владимировна, Радионова Марина Владимировна

Похожие темы научных работ по математике , автор научной работы — Егорова Екатерина Владимировна, Радионова Марина Владимировна

Application of the poisson model for analysis of panel data

Текст научной работы на тему «Применение модели Пуассона для анализа панельных данных»