Исследование технологии нейросетевого прогнозирования налоговых поступлений территории с применением техники многомерного кросскорреляционного анализа

Авдеева В.М.; Крючкова И.Н.

Экономика

Авдеева В.М., Крючкова И.Н.

ИССЛЕДОВАНИЕ ТЕХНОЛОГИИ НЕЙРОСЕТЕВОГО ПРОГНОЗИРОВАНИЯ НАЛОГОВЫХ ПОСТУПЛЕНИЙ ТЕРРИТОРИИ С ПРИМЕНЕНИЕМ ТЕХНИКИ МНОГОМЕРНОГО КРОССКОРРЕЛЯЦИОННОГО АНАЛИЗА

Воронежский экономико-правовой институт Международный институт компьютерных технологий, г.Воронеж

Введение

Прогнозирование налоговых поступлений - достаточно сложная и ответственная работа, требующая глубоких познаний происходящих в народном хозяйстве социально-экономических процессов, развития их тенденций в перспективе, знании налогового и иного законодательства, освоения методологии прогнозирования, в том числе с помощью автоматизированных систем управления (АСУ). Только в этом случае возможно с достаточно высокой степенью надежности разрабатывать прогнозы поступлений налогов и своевременно утверждать бюджеты всех уровней.

При прогнозировании традиционно оценивают и определяют:

• отклонения, которые могут возникнуть в прогнозируемом периоде,

• господствующие тенденции,

• возможные области их расхождения тенденций.

Прогноз поступлений налогов и других обязательных платежей базируется на:

• общеэкономических показателях развития страны,

• показателях ведущих отраслей национального хозяйства,

• показателях конкретного региона,

• исследованиях, публикуемых в специальной экономической литературе и других источниках.

Содержание прогнозов с различными временными горизонтами определяется природой прогнозируемых процессов. Чем более устойчивый характер носят эти процессы и тенденции, тем шире может быть горизонт прогнозирования. При расчетах прогнозов учитываются фактические динамические ряды поступления налогов за предыдущие периоды. Показатели за прошлые периоды корректируются на основе изучения конкретных экономических особенностей данного периода. Вместе с тем далеко не всегда удается выявить все особенности, к тому же на поступление налогов влияет множество внешних факторов (многомерные временные ряды). В действительности мы приходим к следующей формализации задачи прогнозирования налоговых поступлений.

1. Исходные данные

Имеются М временных рядов Х], Х2,...ХМ по N наблюдений в каждом. Имеется исследуемая переменная У - такой же по параметрам временной ряд, зависящий, как мы полагаем, от рядов наблюдений.

Можно проиллюстрировать имеющиеся наблюдения следующим обра-

Рис. 1. Графическая интерпретация исходных данных задачи прогнозирования

2. Прогнозирование временных рядов нейросетевыми методами

Обычно целью нейросетевого прогнозирования является предсказание значения некоторой переменной на основе ее предыдущих значений. Данные

о поведении объекта, признаки которого связаны с течением времени, представляются как результаты наблюдений в равномерные отсчеты времени. Для моментов времени 1=1, 2, ..., п данные наблюдений приобретают вид временного ряда х(^), х(?2), ..., х(1п). Информация о значениях временного ряда до момента п позволяет давать оценки параметров х^п+1),..., х(?п+т).

Настройка нейронной сети на решение конкретной задачи происходит в процессе ее обучения. Обучение представляет собой процесс модификации внутренней структуры нейронной сети по определенному алгоритму с целью получения требуемой по смыслу задачи реакции сети на предъявляемые исходные данные. В большинстве задач процесс обучения заключается в циклической подаче на вход сети различных наборов входных данных, для каждого из которых известен требуемый выход сети. Обучение продолжается до тех пор, пока значение критерия, характеризующего различие между требуемыми и реально полученными выходами сети, не станет меньше определенной величины. После окончания обучения сеть готова работе и может обрабатывать новые, ранее не предъявлявшиеся ей наборы данных.

Для прогнозирования элементов временных рядов широко используется метод "временных окон". Обучающий пример формируется путем наложения на массив исходных данных временного “окна”. Следующий пример формируется сдвигом “окна” на один временной интервал вперед.

В зависимости от количества признаков, представляющих значения рядов при формировании множеств данных, выделяют одно- и многопараметрическую задачи прогнозирования.

Однопараметрическая задача описывается следующим образом. Пусть временной ряд х(1) задан отсчетами процесса х(^), х(?2),..., х(1) в дискретные моменты времени ?. Зададим ширину (количество дискретных отсчетов)

входного временного окна т, ширину выходного окна р. Входное и выходное окна накладываются на данные ряда, начиная с первого элемента. В режиме обучения устанавливаются коэффициенты весов связей, после чего становится возможным переход к режиму функционирования. На входы нейросети поступают значения последней реализации обучающего множества х(1п-2), х(1п-1), х(1п), на выходе формируется прогнозируемая величина х*(1п+1).

Для многопараметрической задачи предвидения на входы обученной нейросети подаются векторы х^п-2), Хп2), 2(1п-2), х(^-1), У^п-1), *(^-0, х(г^), у(?п), 2(1п). На выходы нейросети поступают предвиденные величины х*(1п+^, у*(1п+^, г*(1;п+\), которые откладываются в выходной вектор предвиденных данных.

Для явлений, признаки которых представлены в виде временных рядов, может быть применено многошаговое прогнозирование. На входы нейросети подается вектор известных значений х(1п-2), х(1п-1), х(1п). На выходе формируется прогнозируемая величина х*(1п+]), которая определяет вектор прогнозируемых выходов и одновременно добавляется к значениям обучающего множества, то есть принимается как достоверная. Далее на входы подается вектор х(1п-1), х(1п), х*(1п+1), а на выходе получается х*(1п+2) и следующие прогнозируемые значения. Для многомерной задачи прогнозирования на входы обученной нейросети подаются векторы х(1п-2), у(1п-2), г(1п-2), х(1п-1), у(1п-1), 2(1,п. 1), х(1п), у(1п), ^(1п). На выходе продуцируются величины х*(1п+1), у*(1п+1),

1*(1п+]_), которые формируют вектор выходных значений и последовательно добавляются к значениям обучающего множества. При сдвиге окна на шаг, выходные данные, спродуцированные сетью, воспринимаются как реальные и принимают участие в прогнозировании следующего значения выхода, то есть на входы подаются вектор х(1п-1), у(1п-1), *(^-0, х(1п), у(1п), ^(?п), х*(1п+1), у*( 1п+1), **( 1п+1), а на выходе получаются х*(1п+2), у*(1п+2), ^*(?п+2) и следующие прогнозируемые значения.

Многошаговое прогнозирование позволяет делать кратко- и среднесрочные прогнозы, поскольку существенное влияние на точность имеет накопление погрешности на каждом шаге прогнозирования. При применении долгосрочного многошагового прогнозирования наблюдается характерное для многих прогнозирующих систем постепенное затухание процесса, фазовые сдвиги и другие искажения картины прогноза. Такой тип прогнозирования подходит для стационарных временных рядов с небольшой случайной составляющей.

Для получения более точных прогнозов необходимо учитывать влияние некоторых факторов, которые выделяются на основе анализа предметной области. Например, может использоваться персептрон с одним скрытым слоем из 5 нейронов с прямыми связями, сигмоидальной функцией активации. Для обучения может быть применен алгоритм обратного распространения ошибки. Однако зачастую значения дополнительных параметров представляют собой некоторые характеристики и не являются временными рядами.

В случае учета различных факторов, влияющих на прогнозируемую ве-

личину, каждый обучающий пример содержит историю значений по факторам, значимо влияющим на значение прогнозируемой величины и историю значений самой прогнозируемой величины, а также требуемый выход нейросети. Ширина временного «окна», то есть количество предыдущих значений, на основе которых формируется прогноз, может быть определено (с помощью анализа графиков автокорреляционных функций входных факторов). Построение графиков автокорреляционных функций позволяет визуально оценить длительность интервала времени, по прошествии которого влияние предшествующих значений на текущее становится слабо выраженным или незначимым.

Кроме того, для прогнозирования может быть применена «нейронная сеть с отсроченной задержкой» (ТВЫЫ) , включающая, помимо многоуровневой нейронной сети с прямой связью, операторы запаздывания с обратной связью. Наличие «трассирующих контроллеров» позволяет при неудовлетворительных результатах обучения изменять (сглаживать) значения некоторых факторов. Исходные данные применяются для обучения и прогнозирования в предположении, что взаимное расположение рядов определено и значения могут быть представлены в виде таблицы, устанавливающей соответствие входов и выходов нейросети в определенные моменты времени.

3. Интерпретация результатов

Для адаптации весов сети ^ используется алгоритм обратного распространения ошибки. Необходимо минимизировать квадрат ошибки Е2

Т Т 1 Т 1

Е Е> = Ё2е2(п) = £2(й(п) - у(п))2,

п=1 п=1 2 п=1 2

где ё(п) - желаемый отклик сети; у(п) - фактический отклик сети.

Далее стандартным путем (изменения в направлении убывания градиента):

дЕ т

Ык = -ц---- , Ык (п) = цТ е(п)хк (п), где ц - шаг обучения.

дмь

к и=1

4. Учет смещения временных рядов

В ряде работ показано, что влияние одного события на другое проявляется по прошествии некоторого времени, величину которого называют временным лагом А. Временной лаг обнаруживается при определении связей между явлениями в социальной, финансовой, медицинской и других сферах.

В случае наличия неизвестного временного лага задача нейросетевого моделирования временных рядов существенно усложняется, так как появляется неопределенность выбора обучающих пар (х,у). В ряде работ подчеркивается, что значения факторов, влияющих на выходы, должны быть определены в один и тот же момент времени. Предположим, что влияние факторов Х на У оказывается с задержкой, тогда временной ряд У «отстает» от рядов X! на некоторую величину Аг-, причем в общем случае А1^А2^_А^. Рассмотрим возможные варианты нахождения Аг-.

1. Имеется единственный ряд Х с наблюдаемыми значениями (х^д, х(12), ...х(п). Имеется зависящий от него ряд У(у(т]), у(т2), ... у(тп)). При этом Т] = t]+А, где А= - а-А1.

Шаг 1. Предположим, что а=0, то есть 1г = Тг. Используем пары (хг-,уг) для решения задачи аппроксимации зависимого ряда. Утверждается, что для любого множества пар {(хк,Ук)к = 1...Ы} существует однородная двухслойная нейронная сеть с последовательными связями, с сигмоидальными передаточными функциями и с конечным числом нейронов, которая для каждого входного вектора Хк формирует соответствующий ему выходной вектор Ук. Определяем весовые коэффициенты сети при помощи, например, алгоритма обратного распространения ошибки. Затем эта сеть используется для предсказания значения У'@+]\ не использовавшегося в обучении, без коррекции параметров с помощью одного из приведенных выше методов. Значение ошиб-У - У ’

ки прогноза Е = —у—100% используется как показатель качества аппроксимации.

Шаг 2. Присвоим а=1, то есть сдвинем У «назад» относительно Х и сформируем новые пары обучающих данных. При этом количество обучающих пар уменьшается. Поэтому необходимо удлинять ряд Х в «прошлое» либо прямым добавлением наблюдений, либо с помощью прогнозирования Х в предыдущие моменты времени.

Шаг 3. Повторяем шаги 1 и 2, сравнивая значения ошибки прогноза.

Увеличивая а на 1, повторяем обучение и прогноз, контролируя ошибку прогноза. Количество повторений зависит от надежности прогнозирования предыдущих значений Х и может быть определено аналогично ширине «временного окна».

Для дальнейшего анализа можно применить значения ширины «временного окна» 8Х и 8У, рассчитанные по известной методике.

Приведенные рассуждения можно обобщить для М временных рядов Х1, Х2,... ХМ. Особенностью данного случая является проблема выбора временного ряда, подлежащего сдвигу. Возможны следующие варианты.

1. Первым сдвигается ряд, имеющий максимальную значимость (наибольший весовой коэффициент).

2. Первым сдвигается ряд, имеющий минимальную значимость (наименьший весовой коэффициент).

3. Случайный выбор ряда для сдвига.

После нахождения оптимального А для выбранного ряда производится формирование новой обучающей выборки с учетом спрогнозированных в «прошлом» значений этого ряда, наложении запрета на повторный выбор этого ряда для сдвига и повторении цикла аппроксимация - прогноз. Возможные варианты качественного поведения веса и функции ошибки прогнозировании представлены на рис. 2 - 4.

а) 6)

Рис. 2. Однозначное определение оптимального временного лага

Ситуация, изображенные на рис. 2а, соответствует наличию единственного временного лага, приводящему к минимизации ошибки и повышению веса рассматриваемого параметра. Рис. 2б соответствует независимой переменной, влияющей без запаздывания на прогнозируемую величину.

Рис. 3. Оптимальный лаг определить невозможно

Если наблюдается устойчивое снижение ошибки при изменении или постоянстве веса, то процесс обучения, скорее всего, завершен не был, что может свидетельствовать нечувствительности ряда такой длины к сдвигам.

При одновременном уменьшении веса и ошибки прогнозирования можно предположить, что удаление соответствующего ряда из набора обучающих данных может повысить точность прогнозирования. Если же система не реагирует на изменение параметров, возможно, было неправильно проведено шкалирование и чувствительность соответствующего входа недостаточна.

После определения оптимальных временных лагов строится новая сово-

купность данных с учетом значении, полученных в результате прогнозирования «в прошлом», и эта совокупность используется для обучения сети с целью получения прогноза зависимой переменной на основе ее предыдущих значений и истории изменения независимых переменных.

Обобщенная структура системы прогнозирования смещенных временных рядов представлена на рис. 5.

є

IV

►

0 Л

Рис. 4. Неопределенное влияние сдвига параметра на характеристики

системы

Вектор оптимальных лагов

Рис. 5. Обобщенная структура системы прогнозирования временных рядов с учетом смещения

Линия задержки представляет собой хранилище данных (рис. 6), в котором каждому номеру входного ряда Х и определенному моменту времени соответствует значение экспериментальное или «виртуальное» значение параметра, дополненное модулем сдвига, который при каждом такте работы про-гнозатора выбирает значение параметра в момент времени 1;-Д, которое затем подается на соответствующий вход нейронной сети со структурой, представленной на рис. 7. ту - ширина, временного окна зависимой переменной, - количество предыдущих значений каждой независимой пере-

т ... т

х1 хм

менной, учитывающихся при построении прогноза. Линия задержки такой

структуры может быть реализована без применения нейросетевых моделей. В задаче векторы входных и выходных параметров имеют небольшую размерность. В качестве прямого прогнозатора может быть выбрана и рекуррентная многослойная персептронная сеть, но для нее невозможно учесть различную ширину временных окон.

Количество скрытых слоев и нейронов в них может быть оценено приблизительно. Согласно теореме Колмогорова, для отображения ^-мерного множества входных данных в М-мерный выходной вектор при условии непрерывности трансформирующей функции достаточно одного скрытого слоя с (2-Ы+1) нейронами. На практике чаще всего применяются сети с одним или двумя скрытыми слоями, а число нейронов в них варьируется от N до 3 -Ы.

На входы ^ ^1‘" ^

нейросети

УЧ

результаты наблюдений о виртуальные» банные

Рис. 6. Принцип действия линии задержки

^^-1)

+ ---И

у1£-ту) 4 у^

хЛ)

+■ 1

Рис. 7. Многослойный персептрон с прямыми связями для прогнозирования временного ряда У с учетом влияния временных рядов Х

Заключение

Предположительно, четыре из 11 выделенных факторов оказывают отсроченное влияние на прогнозируемый параметр. Игнорирование этих временных лагов может привести к недостаточной точности прогнозирования.

Несмотря на использовании в качестве входов сети нескольких значений независимых переменных в разные моменты времени, что снижает чувствительности прогноза к ошибке определения лага, существует вероятность того, что при больших лагах наиболее значимые изменения параметров не попадут во «временное окно» из-за особой сложности формы зависимости между прогнозируемым рядом и конкретным фактором.

Список использованных источников

1. Осовский С. Нейронные сети для обработки информации. - М.: Финансы и статистика, 2004. - 344 с.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

2. Родионов П.Е. Извлечение знаний из эмпирических данных, представленных временными рядами. - http://iu5.bmstu.ru/~philippovicha/ITS/IST4b/ITS4/Rodionov.htm.

3. Бучаев Я.Г. Системное моделирование конъюнктуры фондового рынка. - Вестник ФА, №1(29), 2004.

4. Лаптев И. А. Применение нейронных сетей с Оатта-памятью для прогнозирования значений временных рядов, ВКСС-СОКЫЕСТ!, № 4, 2004.

5. Давыдов А. Социальное неблагополучие: зависимость объективных и субъективных оценок, НСН - http://www.nns.ru/analit/pol/table.html.

6. Кравец О.Я. Гибридные алгоритмы оптимизации моделей множественной регрессии на основе кросскорреляции// Информационные технологии моделирования и управления, №4 (21), 2005.

7. Круглов В.В., Борисов В.В. Искусственные нейронные сети. Теория и практика. М.: Горячая линия - Телеком, 2002. - 382 с.

8. Крючкова И.Н., Кравец О.Я. О задаче прогнозирования устойчивого развития негосударственного вуза// Составляющие научно-технического прогресса: Сборник материалов международной научно-практической конференции. Тамбов, 2005. - С. 111-115.

9. Дадашев А.З., Черник Д.Г. Финансовая система России. - М., 1997.

10. Налоги/ Под ред. Д.Г. Черника - М.: Финансы и статистика, 1997.

11. Поляков Н.Ф. Методология и инструментарий системного экономического прогнозирования промышленного производства и налоговых поступлений в условиях неопределенности: Автореф. дисс. ... д-ра экон. наук. - Н.Новгород, 2004. - 48 с.

12. Школяр Н.А. Налоговая система: Курс лекций. - М.: РУДН, 2005.

13. Авдеева В.М., Кравец О.Я. Теоретические основы прогнозирования налоговых поступлений на основе кросскорреляционного анализа многомерных временных рядов// Системы управления и информационные технологии, 2006, №1.2(23). - С. 212-216.

14. Авдеева В.М. Прогнозирование объема налоговых поступлений на основе математических методов экономики: состояние проблемы// Территория науки. - 2006, №1(1). - С. 7-11.

15. Авдеева В.М., Крючкова И.Н. Обработка статистических данных и определение состава входов нейросети в процессе формирования информационной базы для прогнозирования// Территория науки, 2007, №2(3). - С. 196-204.

Бугаков Д.В., Соломахин А.Н.

АГРАРНЫЕ ХОЛДИНГОВЫЕ КОМПАНИИ В СОВРЕМЕННОМ АГРОПРОМЫШЛЕННОМ КОМПЛЕКСЕ РОССИИ

Воронежская государственная лесотехническая академия Воронежский экономико-правовой институт

В последние два-три года одной из популярных тем новейшей российской политэкономии является проблема развития российского агропромыш-

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Авдеева В. М., Крючкова И. Н.