Построение оптимального плана выездных проверок на основе гибридной нейросетевой модели налогового контроля

Белолипцев И.И.

УДК 336.717

ПОСТРОЕНИЕ ОПТИМАЛЬНОГО ПЛАНА ВЫЕЗДНЫХ ПРОВЕРОК НА ОСНОВЕ ГИБРИДНОЙ НЕЙРОСЕТЕВОЙ МОДЕЛИ НАЛОГОВОГО

КОНТРОЛЯ

CONSTRUCTING THE OPTIMAL PLAN OF EXIT CHECKS ON A HYBRID NEURAL NETWORK MODEL OF TAX CONTROL

Белолипцев И.И., преподаватель кафедры математики и информатики, Финансовый университет при Правительстве Российской Федерации,

Уфимский филиал E-mail: red7315@ gmail. com

Аннотация

В работе предлагается метод построения оптимального плана выездных налоговых проверок на основе гибридной нейросетевой модели налогового контроля. Для оценки вероятности нарушения налогового законодательства предлагается использовать фрактальную размерность ряда остатков. Большое внимание уделено вопросам байесовской регуляризации нейросетевых моделей, предлагается ряд подходов для повышения однородности и информативности данных. Разработана оригинальная методика формирования системы показателей нейросетевой модели налогового контроля. Все предложенные в работе идеи и методы апробированы в широких сериях вычислительных экспериментов. Эффективность модели подтверждена результатами реально проводившихся налоговых проверок.

Abstract

A method of constructing an optimal plan of field tax audits based on a hybrid neural network model of tax control is proposed in this paper. To assess the likelihood of violation of tax legislation is proposed to use the fractal dimension of a number of residues. Great attention is paid to the Bayesian regularization of neural network models, a number of approaches to improve the uniformity and informational content of data are proposed. An original method of forming of the

system of indicatiors for neural network model of tax control is developed. All ideas and methods proposed in the paper were tested on a large series of numerical experiments. Effectiveness of the model is confirmed by the results of really conducted tax audits.

Ключевые слова: нейросеть, регуляризация, байесовский подход,

фрактальная размерность, индекс фрактальности, план выездных проверок.

Keywords: neural network, regularization, Bayesian approach, fractal

dimension, fractal index, plan of tax audits.

Введение

Для динамичного развития экономики, реализации социальных программ и повышения качества жизни граждан государство должно обеспечить наполняемость бюджета. Значительную долю доходов государственного бюджета составляют налоговые поступления. Однако, собираемость налогов в РФ остается на очень низком уровне. Многие налогоплательщики сознательно искажают данные бухгалтерской отчетности, уклоняясь от уплаты налогов. Одной из форм государственного контроля является проведение камеральных проверок, цель которых - выявление нарушений налогового законодательства и получение доначислений в бюджет. Ввиду ограниченности ресурсов налоговые органы не в силах организовать проверку всех налогоплательщиков. По мнению руководителя ФНС России Мишустина М.В. [4] необходимо совершенствовать процедуру проведения камеральных проверок налогоплательщиков. Для рационального использования бюджетных средств и трудовых ресурсов выездные налоговые проверки должны проводиться адресно, на основе оценки вероятности нарушения налогового законодательства налогоплательщиком. Для решения этой задачи необходимо создание математико-информационных моделей зависимости

налогооблагаемой базы от ряда факторов. Вопросам разработки моделей для модернизации налоговой системы в последнее время уделяется большое внимание [5].

В данной работе предлагается метод построения оптимального плана выездных налоговых проверок на основе гибридной нейросетевой модели налогового контроля (ГНСМ). Для оценки вероятности нарушения налогового законодательства предлагается использовать фрактальную размерность ряда остатков. Большое внимание уделено вопросам байесовской регуляризации нейросетевых моделей, предлагается ряд подходов для повышения однородности и информативности данных.

Теоретический аспект актуальности работы состоит в том, что вопрос о байесовской регуляризации нейросетевых моделей (НСМ) в условиях отсутствия каких-либо сведений о законе распределения шумов ранее не исследовался. Практический аспект актуальности работы состоит в том, что предложенные идеи и методы создают предпосылки для повышения уровня автоматизации, объективности и эффективности работы системы налогового администрирования.

Предметом исследования являются вопросы регуляризации обратных задач восстановления многофакторных нелинейных зависимостей, скрытых в данных, а также синтеза на этой основе оптимальных планов выездных налоговых проверок. Объектом исследования является группа сельскохозяйственных предприятий, для которых необходимо сформировать оптимальный план налоговых проверок. Информационную базу данной работы составляют данные квартальных налоговых деклараций 24 сельскохозяйственных предприятий Республики Башкортостан за 2006-2009 гг.

В процессе исследования применялись методы математической статистики, нейросетевого моделирования и также ряд подходов, изложенных в работах [2, 3, 7].

Практическая ценность полученных в работе результатов состоит в том, что предложенные идеи и методы создают предпосылки для повышения уровня автоматизации, объективности и эффективности работы системы налогового администрирования.

Степень разработанности темы: предложена новая концепция разработки математических моделей налогового контроля, отличительным признаком которой является предложение о групповом (сравнительном) анализе налоговых деклараций. Диагностика нарушений налогового законодательства в декларациях производится по относительным отклонениям показателей декларации от эталонной поверхности, представляющей собой восстановленную из данных нейросетью многофакторную закономерность. Разработаны методы нейросетевого моделирования, реализующие эту концепцию, которые включают в себя метод синтеза оптимального плана налоговых проверок с использованием фрактальных размерностей. Предлагаемые в работе идеи были апробированы в многочисленных вычислительных и натурных экспериментах.

1. Приближенный метод байесовской регуляризации нейросетевой модели

налогового контроля

Оговорим постановку задачи и ее особенности. Имеются данные квартальных налоговых деклараций 24 сельскохозяйственных предприятий (формы 1 и 2 бухгалтерского баланса) за период с 2006 по 2009 гг. Необходимо получить оптимальный план проведения выездных налоговых проверок, который обеспечит наибольшую величину налоговых доначислений в бюджет.

Для решения поставленной задачи предлагается использовать нейросетевое моделирование с соблюдением основных положений байесовского подхода к регуляризации обучения нейросетей. Предполагается, что данные деклараций содержат в себе все необходимые сведения для выявления нарушителей налогового законодательства. Восстанавливаемую нейросетью функцию У(X), (X = Х1,Х2,...,Х},...,Хп)будем считать скалярной. Данные в этом случае являются наборами (кортежами) примеров, т.е. парами

значений D={*,, у, 1=?, где , -номер вектор-строки наблюдений.

Предполагается, что в данных присутствует практически неформализуемый шум с неизвестным распределением плотности вероятности:

Y = h( X ,W) + Л(Р), (1)

где h(X,W)- параметрическая многомерная функция, восстанавливающая регулярную часть скрытой в данных закономерности; W - совокупность параметров модели (набор весов); л(Р)- составляющая шума; 0 - вектор параметров функции шума, априори неизвестный. При этом аддитивное вхождение функции шума ^(0) в (1) в нашем исследовании вовсе не обязательно.

На основе налоговых деклараций формируется исходная база данных. В качестве входных факторов xj, j = 1, n используются удельные показатели,

широко используемые в финансовом анализе для оценки финансового состояния предприятия. В качестве моделируемой величины у было взято отношение суммарных затрат к величине выручки предприятия.

В описанных в [9] основах байесовской теории регуляризации обучения приведенные оценки статсумм Za, Zp, Zap, используемые при максимизации

знаменателя формулы Байеса (Evidence) и, соответсвенно, сужающие апостериорный ансамбль гипотез-нейросетей \hq (X ,W )| H }, требуют

аналитического задания функции шума л(Р). В нашей постановке задачи это условие не выполняется, так как шум и искажения данных могут иметь произвольный закон распределения. Следовательно, нужно искать другие способы апостериорной оценки вероятности гипотез и сужения ансамбля.

Мы будем опираться на основные узловые моменты байесовского подхода к регуляризации обучения нейросетей из [9], но без прямого вычисления Evidence:

1) оценка всех выходных величин нейросетевой модели (НСМ) должна проводиться не по одной нейросети, а по байесовскому ансамблю гипотез-нейросетей \hq (X, W)|H }, q = 1, Q, взятых из одного класса метагипотезы H;

2) принадлежность всех нейросетей-гипотез к одному классу Н есть ограничение на выбираемые гипотезы, что является одним из механизмов регуляризации модели;

3) после обучения нейросетей-гипотез \кС1} должна быть разработана

числовая мера оценки апостериорной вероятности гипотез Р(Ьч (X,W) 0\Н) о

порождении данных. Эта мера должна служить для процедуры отбора (фильтрации) гипотез-нейросетей, сужающего априорный ансамбль. Фильтрация - это тоже регуляризирующая процедура: она отсеивает нейросети, имеющие слабую прогностическую способность;

4) оценка всех выходных характеристик НСМ проводится осреднением на отфильтрованном ансамбле, что также обладает эффектом регуляризации модели.

Основным проблемным вопросом предлагаемого приближенного прикладного метода байесовской регуляризации является апостериорная оценка Р(Ьд (X ^) 0\Н). В качестве критерия фильтрации метагипотез

п*

предлагается использовать частотную апостериорную вероятность Рч приемлемого объяснения данных в соответствии с принятой метагипотезой Нч:

о*

я

^ тах Г N1 1 , <: 8 . = Уг - У г

я 1 N ’ Я щ Уг

100% <ц, i = 1, N, (2)

где 8 . - относительная ошибка объяснения данных в точке i; Nn - число точек,

iq я

в которых ошибка 8 * не превышает ц; N - общее количество точек.

Щ

В пользу выбора критерия фильтрации гипотез (2) говорят следующие соображения:

1) он очень прост в реализации и не требует никаких жёстких ограничивающих предположений;

2) критерий (2) носит характер интегральной оценки качества объяснения данной сетью Нч(X,W) наблюдаемых данных, так как значение частотной

вероятности (2) напрямую зависит от эффективности всех предшествующих

процедур предобработки данных [7], а также алгоритма выбора мета-гипотезы Н ; при этом алгоритмы предобработки данных можно рассматривать как процедуры «предрегуляризации».

Рассмотрим процедуру фильтрации гипотез. Введем правило отбора гипотез:

Я*: Р. , ю< 1, (3)

где ю - экспертно задаваемый уровень вероятности «хорошего» объяснения данных q-ой гипотезой-нейросетью.

Из (3) видно, что чем ближе мы будем задавать ю к 1, тем жестче будет процедура фильтрации и тем меньше останется гипотез в ансамбле. Здесь возможно построение различных оптимизационных схем в зависимости от степени зашумления данных, качества их предобработки и качества аппроксимации данных байесовским ансамблем.

2. Формирование системы показателей Широко известен факт, что устранение из данных незначимых факторов улучшает качество модели. В работах [3, 6] при формировании системы показателей использовался классический алгоритм, основанный на анализе матрицы коэффициентов парной линейной корреляции. В результате в модель включались факторы, линейно связанные с моделируемой величиной у. Такой подход имеет существенный недостаток: не учитываются нелинейные

зависимости, скрытые в данных. Статистическая незначимость коэффициентов линейной парной корреляции вовсе не означает, что соответствующие индексы корреляции, измеряющие нелинейные связи переменных, тоже незначимы. Изначально выбор такого инструмента, как нейросетевое моделирование был обусловлен тем, что нейросеть способна улавливать и восстанавливать любые виды зависимостей, скрытые в данных, как линейные, так и нелинейные.

Для исправления указанного недостатка предлагается нейросетевой метод формирования системы показателей, аналогичный «методу включения» в эконометрике [7]. Его идея состоит в следующем:

1) На основе данных бухгалтерской отчетности формируется некоторый базовый набор показателей. Проведенные ранее исследования показали, что в задачах налогового администрирования хорошо зарекомендовала себя система из 16 безразмерных количественных показателей, предложенная А.О. Недосекиным [6];

2) Выбирается стартовый набор из п0 факторов ( П0 < 16). В качестве начального набора факторов можно использовать статистически значимые факторы, отобранные на основе матрицы парных коэффициентов корреляции. Формируется исходная база данных D0 = \ха,Хг2,...,Ху.,...,Хт ,Уг}, і = 1,N,

J _ 1 no .

3) Строится вспомогательная нейросеть фиксированной структуры типа многослойный персептрон. Основная концепция всех алгоритмов предобработки данных D согласно [7] состоит в том, что процедура отбора факторов для включения в модель должна быть подчинена качеству будущего обучения байесовского ансамбля. Нейросеть обучается на стартовой наборе данных. В качестве критерия оценки информативности текущего набора факторов предлагается использовать величину частотной вероятности «хорошего» объяснения данных (2):

*

р* _ N(к) (4)

Р(к) N ' (4)

3) Далее к стартовому набору факторов поочередно добавляются новые факторы из числа оставшихся и отслеживается изменение P*) по (2). При

увеличении величины P), добавленный фактор признается информативным и включается в систему показателей, в противном случае - отбрасывается. Набор факторов, соответствующий максимальному значению max \р*к)}, используется

при построении рабочей модели налогового контроля.

Для обеспечения устойчивости НСМ и повышения качества обучения сетей ансамбля необходимо, чтобы данные были достаточно однородны и

информативны. Проблема неоднородности данных характерна для задач налогового контроля, основанных на налоговых декларациях. Она вызвана сознательным искажением данных налогоплательщиками. Как показывает практика, чаще всего искажаются расходные статьи бухгалтерского баланса, то есть налогоплательщик «дописывает» несуществующие расходы с целью снижения налогооблагаемой базы. Для повышения однородности и информативности данных авторами [2, 3, 7] был разработан ряд оригинальных подходов. Рассмотрим их более подробно.

3. Удаление противоречивых данных Предлагаемый алгоритм удаления противоречивых данных относится к процедурам предрегуляризации модели и проводится до непосредственного обучения байесовского ансамбля нейросетей. Суть «противоречивости данных» в следующем: двум близким по некоторой числовой мере вектор-строкам Ха и Хр могут соответствовать существенно отличающиеся значения выходной величины уа и ур. То есть пара вектор-строк Ха и Хр «растягивают»

нейросетевое отображение модели, что ухудшает качество обучения сети и негативно влияет на устойчивость модели к изменению входных факторов (рис. 1).

Рисунок 1. Иллюстрация зависимости у( х), скрытой в данных в области

локальной неоднородности Для выявления локальных неоднородностей предлагается использовать аналог константы Липшица:

L

а ,р

Уа- Ур

/

х„

х,

(5)

где ха, Хр - близкие по евклидовой норме вектор-строки, уа, Ур -

соответствующие им значения выходной величины; Еп - п-мерное евклидово

пространство; ||-|| - норма в Еп. Все записи исходной базы данных

предварительно сортируются в порядке возрастания |хг| |. Тогда если Lар> 1, то

это значит, что двум близким по норме векторам Ха и Хр соответствуют

существенно различающиеся значения уа и ур, и это может говорить о

сознательном искажении данных налогоплательщиком.

Большие значения величины Laр могут быть вызваны двумя причинами:

1) для двух близких по норме векторов Ха и Хр норма

Уа" УР

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

велика, что

говорит о сознательном искажении данных; 2) два вектора Ха и Хр очень

близки по норме, т.е. норма разности

очень мала при существенно

большем значении

Уа" УР

Ха Хр

В этом случае Laр >> 1. Введем дополнительное условие. Для пары близких по норме векторов Ха и Хр должно выполнятся

/I Ха||-100% >с, С* 1%. (6)

Вектор-строки, удовлетворяющие критериям (5) и (6) удаляются из исходной базы данных и не участвуют в последующем обучении.

При обнаружении пары вектор-строк для которых Laр > 1, без

дополнительного исследования неясно, какая из них растягивает нейросетевое отображение. В [7] предлагалось удалять из базы данных обе строки - при этом вместе с противоречивыми, мешающими обучению данными удаляются и информативные вектор-строки. Такой подход допустим, если данных достаточно для качественного обучения. Однако для задач налогового администрирования характерен дефицит наблюдений, и, кроме того, алгоритм построения НСМ налогового контроля на этапе обучения нейросетей предусматривает дополнительную чистку базы данных для обеспечения лучшей точности и устойчивости модели. В такой ситуации на этапе предобработки данных желательно сохранить как можно больше

информативных наблюдений. Для решения этой задачи предлагается следующий алгоритм: при обнаружении пары вектор-строк Х5 и Х^+1, для которых Ь!, ^ > 1 вычисляется Ь5-1 ^. Если Ь5-1 ^ < 1, то это означает, что для пары векторов с номерами 5 и £ + 1, именно строка с номером £ приводит к тому, что Ь5 5+1 > 1. Вектор-строка Х5 признается противоречивой, удаляется из базы данных и не участвует в дальнейшем обучении сети. И наоборот, если Ь5-15+! > 1, то противоречивой, «растягивающей» является строка с номером

5 +1.

В результате выполнения предложенной процедуры из базы данных удаляются сознательно искаженные налогоплательщиком наблюдения, которые могут негативно повлиять на качество обучения нейросети. Сформированная

база данных (Х., у;), I = 1, N будет более однородной и обученная на ней

нейросеть будет менее чувствительна к изменениям входных факторов. Впоследствии противоречивые вектор-строки, не участвовавшие в обучении, предъявляются обученной сети для выявления налогоплательщиков-нарушителей и окончательного синтеза плана выездных налоговых проверок. Итерационный алгоритм удаления противоречивых вектор-строк более подробно изложен в [2].

4. Удаление аномальных наблюдений В результате удаления противоречивых наблюдений из обучающей выборки исключаются самые явные и грубые локальные неоднородности. Но в процессе исследований выяснилось, что этого недостаточно для обеспечения необходимой ошибки обобщения и устойчивости модели. Поэтому на этапе обучения нейросетей проводится более тщательная «чистка» данных от наблюдений, препятствующих хорошему обучению. Такие наблюдения были названы автором «аномальными». Вектор-строку Х1 будем считать аномальной,

если значение у существенно отклоняется от аппроксимируемого сетью

значения у. Удаление аномальных наблюдений производится итерационно по

следующему правилу:

.*( k) (k)

I : О *

i

y* - У*

ii

У,*

100%>^(k),^(k) >0, к^Д,...,

(7)

где к - номер итерации; . - номер удаляемой из данных вектор-строки; £,(к) -задаваемый уровень отбраковки. Параметр £,( к) на первой итерации составляет порядка сотен процентов, на второй итерации - порядка десятков процентов и т.д.

Цель данной процедуры - сглаживание гиперповерхности функции у1 = F(,W). Качество обучения сети на каждой итерации оценивается по обобщенному мультипликативному критерию J, представляющему собой произведение частных критериев:

J = Е • 5; (8)

\т Qest N (k)

E =

Y: - Y

/I |y|| • S = —

ll lll’ ЛР2 test / і

(k)

У7, - .У,

I+1

I=1 В - X+1

; i = 1, N ; N єО

test

(9)

Величина Е в (8) является ошибкой обобщения, рассчитанной на тестовом множестве О1681 наблюдений, не участвовавших в обучении НСМ, и характеризует точность и прогностические свойства сети. Критерий 5 характеризует устойчивость НСМ к вариации независимых переменных: чем меньше 5, тем меньше разброс расчетных значений у(х) на новых наблюдениях после обучения нейросети. Величина S также вычисляется на

тестовом множестве

test

при этом наблюдения предварительно

упорядочиваются в порядке возрастания ||Хг |, I = 1, Х(к)"‘. По мере удаления

аномальных по (7) наблюдений улучшается и точность Е и устойчивость 5 модели. После каждой к-ой итерации проверяется условие

^ < ^-1? (10)

Процедура очистки данных от аномальных наблюдений останавливается в случае достижения желаемого значения J (порядка тысячных) либо при нарушении условия (10).

5. Синтез оптимального плана выездных проверок

При составлении оптимального плана выездных проверок должны соблюдаться следующие принципы:

• план выездных проверок формируется после подачи налогоплательщиками последней налоговой декларации (квартального отчета) в момент времени 10. Появление значительных отклонений вида (2) может свидетельствовать о нарушении g -ым налогоплательщиком налогового законодательства и является основанием для включения его в план проверок;

• большие отклонения вида (2) на момент составления плана проверок могут быть вызваны и объективными причинами (неудачная сделка, повлекшая за собой убытки, форс-мажор и т.д.). Поэтому необходимо оценить вероятность нарушения данным налогоплательщиком налогового законодательства;

• проведение выездных проверок в первую очередь преследует цель получения максимальных налоговых доначислений. Очевидно, что величина возможных доначислений зависит от масштаба предприятия, поэтому при составлении плана проверок эта величина обязательно должна учитываться.

Для всех гипотез-нейросетей, прошедших процедуру фильтрации, составляются планы проведения выездных проверок. Для этого все предприятия-налогоплательщики ранжируются в порядке убывания критерия {у }, который учитывает вышеперечисленные условия. Возможны несколько

способов вычисления {у *}. В [3] предлагалось вычислять {у } одним из

следующим способов:

У *

5 *

Р(5, >8*) • М*;5* = М[5*,] + и*; (I1)

У

ё

5 *

• Мё / В, В = 2 - Н , (12)

где * - номер предприятия; Р(8* >5*)- вероятность того, что текущее (по

времени ^ значение отклонения 5* для * -го налогоплательщика будет больше

его математического ожидания, смещенного вверх на полуширину доверительного интервала и*; М[•] - оператор математического ожидания

временного ряда {5(}, который считается стационарным процессом; М* -коэффициент масштаба предприятия, В - величина фрактальной размерности временного ряда {5 (}.

В качестве и* принимается половина размаха отклонения 5* на отфильтрованном байесовском ансамбле:

и* = {)- ™п к-,*- ^1 $, (13)

где -0- момент последнего наблюдения, для которого синтезируется план выездных проверок.

Вероятность Р(5* >5*) учитывает предысторию появления у * -го налогоплательщика больших отклонений вида (2) от эталонной поверхности У(Х^, -) 1=к . Коэффициент масштаба М* в (14)-(15) вычислялся как

отношение величины выручки * -го предприятия к максимальному значению выручки по всей группе предприятий. Использование критерия (11) возможно только в том случае, если значения рядов {5* (} распределены по нормальному закону, что выполняется далеко не всегда. Проверить гипотезу о нормальном законе распределения рядов {5 (} при помощи классических методов

(например, по критерию х2 -Пирсона) невозможно, так как ряды остатков {5 * -} содержат слишком мало значений (от 8 до 16 наблюдений). Однако, можно получить косвенное свидетельство того, что распределение рядов {5 * (} отлично

от нормального при помощи показателя Херста Н [8]:

Н = ^( R / 5) / ^( N /2), (14)

где Я = тах{5 *,,} - тт{5 * ,, }, i = 1, N размах отклонений 5 *,,; 5 -

среднеквадратическое отклонение 5*^.

Если для некоторого временного ряда 0,5 < Н < 1, то этот ряд является персистентным, или трендоустойчивым. Чем ближе значение Н к единице, тем более коррелированны значения ряда {5 (}. Если для некоторого ряда

0,5 < Н < 1, то это означает, что ряд {5} не является случайным, а содержит

тренд, значит можно предположить, что данный налогоплательщик систематически нарушает налоговое законодательство. Величина 1/ В трактуется как оценка вероятности нарушения налогового законодательства налогоплательщиком в (12). Недостатком этого метода ранжирования налогоплательщиков является тот факт, что для получения приемлемой оценки показателя Херста (14) необходимо иметь достаточно большое количество данных (несколько сотен значений временного ряда) [1]. В рассматриваемой в данной работе задаче временные ряды {5 (} содержат всего 8-16 значений, и использование критерия (18) для вычисления значений {у * } может привести к

неточным оценкам.

Наиболее перспективный способ ранжирования налогоплательщиков основан на вычислении величины размерности минимального покрытия Вц [1]:

• М* / Вц, Вц = 1 + ц, (15)

где Вц - размерность минимального покрытия; ц - индекс фрактальности.

Индекс фрактальности ц является локальной фрактальной характеристикой временного ряда. В [1] показано, что точность определения Вц намного выше, чем точность определения других фрактальных

характеристик, таких как клеточная размерность Вс или показатель Херста.

Размерность минимального покрытия определяется следующим образом: пусть временной ряд {5(} задан функцией f (-) на отрезке [а, Ь]. Разобьем

отрезок [а,Ь] на равные интервалы длиной 5 = (Ь - а)/т . Минимальная

15

У * =

5 *

площадь покрытия графика функции / (-) на отрезке [а, Ь] будет равна сумме площадей прямоугольников с основанием 5 и высотой, равной разности (5) между максимальным и минимальным значением функции f (-) на каждом отрезке [-г-1, - ] (рис. 2).

Рисунок 2. Построение минимального покрытия.1 Полную площадь минимального покрытия Sц (5) можно найти как:

m

S„ (5) = Vf(5)-5, Vf (5) = £ A, (5), (16)

i=1

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

где Vf (5) - сумма амплитуд функции f (t) на отрезке [a, b]. Очевидно, что Sц (5) зависит от выбора величины 5. Индекс фрактальности ц определяется из соотношения:

Vf (5) *5-ц, 5^0, ц = 1 (17)

Для определения Dц необходимо построить график зависимости Vf (5) в двойных логарифмических координатах и определить ц как тангенс угла наклона прямой к оси X, взятый с обратным знаком и затем вычислить Dц из (17).

6. Оценка адекватности модели

Оценка адекватности НСМ налогового контроля проводится в два этапа. На этапе обучения байесовского ансамбля нейросетей адекватность модели

1 Рисунок заимствован из [2]

можно оценить по величине усредненной апостериорной вероятности о порождении данных:

P = (Xp')/Q', P = (Nj/N); q = HQ"; N = {q}; 5,,v <л (18)

q=1

Таким образом, адекватность модели устанавливается автоматически в самой процедуре байесовской регуляризации.

Второй этап оценки адекватности основан на сравнении планов проверок, синтезированных по НСМ прошедшим процедуру фильтрации. Сравнение проводится по близости результатов ранжирования налогоплательщиков по некоторой числовой мере.

Правило оценки адекватности НСМ налогового контроля следующее:

если для всех оптимальных планов ©q , q = 1, Q* полученных по независимым

НСМ байесовского ансамбля, из G* возможных номеров объектов налогового контроля совпадают G номеров, независимо от порядка их следования в отрезке ve [1;G ], то считается, что адекватность модели подтверждена с доверительной вероятностью

PGCV = G** / G\ G** < G* . (19)

Здесь верхняя аббревиатура «GCV» соответствует английскому термину «Generalized Cross Validation», то есть «обобщенное перекрестное подтверждение». Термин «обобщенный» подчеркивает финишный, интегральный характер оценки достоверности всей модели.

После подтверждения адекватности окончательный план выездной проверки формируется путем осреднения критерия {у } по всем нейросетям,

прошедшим процедуру фильтрации.

7. Результаты вычислительных экспериментов

Имеются данные квартальных налоговых деклараций 24 сельскохозяйственных предприятий за период с 2006 по 2009 гг. На их основе

была сформирована база данных в = {г, , X. }'=N, где . -номер вектор-строки

наблюдений, состоящая из 276 наблюдений.

Для построения ГНСМ налогового контроля был создан ансамбль из 12 гипотез-нейросетей, принадлежащих к одному классу Н (многослойный персептрон с обратным распространением ошибки обучения и линейной аквивационной функцией в выходном слое). НСМ, вошедшие в ансамбль, различаются количеством скрытых слоев, количеством нейронов и видом активационных функций в скрытых слоях. До обучения сетей были реализованы следующие процедуры предобработки (предрегуляризации) данных для повышения однородности и информативности данных:

1) была проведена итерационная процедура отбора показателей, сформирована система из 9 показателей;

2) была решена задача оптимальной кластеризации данных методом к-средних. Так как в качестве входных факторов использовались удельные величины, и данные изначально были достаточно однородны, был сформирован единственный кластер.

3) проведена процедура удаления «противоречивых» вектор-строк наблюдений по алгоритму, описанному в разделе 2 данной работы. После удаления противоречивых вектор-строк, в базе данных осталось 262 наблюдения.

Для оценки эффективности проведенной процедуры была обучена вспомогательная нейросеть (персептрон, 3 скрытых слоя, активационная функция в скрытых слоях - тангенс; в выходном слое - линейная). Качество обучения сети оценивалось по (8)-(9). Результаты обучения представлены в таблице 1.

Как видно из таблицы, после удаления противоречивых вектор-строк интегральный показатель качества обучения J уменьшился более чем вдвое, то есть предложенную выше процедуру можно признать состоятельной.

Таблица 1. Показатели качества НСМ для разных наборов данных

Показатели качества обучения Исходная база данных, 276 наблюдений База данных, очищенная от противоречивых вектор-строк, 262 наблюдения

Е 0,453 0,357

S 0,218 0,104

J 0,098 0,037

На этапе обучения ансамбля сетей применялась итерационная процедура очистки кластера от аномальных наблюдений: точки, в которых наблюдались аномально большие отклонения (2) удалялись из кластера и процесс обучения повторялся. В таблице 2 и на рисунке 3 приведены характеристики одной из сетей байесовского ансамбля на каждой итерации. В таблице также приведено количество примеров в базе данных N, количество аномальных наблюдений А, средняя относительная погрешность Еотн и максимально допустимая погрешность ) на каждой итерации. Из таблицы видно, что обобщенный

показатель J достиг приемлемого значения уже на четвертой итерации, при этом ошибка обобщения Е, рассчитанная на тестовом множестве, составляет 5,8 %, что говорит о хороших прогностических свойствах НСМ.

Таблица 2. Динамика показателей качества НСМ на каждой итерации при

очистке базы данных от аномальных наблюдений

Номер итерации, к 1 2 3 4

N 262 242 215 202

А 20 27 13 15

£( к) 50% 30% 20% 15%

Е отн 17,0% 10,7% 5,5% 2,6%

Е 0,345 0,314 0,275 0,058

S 0,087 0,068 0,061 0,019

J 0,030 0,021 0,017 0,001

Динамика показателей качества обучения при очистке данных от аномальных наблюдений

12 3 4

номер 1гтерацмм. К

Рисунок 3. Зависимость частных критериев точности (Е), устойчивости и обобщенного критерия (I) от номера итерации к После обучения ансамбля сетей была проведена их фильтрация по правилу (3). Уровень вероятности «хорошего» объяснения данных ю был выбран экспертно: ю = 0,7 ; уровень приемлемой ошибки £ принят равным 0,1.

Значения Рч для каждой гипотезы приведены в таблице 3.

Таблица 3. Значения частотной вероятности для гипотез-нейросетей ансамбля

Номер НСМ НСМ1 НСМ2 НСМ3 НСМ4 НСМ5 НСМ6 НСМ7 НСМ8 НСМ9 НСМ10 НСМ11 НСМ12

Р* ч 0,70 0,61 0,57 0,77 0,70 0,63 0,64 0,63 0,62 0,85 0,94 0,82

Как видно из таблицы 3, процедуру фильтрации прошли только 6 сетей. Нейросети с номерами 2, 3, 6, 7, 8 и 9 исключаются из ансамбля как неудовлетворяющие критерию (3). На данном этапе можно утверждать, что

адекватность ГНСМ подтверждается с осредненной апостериорной

6

вероятностью Р* = (^^ Р*)/ Q* = 0,8.

q=1

В таблице 4 приведены значения частных и обобщенного критериев качества обучения сетей входящих в байесовский ансамбль (после фильтрации осталось 6 сетей). В последнем столбце указаны осредненные на ансамбле значения Е, S и J. Для оценки эффективности проведенных процедур предобработки и предрегуляризации одна сеть из указанного ансамбля (НСМ5) была обучена на «сырых» данных, из которых не были удалены

противоречивые и аномальные наблюдения. Показатели качества этой сети неприемлимыми: Е=0,443; S=0,208; J=0,092. Таким образом, алгоритмы предобработки (предрегуляризации) данных совместно с байесовской регуляризацией обучения нейросетей позволили более чем в 4 раза улучшить показатели качества модели.

Таблица 4. Оценка совместных процедур предобработки данных и

результаты обучения сетей

Показатели качества обучения НСМ1 НСМ4 НСМ5 НСМ10 НСМ11 НСМ12 Среднее

Е 0,280 0,133 0,085 0,112 0,088 0,090 0,131

S 0,389 0,035 0,027 0,051 0,060 0,033 0,099

J 0,109 0,005 0,002 0,006 0,005 0,003 0,022

Для составления плана выездных проверок предприятия-налогоплательщики ранжировались по критерию отбора {у } по правилам (11,

12 или 15). Для проверки рядов остатков {б(} на соответствие нормальному

распределению был рассчитан показатель Херста Н по (14). Значения Н для всех предприятий попали в интервал 0,5 < Н < 1, а это означает что

распределения рядов {б (} отличны от нормального. На рисунке 4 представлен

график значений б ( для одного из предприятий с Н = 0,67. Из рисунка видно,

что данный временной ряд не является случайным, а содержит тренд и значит использование вероятностного критерия (11) может привести к неверным оценкам.

Оптимальные планы проверок строились по правилам (12) и (15). Для расчета значений {у g}, предварительно были рассчитаны фрактальная

размерность D по Херсту (14) и размерность минимального покрытия О (19)

для всех 24 предприятий на основе временных рядов {б(}, полученных по 6

независимым НСМ, прошедшим процедуру фильтрации.

Рисунок 4. Временной ряд {5 }, н = 0,67

В целом, для большинства предприятий оценка фрактальной размерности D^ оказалась больше традиционной оценки D Херста. На рисунке 5 приведен

пример лог-лог зависимости Vf (5) от 5 для предприятия №2, построенной для

НСМ1.

Рисунок 5. Зависимость Vf (5) в двойном логарифмическом масштабе для временного ряда остатков |58г}, длиной 16 наблюдений.

Как видно из рисунка, уравнение регрессии построено с очень высоким значением коэффициента детерминации R2 = 0.966. Это говорит о том, что оценка фрактальной размерности О была определена достаточно точно.

Заметим, что для всех 24 предприятий коэффициент детерминации R2 не опускался ниже 0,75. Можно предположить, что оценка фрактальных характеристик по (17) точнее оценки по Херсту.

Коэффициент масштаба М в (12) и (15) вычислялся как отношение

величины выручки каждого предприятия к максимальному значению выручки по всей группе предприятий.

Сравним планы выездных проверок, полученные по правилам (12) и (15). Предположим, что в распоряжении налоговых органов есть двенадцать проверяющих бригад, т.е. G* = 12. Очередность попадания конкретного предприятий в отрезок V е [1; G ] не имеет значения. Во всех 6 планах, построенных с использованием размерности минимального покрытия (18), среди первых 12 номеров предприятий повторяются 10. На данном этапе построения ГНСМ осуществляется второй этап оценки адекватности. Можно утверждать, что адекватность ГНСМ установлена с доверительной вероятностью Р°С¥ = 10/12 = 0.83. В планах, построенных по (12), то есть с использованием показателя Херста Н, результат скромнее - только 4 предприятия попали во все 6 планов, то есть Р°су = 4/12 = 0.33, что говорит о чувствительности предложенного метода регуляризации нейросетевой модели к точности оценки фрактальной размерности временного ряда относительных остатков по (2).

Окончательные планы выездных проверок по (12) и (15) получим путем ранжирования всех предприятий по осредненному критерию tyg. Сравним

результаты моделирования с результатами налоговых проверок, проводившихся на предприятиях, участвовавших в вычислительном эксперименте. В таблице 5 приведены оптимальные планы проверок и величина налоговых доначислений, полученных по результатам реально проводившихся камеральных проверок (указаны первые 12 номеров предприятий согласно оптимальным планам и 12 номеров предприятий с наибольшими доначислениями).

выездных налоговых проверок

Очередность проведения проверки Оптимальный план проверкок по (12) Оптимальный план проверкок по (15) Результаты проведения проверок

№ предприятия V * № предприятия V * № пред- приятия Доначисления, руб.

1 11 0,13849 11 0,14935 11 7002076

2 22 0,05539 15 0,07256 9 3140252

3 9 0,04840 21 0,06668 8 2780893

4 2 0,02586 22 0,03884 24 1911636

5 21 0,02420 9 0,02206 21 1700531

6 3 0,01811 2 0,01744 22 1520399

7 24 0,01455 3 0,01572 16 1427865

8 14 0,01389 30 0,01056 10 1384382

9 30 0,01301 14 0,00864 13 1371761

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

10 8 0,00636 16 0,00628 3 1366995

11 16 0,00587 26 0,00562 14 1041774

12 19 0,00562 24 0,00516 2 839696

Из таблицы 5 видно, что из 12 предприятий, допускавших грубое

нарушение налогового законодательства в окончательные планы проверки попало 10. Таким образом ГНСМ налогового контроля достаточно точно идентифицирует нарушителей налогового законодательства и может существенно повысить эффективность работы налоговой службы в части налогового контроля.

Выводы

Предложенные ранее идеи, методы и алгоритмы получили подтверждение на вычислительных и натурных экспериментах. Приближенный метод байесовской регуляризации можно признать состоятельным. Предложенные в работе методы приближенной байесовской регуляризации нейросетевых моделей могут быть применены для решения широкого круга задач, характеризующихся сильным зашумлением данных, например, при ранжировании муниципальных учреждений по эффективности работы, при оценке кредитоспособности предприятий и др. Показано, что ряды остатков,

характеризующие искажение налогооблагаемой базы налогоплательщиками не являются случайными, и по величине фрактальной размерности можно судить о вероятности нарушения налогового законодательства налогоплательщиком. Перспективным направлением дальнейших исследований является уточнение оценки фрактальных размерностей D в условиях дефицита наблюдений.

Список литературы

1. Дубовиков М.М., Крянев А.В., Старченко Н.В. Размерность минимального покрытия и локальный анализ фрактальных временных рядов // Вестник РУДН, Т3, №1, 2004, с. 81-95.

2. Горбатков С.А., Белолипцев И.И. Очистка данных наблюдений как процедура предрегуляризации нейросетевой модели налогового контроля // Социальная ответственность бизнеса: теория, методология, практика: Материалы II всероссийской научно-практической конференции. Уфа: ВЗФЭИ, 2012. с. 114-118.

3. Горбатков С.А., Белолипцев И.И., Фархиева С.А. Приближенный метод байесовской регуляризации и двухступенчатая оценка адекватности гибридной нейросетевой модели // Научная сессия НИЯУ МИФИ - 2011. XIII Всероссийская научно-техническая конференция «Нейроинформатика -2011»: Сборник научных трудов. В 3-х частях. Ч.2. - М.:НИЯУ МИФИ, 2011, с. 144-154.

4. Мишустин М.В. Механизм государственного налогового администрирования в России: Дисс. канд. экон. наук. - М, 2003.

5. Модернизация налогового контроля (модели и методы): Монография / Под ред. А.Н. Романова. - М.: ИНФРА-М: Вузовский учебник, 2010. - 320 с.

6. Недосекин А. О. Методологические основы моделирования финансовой

деятельности с использованием нечетко-множественных описаний: диссертация доктора экономических наук: - С.Петербург, - 2003. - 280 с.

7. Нейросетевое математическое моделирование в задачах ранжирования и

кластеризации в бюджетно-налоговой системе регионального и муниципального уровней: монография / С.А.Горбатков, Д.В.Полупанов,

А.М.Солнцев, И.И.Белолипцев, М.В.Коротнева, С.А.Фархиева, О.Б.Рашитова. Уфа: РИЦ БашГУ, 2011. 224 с.

8. Петерс Э. Хаос и порядок на рынках капитала. - М.: Издательство «Мир», 2000. - 337с.

9. Шумский С.А. Байесова регуляризация обучения // Научная сессия МИФИ 2002. IV Научно-техническая конференция «Нейроинформатика - 2002»: Лекции по нейроинформатике. Часть 2. - М.: МИФИ, 2002, с. 30-93.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Белолипцев И. И.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Белолипцев И. И.

Текст научной работы на тему «Построение оптимального плана выездных проверок на основе гибридной нейросетевой модели налогового контроля»