Метод квазирешений для регуляризации нейросетевых моделей налогового контроля

Бирюков Александр Николаевич

Интернет-журнал «Науковедение» ISSN 2223-5167 http ://naukovedenie.ru/ Том 7, №5 (2015) http ://naukovedenie. ru/index.php?p=vol7-5 URL статьи: http://naukovedenie.ru/PDF/63TVN515.pdf DOI: 10.15862/63TVN515 (http://dx.doi.org/10.15862/63TVN515)

УДК 336.025

Бирюков Александр Николаевич

ФГБОУ ВПО «Башкирский государственный университет»

Россия, Уфа Филиал в г. Стерлитамак1 Профессор кафедры «Экономической теории и анализа»

Доктор экономических наук E-mail: [email protected]

Метод квазирешений для регуляризации нейросетевых моделей налогового контроля

1 453100, Республика Башкортостан, Стерлитамак, пр. Ленина 49 а

Аннотация. Вопросы, рассматриваемые в статье, возникли в связи с объективной необходимостью проведения исследований, направленных на повышение эффективности работы налоговой системы регионального уровня.

Государство не может тратить большие средства на сбор налогов, поэтому сама структура налогов и государственная система налогового администрирования (СНА), обеспечивающие их сбор, должны при минимальных затратах обеспечивать высокую эффективность работы, которая невозможна без хорошей информационно-аналитической системы поддержки принимаемых решений. Построение такой системы предполагает интеграцию в единое информационное пространство всех структурных подразделений налоговых и других государственных органов. Необходимое единое информационное пространство создавалось в последние годы в виде системы электронной обработки данных (ЭОД), разработанной ФНС РФ. Эта система, которая является основой автоматизации в работе налоговых органов, описана практически во всех учебниках российских экономических вузов.

Однако ЭОД имеет одно узкое место - в ней слабо форматизирован аналитический блок, ядром которого должна служить математическая модель анализа финансово-экономического состояния налогоплательщиков, выявления нарушений налогового законодательства в декларациях, синтеза оптимального плана выездных налоговых проверок. Такие модели должны служить достаточно достоверной и объективной основой для поддержки принятия управленческих решений.

В настоящее время существует мощный математический инструментарий (универсальный аппроксиматор и кластеризатор) - нейронные сети. При использовании нейросетей требуется их обучение на примерах, что с математической точки зрения является некорректно поставленной по Адамару обратной задачей типа задачи интерпретации. Здесь возникает дилемма нахождения компромисса между ошибками обобщения модели и ее робастностью (устойчивостью к вариации данных в заданном диапазоне).

Применительно к нейросетевым моделям СНА, которые отличаются сильным зашумлением данных, отягченным в ряде случаев дефицитом наблюдений, исследования по регуляризации нейросетей в обратных задачах не проводились.

В работах В.К. Иванова [8] дано строгое математическое обоснование двух методов решения некорректно поставленных задач при условии, что имеется дополнительная априорная информация об искомом решении. Если известно, что решение является элементом заданного компакта, им был разработан метод квазирешений. В этом случае возможна и оценка погрешности приближенного решения.

В статье развивается идея новой компьютерной технологии предварительной (камеральной) налоговой проверки предприятий-налогоплательщиков, предложенная на основе нейросетевого моделирования. Использование этих моделей создает основу для повышения достоверности и объективности налогового контроля в налоговых органах, и повысить результативность выездных налоговых проверок.

Ключевые слова: нейросеть (НС); нейросетевая модель (НСМ); байесовский подход; метод вложенных математических моделей (ВММ); нейросетевая субмодель (НССМ); метод квазирешений; алгоритм.

Ссылка для цитирования этой статьи:

Бирюков А.Н. Метод квазирешений для регуляризации нейросетевых моделей налогового контроля // Интернет-журнал «НАУКОВЕДЕНИЕ» Том 7, №5 (2015) http://naukovedenie.ru/PDF/63TVN515.pdf (доступ свободный). Загл. с экрана. Яз. рус., англ. DOI: 10.15862/63TVN515

Введение

Предметом исследования в статье являются вопросы регуляризации нейросетевых моделей (НСМ) в задачах ранжирования объектов налогового контроля юридических лиц по степени нарушения налогового законодательства, и соответственно, ожидаемых доначислений. Эти задачи имеют характерную особенность - сильное зашумление данных, которое усугубляется дефицитом наблюдений [1]. Как показано в [2] в столь сложных условиях моделирования НСМ подлежит регуляризации с целью устранения в ней чрезмерной чувствительности выхода к небольшим изменениям входных данных.

В работе автора [3] была сформулирована концепция обеспечения состоятельности алгоритмов регуляризации НСМ с сильным зашумлением данных. В работе автора [4] была описана идея применения байесовского подхода [2] к управлению оценкой погрешности аппроксимации в НСМ.

В данной статье концепция регуляризации НСМ из [3, 4] и реализующий её метод вложенных математических моделей (ВММ) детализированы в замкнутой форме и апробированы на реальных данных налоговых деклараций строительных предприятий.

1. Задача обучения НСМ как обратная задача восстановления многомерной нелинейной параметризованной функции и проблема её регуляризации

Согласно предлагаемому подходу к построению устойчивых НСМ налогового контроля требуется восстановить некоторую многомерную, в общем случае нелинейную,

функцию У(X), где X = (Х1,X2XjХп) - вектор объясняющих (входных) переменных,

У - эндогенная (объясняющая) переменная, для простоты считающаяся скалярной.

Функция У должна нести в себе информацию, прямую или косвенную, о величине налогооблагаемой базы. Причем, если НСМ строится на кластере примерно однородных по выбранной числовой мере объектов налогообложения, то относительные отклонения

(эталонных) расчётных У(X) и декларированных У(X) значений функции У (см. ниже формулу (24)) несут важную информацию для камеральных налоговых проверок. В качестве У можно использовать такие показатели, как выручка, налог на добавленную стоимость, либо линейные свёртки (агрегаты) из экономических показателей, включаемых в декларации.

Нейросетевую модель можно записать в виде:

—* —* —* ,

У(X) = р(XX е X(п) с Я", (1)

где Ж - матрица параметров (синаптических весов связи между нейронами) НСМ, элементы которой представляют собой вещественные числа; Я" - и-мерное пространство вещественных чисел.

Оператор НСМ, отображающий пространство X на пространство У при эталонно заданных параметрах Ж является композицией двух операторов - проецирования входных сигналов нейронов и затем нелинейной аппроксимации результатов проецирования:

р = р о (2)

п

т) - ^ = £ "Л-©,; (3)

3=1

р2(яР) - Ур = I (^), (4)

Интернет-журнал «НАУКОВЕДЕНИЕ» Том 7, №5 (сентябрь - октябрь 2015)

http://naukovedenie.ru [email protected]

где wpj - элемент матрицы W, т.е. синаптический вес р-го нейрона по j-му входу; Sр -функция состояния р-го нейрона; ®р - порог его возбуждения; f (Sp) - активационная (передаточная) функция.

Нелинейная функция f (S ) в промежуточных слоях НСМ выбиралась из класса

непрерывно дифференцируемых согласно байесовскому подходу из [4] (см. ниже в вычислительных экспериментах).

В режиме обучения сети матрица синаптических весов W модифицируется

(адаптируется) к подаваемым на вход обучающим примерам - кортежам (yi, xt), i = 1, N, где N

- объём обучающей выборки (здесь и далее конкретные числовые реализации случайных величин X- ,Y обозначаются малыми латинскими буквами. Использовался известный

алгоритм обратного распространения ошибки (англ. backpropagation (BP)) для обучения сети, в котором веса w исправляются итерационно с помощью градиентного метода, в котором минимизируется квадратичный функционал Е:

W' : К ^; E(W) = 1 £(YNN "dj)2 ^ min ЕW), к = 0,1,2,...!, (5)

[ &WNj 2 Nj W J

где т]{к) - длина шага обучения на k-той итерации; Y(N) - расчётное значение p-го нейрона в выходном N-ном слое при подаче на его входы i-го обучающего примера; d . -

идеальное (экспериментальное) значение выхода в i-том примере. При уменьшении длины шага обучения, например, пропорционально 1/k, итерационная процедура (5) приводит к нахождению локального минимума ошибки аппроксимации E соответственно нахождению оптимальных весов W * [5].

Таким образом, в режиме обучения используется композиция трёх операторов: F, F и F по (5).

Для конкретности и наглядности изложения предлагаемого подхода к регуляризации НСМ перейдём к её описанию в терминах функционального анализа [6,7]. НСМ можно представить в виде операторного уравнения:

Äz = u; (6)

где u - наблюдаемые на выходе сети характеристики изучаемого объекта (процесса); Z = Z (X ,W) восстанавливаемые НСМ параметризованные многомерные нелинейные функции; А(-) - оператор связи «вход-выход» сети, который можно представить в виде:

\F = F ° F 6 режиме расчёта с заданной матрицей W [F = F ° F ° F в режиме обучения сети.

Z = Z (X,W) е Z; u е U. (8)

Как видно из (1) - (6) оператор А(-) является нелинейным в следствие нелинейности активационных функций f (•) в (3).

Пусть пространство Z является подмножеством в пространстве непрерывных дифференцируемых по своим аргументам функций:

7 с С!(П); а = < х, < Ь]; < в} ] = 1,п; р = 1,m, (9)

где а, Ъ, В - заданные положительные числа.

Алгоритм НСМ (1) - (8) и смысл её функционирования [5] допускают введение в модель априорной информации вида (9).

Согласно представлению (6) - (9) НСМ реализует две подзадачи:

а) прямую подзадачу аппроксимации элементов по известным после обучения сети характеристикам процесса г е 7 с помощью оператора А(х) в (1) - (4). Эта задача корректно поставлена.

б) обратную задачу аппроксимации для режима обучения сети, в которой заданы кортежи , у зафиксированы архитектура сети, активационные функции /(я) в

промежуточных слоях и в выходном слое, а также правило обучения сети, например алгоритм обратного распространения (Ъackpropagation (ВР)), а искомыми элементами является параметризованная функция 7 (х , ") по алгоритму (1) - (6). Эта задача является в общем случае некорректно поставленной, поскольку по известному следствию - совокупности элементов Ц}, / = 1,N - требуется найти причину, т.е. восстановить элементы 7(X,Ж) . Как известно [6,7] такие задачи относятся к классу некорректно поставленных по Адамару, и в условиях зашумления данных, отягченного их дефицитом, требуют специальных процедур регуляризации [2].

Рассмотрим вопрос о регуляризации НСМ подробнее. Условия корректно поставленной задачи по Адамару:

1. Уи еЦ решение существует, т.е. обратная задача 7 = А~1ы разрешима;

2. У и е и решение 2 единственно;

3. Решение 2 непрерывно зависит от исходных данных.

Нарушение любого из трёх условий ведёт к некорректной постановке задачи. Заметим, что условия 1) и 2) характеризуют математическую определённость задачи, а условие 3) - её экономическую детерминированность (неслучайность).

Поясним смысл условия 3) и понятие квазирешения на широко известном примере решения интегрального уравнения [7]. Пусть А(-) - интегральный оператор и требуется найти функцию 7 (я) из интегрального уравнения вида [6, 7]:

ъ

| К(х, я)= и(х), х е [с; ё] (10)

а

по известной правой части и(х) . Пусть ядро К(х, я) данного интегрального уравнения и искомая функция 7(я) удовлетворяют условиям: К(х,я),Кх(х,я),Кг(х,я) непрерывны в прямоугольнике с < х < ё, а < я < Ъ, а и(х) е С[с, ё], т.е. функция и(х) непрерывна, но условие её непрерывной дифференцируемости на [с, ё ] не наложено. Обратная задача (10) является некорректной. Действительно, для неё не выполняется условие 1), поскольку решение (10) существует не для любой непрерывной функции и(х) е С[с, ё ], а только для непрерывно дифференцируемой функции и(х) е С'[с, ё ]. Если последнее условие не наложено, то интегральное уравнение (10) не может иметь непрерывное решение 70 (х) . Это

следует из того, что для любой непрерывной функции 2 (s) и оговорённых выше условий на ядро К (х, я) интеграл в левой части (10) представляет собой функцию непрерывную и дифференцируемую. Значит и правая части и (х) должна быть непрерывной и дифференцируемой, что противоречит наложенному условию и(х) е С[с, а ]. Другими словами, классическое решение обратной задачи (10) в классе функций правой части и(х) е Са,Ъ] не существует для непрерывно дифференцируемых ядер К(х, я) .

Теперь уточним понятие приближённого решения при неточном наблюдении характеристик процесса - правой части (6), которую обозначим и (х). В прикладных задачах имеет место именно такая ситуация. В рассматриваемом примере (10) мы априори полагали, что существует точное решение 2 (я) уравнения (10), отвечающее точной правой части ит (х)

и требуется найти приближение к нему 2 (я), если вместо ит (х) известна приближённая правая часть и (х) с оценкой:

ри(ит,~) <5, и еи (11)

где р - расстояние между элементами ит и и в пространстве и.

На практике может не быть информации о существовании точного искомого решения уравнения (10), но имеется информация о классе возможных правых частей и и можно ставить вопрос о нахождении приближённого «решения» 2 (я) уравнения (10). Под «приближённым» решением надо понимать некоторое обобщённое решение, которое уточняется ниже.

В [7] определено понятие обобщённого решения квазирешения уравнения (10) на множестве 2 как такого элемента ~ е 2 , на котором расстояние ри(Лг,и) достигает точной нижней границы т.е.:

ри(Л~,~) = и-£ ри(Лг,и) (12)

ге2

Ъ

Лг = | К (х, я) (13)

а

Очевидно, что при и = и квазирешение совпадает с обычным точным решением гг еи. Таким образом, условие 3) для обратной задачи сводится к нахождению таких алгоритмов построения обобщённых решений (квазирешений), которые устойчивы к малым изменениям правой части и( х) .

Изложим общие соображения по построению квазирешения применительно к процессу обучения нейросети. Если в обратной задаче (6) А - вполне непрерывный оператор [6,7], тогда обратный к нему оператор Л"1, вообще говоря, не будет непрерывным на и и решение уравнения (6) не будет устойчивым к малым изменениям правой части и в метрике пространства и. Действительно, если оператор А - вполне непрерывный, по малым возмущениям Лг в (6), и соответственно, р в (11) могут отвечать возмущения г, а (значит, и ~г ), далёкие от точного решения задачи.

В рассматриваемой обратной задаче восстановления нелинейной многомерной функции У (X) с помощью нейросети исходными данными являются правая часть уравнения (6) и оператор А. В обратной задаче обучения сети этот оператор ^ °°по (7) можно считать заданным точно. Предположим, что правая часть уравнения (6) и~ известна с

точностью 5 такой, что ри(ит,и) <5. По имеющимся данным (и,5) требуется найти такой элемент z5 е Zs, который стремился бы (в метрике Z) к точному решению ZT при 5 ^ 0. Такой элемент по терминологии [6, 7] называется приближённым к ZT решением уравнения Az = и .

Элементы ~ е Z , удовлетворяют условию:

р(AAz,и) <5 (14)

Называются сопоставимыми по точности с исходными данными (и,5) . Пусть Zs -совокупность всех таких элементов ~ е Z. Естественно приближённые решения уравнения Az = и искать в классе Zs элементов Z, сопоставимых поточности с исходными данными

(и,5) . В [6] такой класс Zs называется множеством практической эквивалентности.

Однако в ряде случаев класс Zs может быть слишком широким. Например, в задаче

налогового контроля, рассматриваемой в данной статье, в силу сознательного искажения данных налоговых деклараций, погрешность исходных данных (и,5) может оказаться слишком большой и условию (14) сопоставимости по точности решений обратной задачи будут удовлетворять даже очень грубые нейросетевые модели, восстанавливающие скорее шум, чем латентные многомерные функции Y(X), «зашитые» в данных.

2. Понятие о квазирешении обратной задачи

Определение. Элемент z е M, минимизирующий приданном и функционал ри (Az, и) на компакте М, называется квазирешением уравнения Az = и на М:

ри (Az, и) = int ри (Az, и). (15)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Если М - компакт, то квазирешение, очевидно, существует для любого и eU. Если, кроме того, и е AM, то квазирешение ~ совпадает с обычным (точным) решением уравнения (6). Квазирешение может быть и не одно. В этом случае под квазирешением будем понимать любой элемент из множества квазирешений D.

Данное определение даёт широкий простор для построения прикладных обратных задач, в том числе и для разработки НСМ. Если уравнение Az = и может иметь на компакте М не более одного решения и и проекция каждого элемента и на множество N = AM единственна, то квазирешение ~ : р (AI, и) = inf р (Az, и) единственно и непрерывно зависит

геМ

от правой части и .

Здесь проекция и понимается в смысле следующего определения. Элемент q из множества N называется проекцией элемента и на множество N (q = Ри), если:

Ри (и q) = Ри (и Q) = f Ри (и h). (16)

Нед

Таким образом, при переходе от обычного решения к квазирешению восстанавливаются все три условия корректности обратной задачи (6) по Адамару, т.е. задача нахождения квазирешения уравнения Az = и на компакте M является корректно поставленной.

Если уравнение единственности решения уравнения (15) не выполнено, то квазирешения {~} образуют, некоторое множество Б элементов в компакте М. В этом случае имеет место непрерывная зависимость множества квазирешений ~ е О от правой части в смысле непрерывности многозначных отображений [7].

Практически поиск квазирешения означает использование методов минимизации функционалов (при параметризации г-функции многих переменных) на множестве с ограничениями. В случае квадратичной метрики (5) для НСМ [3] в конечномерном пространстве нескольких переменных, удобно положить:

р20 = Е. (17)

Для обратных задач класса интерпретации условно-корректная или обобщённо-корректная постановка исчерпывает проблему построения регуляризирующего алгоритма, поскольку для таких задач можно применять общие алгоритмы. Так любой алгоритм г3 = Я(и3,5) выбора элемента из множества практической эквивалентности 28 при

решении приведённого ниже функционального неравенства является регуляризирующим по Тихонову [6]:

^ : {р~(Лг,и) <5, г еМ} (18)

Таким образом, основным условием нахождения квазирешения в методе (18) является принадлежность точного решения г и квазирешения г к одному и тому же компакту М ^ 2. Метрическое пространство М называется компактным, если из всякой последовательности в М можно извлечь сходящуюся подпоследовательность. Компактное подпространство метрического пространства будем называть также компактным множеством. Компактные пространства (и подпространства) обладают двумя важными свойствами:

• компактное пространство является ограниченным;

• компактное пространство У метрического пространства X является замкнутым.

Введение условия компактности в постановку обратной задачи означает практически использование количественной априорной информации об искомом решении. В НСМ множество и приходиться вводить искусственным путём. Поскольку при этом требуется обеспечить существование решения на априори заданном компакте М, решается вопрос: какими свойствами должно обладать множество и для заданного компакта М? Если ответ на

него получен, хотя бы на качественном уровне, то из множества реальных наблюдений и выделяется подмножество и, обладающее нужными свойствами. В [6] сформулировано предложение: «в конкретных обратных задачах при этом решается задача «сглаживания» заданного элемента и~ ».

В данной статье и в прежних работах автора [3, 4] идея «сглаживания» данных развита и воплощена в форме метода вложенных математических моделей (ВММ), в котором строятся итерационные процедуры «сглаживания» и повышения информативности данных с помощью вспомогательных нейросетевых субмоделей (НССМ).

Замечание. В решении обратной задачи (6) участвует разнородная информация об изучаемом явлении: его НСМ А(-), некоторые общие свойства искомого решения г е М, оценка погрешности данных ё. Если эта информация не согласована, т.е. р~(Лг,и) и А(-)

задаются независимо, то может возникнуть ситуация несостоятельности задачи регуляризации (18):

р0 = т£ р~(Аг, и) )3. (19)

Связанная с этой ситуацией потеря устойчивости НСМ подробно анализировалась в [3, 4]. Следовательно, для практической регуляризации А.Н. Тихонова по (18) необходимо разработать три алгоритма:

1) алгоритм I обеспечения состоятельности задачи регуляризации (18), исключающий ситуацию (19);

2) алгоритм II построения подходящей числовой меры оценки погрешности 3 для данных и инструмент управления этой погрешностью;

3) алгоритм III построения числовой меры оценки качества НСМ и инструмента управления этим качеством.

3. Алгоритм I обеспечения состоятельности задачи регуляризации

Постулируется, что в некоторых пределах интенсивности шума и объема сильнозашумленных вектор-столбцов данных ,* = 1, N 3 = 1, п, где х^ , у -

соответствующие значения компоненты вектора входов нейросети (НС) X и выхода НС У в i-том наблюдении, независимо от закона распределения шума существует непрерывная зависимость меры р0 по (19), характеризующей качество аппроксимации в НСМ, от меры оценки погрешности данных 3:

ро =9(3). (20)

Предлагается следующая концепция разработки методов и алгоритмов обеспечения состоятельности задач регуляризации: уменьшение числовых мер ошибок эксперимента 3 и ошибок аппроксимации р0, должно производиться взаимосвязано с использованием (20),

причем числовая мера 3 должна быть связана с процедурой управления «сглаживанием» и структурированием данных, в аспекте улучшения качества будущего обучения НС, а числовая мера р0 должна быть связана с управлением качеством аппроксимации

восстанавливаемой функции У(X) и, соответственно, с прогностическими свойствами сети.

Управление качеством данных по мере 3 предлагается осуществлять на основе вспомогательных нейросетевых субмоделей (НССМ), в которых реализуются следующие итерационные процедуры структурирования данных:

• оптимальная кластеризация;

• оптимальная очистка данных в образованных кластерах;

• «ремонт» сильнозашумленных вектор - столбцов данных с помощью НССМ.

Указанные процедуры, разработанные с использованием общесистемных законов энтропийного равновесия, подавления дисфункций структурируемой системы и фоновой закономерности [8] описаны достаточно подробно в [9], поэтом излагать их здесь не будем.

4. Алгоритм II построения числовой меры оценки погрешности данных на основе байесовского подхода

Краткое изложение формализма байесовского подхода к сравнению моделей содержится в [4].

В общем виде алгоритм II, предлагаемый в настоящей работе можно сформулировать следующим образом: в качестве числовой меры 3 погрешности данных выбирается обобщенный (векторный) мультипликативный критерий Ф, оцениваемый согласно алгоритму I в НССМпутем осреднения в ансамбле НС и определенный на тестовом множестве данных:

Ф(У (1 ,Ж)) = Е ■ Б ■ Я, (1 ,У) е О.'6*', (21)

где Е =|у — у||у|| - ошибка обобщения НСМ, которая имеет смысл относительной нормы ошибок аппроксимации на тестовом множестве наблюдений, не используемых при обучении НСМ в евклидовой метрике Еп; Б = |уа — /|| ха — - мера сжимающих свойств

НСМ (аналог константы Липшица связи «вход - выход» НС); Е = 1 — (г )2 - мера отклонения

коэффициента детерминации от его идеального значения, равного 1 [2]. Ошибка обобщения Е характеризует прогностические свойства НС: чем меньше Е, тем ближе расчетные значения у К экспериментальным у на новых наблюдениях. Частный критерий £ характеризует устойчивость НСМ к вариациям независимых переменных х: чем меньше 8, тем меньше «разбегание» траектории У(X) на новых наблюдениях после обучения НС. Однако заметим, что при малых Б, т.е. при сильных сжимающих свойствах НС-отображения (6), в режиме обучения НС, т.е. в обратной задаче поиска параметров Ж НСМ оператор А() ведет себя как вполне непрерывный (компактный) оператор [6], что является индикатором некорректности обратной задачи. Критерий Я характеризует качество аппроксимации «зашитых» в данных истинной зависимости У(Х), т.е. гиперповерхности с помощью

нейросетевого отображения У (X) .

Таким образом, обобщенный критерий качества НСМ Ф оценивает как точностные и прогностические свойства НСМ, так и ее устойчивость к вариации данных.

Осреднение в ансамбле гипотез \Ид } о порождении данных [4] проводится как вычисление среднего арифметического:

_ е

Ф / & (22)

4=1

где Q - число вспомогательных НССМ в байесовском ансамбле.

Алгоритм вычисления критерия 8, следующий. Номера вектор - строк а и в приравниваются в панельных данных, образуемых налоговыми декларациями к соседним номерам вектор - строк, т.е. близко расположенным точкам по времени

(а = г, р = г +1, г = 1,N) . Для соседних точек I и /+1 вычисляется Уа —Ур . Критерий 8 равен:

114— хе\\ (23)

тах

У — У

1 а 1 Р

5. Алгоритм III построения числовой меры оценки качества НСМ р0 и инструмента управления этим качеством

Конструирование меры р0 осуществлено на основе байесовского подхода [2, 4], т.е. использованы усреднённые оценки на ансамбле априорных гипотез о порождении данных \h}, как и в процедурах предобработки данных. В качестве р0 взято среднее значение

вероятности P получения в НСМ «плохих» точек, в которых относительная ошибка расчёта Д превышает заданный экспертно уровень s :

__m

■100%) s, i = 1, N; N* = ^ f; (24)

i *=i

_ Q

Pq = (N / N)q; P = (£ Pq )/Q (25)

q=1

В качестве инструментов управления числовой мерой P по (24)-(25) выбраны:

• байесовская регуляризация на ансамбле сетей, различающихся архитектурой, видом активационных функций, числом нейронов в скрытых слоях (см. ниже);

• оптимизация параметров обучения сети (шага градиентного спуска, коэффициента «тяжелого веса», начальных весов

6. Пример построения НСМ для налогового контроля с регуляризацией на основе алгоритмов I, II, III

Для расчётов использовались реальные данные из [1] налоговых деклараций строительных предприятий, закодированных числами. В качестве моделируемой «обобщённой производственной функции» кластера примерно однородных

налогоплательщиков была выбрана функция выручки Y(X) . Для образованного по алгоритму

I кластера Z1 наблюдений компоненты вектора X независимых переменных имели следующий экономический смысл: X - сумма основных средств; X - себестоимость товаров, продукции, услуг предприятия; X - среднесписочная численность работающих, чел.; X - сумма оборотных активов; X - среднегодовая стоимость облагаемого налогом имущества предприятия; X - коммерческие расходы.

В таблице 1 показан фрагмент исходных данных. Все значения Y и X ., j = 1,6, кроме X , приведены в тыс. руб.

•* А

i : Д =

YLzY.

Y

Таблица 1

Исходные данные панельного типа для построения НСМ

Сквозной номер наблюдения i Код предприятия РГ Номер квартала (временного интервала) X, X 2 X 3 X4 X 5 X 6 Y

1 1.1 5715,7 58459 49 47179,6 5676,8 3762,1 3762,1 62106,6

2 1.1 5645,7 13226 49 34079,2 12018 7432,9 7432,9 182534

349 3.13 216,93 7257,7 42 3123,2 699,23 1108,6 1108,6 8644,98

350 3.13 21,47 7276 42 1364,87 887,92 1654,4 1654,4 9322,02

351 3.13 211,23 6103 40 2940,89 279,01 1359,1 1359,1 7917,12

Здесь код предприятия обозначен 2-х-значным числом: первая цифра соответствует номеру образованного кластера данных, а вторая - номеру предприятия.

В соответствии с байесовским подходом к регуляризации обучения и обеспечения состоятельности алгоритма регуляризации из [2, 4] была выбрана мета-гипотеза Н и априорные гипотезы \h} о порождении данных, т.е. о виде аппроксимации

восстанавливаемой зависимости Y(X) :

Н - многослойный персептрон (с алгоритмом обучения обратного распространения ошибки (backpropagation (BP)) (H = ^hq} q = 1, Q) ; (приложение 1).

h - структура MLP с одним скрытым слоем и сигмоидной активационной функцией

вида:

f (s) = \/(\ + exp(-as)), a) 0; (26)

h - структура MLP с двумя скрытыми слоями и активационной функцией (26) в них;

h - структура с двумя скрытыми слоями и активационной функцией (26) в первом слое и гауссовой во втором слое

f(s) = exp( -s2/ Ъ2\ Ъ ) 0; (27)

h - структура MLP с одним скрытым слоем и функцией (27) в нём;

h - структура MLP с двумя скрытыми слоями и активационной функцией (11) в них;

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

h - структура MLP с двумя скрытыми слоями и активационной функцией (26) в первом слое и (27) во втором слое.

В качестве управления оценкой погрешности данных S в алгоритме предобработки данных были выбраны оптимальные итерационные процедуры кластеризации, очистки образованных кластеров от аномальных точек и «ремонта» наиболее сильно зашумлённого вектор - столбца \ха} согласно алгоритму I [3, 4]. В качестве оценки погрешности данных

использовался мультипликативный критерий (21) с его осреднением на ансамбле гипотез \hq} по (22). Данные вычислительных экспериментов показаны в таблице 2 и на рис.1. из [3]. Здесь обозначено: k - номер итерации в процедуре очистки кластера от аномальных точек [9]; n, n - количество нейронов в скрытых слоях; А - относительная погрешность по (24); А - число «плохих» точек, которые на каждой k-той итерации находятся по условию (24)

(соответствующие е( к -1 приведены в последней строке таблицы 5); N-1 - число примеров на к-той итерации, оставшихся после предыдущей итерации.

Эксперимент проводился на сети типа MLP с двумя скрытыми слоями. В качестве моделируемого экономического показателя (выходной величины) рассматривалась Y -выручка предприятия, тыс. руб. Всего имелось 351 наблюдение.

1.3 1.2 1.1 1

0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0

Рис. 1. Зависимость частных критериев точности E, устойчивости S, детерминированности R и финишного критерия Ф от номера итерации к

Таблица 2

Сводная характеристика каждой итерации

к 0 1 2 3 4

E 0,5895 0,5735 0,1317 0,0905 0,3181

S 0,5126 1,2113 0,1324 0,3704 0,0889

r 0,9279 0,6177 0,9695 0,9974 0,9352

R 0,139 0,6185 0,0601 0,0053 0,1254

Ф 0,0420 0,4297 0,0010 0,0002 0,0035

П1 3 2 4 3 2

П2 4 5 3 3 4

S 149% 39% 29% 29% 50%

А 47 12 5 2 17

N 201 154 142 137 135

£ 100% 100% 100% 100% 100%

Оптимальное число нейронов в первом скрытом слое щ и во втором - п2 подбирались в процессе обучения НС. Активационная функция в скрытых слоях - сигмоид, в выходном -линейная. Число примеров в обучающем множестве составило 80% от общего числа примеров в кластере, в множестве перекрестного подтверждения и тестовом - по 10%. Обобщенные результаты экспериментов представлены на рисунке 1 и в таблице 2, где отражены значения частных критериев Е, Б и Я и обобщённого критерия Ф на каждой к-ой итерации.

В таблице также приведены значения коэффициента корреляции г, числа примеров в кластере Ык, числа аномальных наблюдений ^к, и среднего значения отклонения 5{кк = N на данной итерации. Анализ показывает, что обобщённый критерий Ф достиг своего минимального значения на третьей итерации, при этом его значение уменьшилось более чем в 5,89 раз. Последующее выбрасывание аномальных точек при обучении приводит только к ухудшению точности и устойчивости НСМ. Рост критерия Ф в 17,5 раз на 4-й итерации можно объяснить тем, что нарушается условие репрезентативности (23). Таким образом,

E,S,R.<t>

сформулированное утверждение обосновано численно, найден номер оптимальной итерации и получен кластер для создания рабочей модели, очищенный от аномальных наблюдений.

Анализ расчётов показывает, что выбранные инструменты регуляризации по методу ВММ весьма эффективны: мера оценки погрешности данных Ф меняется от 0,000028 до 0,021, т.е. в 750 раз! Причём минимум Ф достигается уже на третьей итерации. Чётко проявляется дефицит наблюдений: на четвёртой итерации, где N(4) = 135, т.е. уменьшилось

на 23,28% по сравнению с нулевой итерацией критерии Е, R, S, и Ф заметно ухудшаются. Характерно, что на второй итерации изменяется характер сжатия нейросетевого отображения ^ начинает расти, и после к) 4 возможно появление неустойчивости сети - ошибка входа будет «растягиваться» к выходу).

Ниже приведены результаты осреднения на байесовском ансамбле гипотез \кч} по

критерию вероятности получения «плохих» точек расчёта (24) - (25). В расчётах использовалась программа КеигоБоЫюпв - 4.0 (демоверсия). Построенные рабочие модели были проверены на адекватность по критерию Р . Экспертно задаваемый уровень ошибки е возьмём равным 100%. Критическое значение доверительной вероятности в процедуре перекрёстной проверки (СУ) РСС¥ зададим равным 0,75. Значения доверительной вероятности, т.е. отношения числа «плохих» точек к общему числу наблюдений для НСМ типа q приведены в таблице 3.

Таблица 3

Результаты выполнения процедуры ОПП

Тип НСМ НСМ1 НСМ2 НСМ3 НСМ4 НСМ5 НСМ6

0.8571 0.8889 0.8836 0.7989 0.8889 0.8889

Среднее значение Р на ансамбле равно 0,8677, что вполне приемлемо для сильнозашумлённых данных.

Таким образом, из таблицы 3 следует, что все шесть типов НСМ прошли байесовскую процедуру перекрёстного подтверждения и на их основе можно синтезировать оптимальный план выездных налоговых проверок (приложение 2).

Выводы:

1. Полученные результаты являются обнадёживающими предпосылками в аспекте обеспечения состоятельности задачи регуляризации для нейросетевых задач с сильным зашумлением данных.

2. Изучение эффективности различных способов предобработки данных и их влияния на свойства регуляризованных нейросетей является востребованным и необходимым. Основополагающий принцип предобработки данных: снижение существующей избыточности всеми возможными способами. А это повышает информативность примеров и, тем самым, качество нейропредсказаний.

ЛИТЕРАТУРА

1. Букаев Г.И., Бублик Н.Д., Горбатков С.А., Сатаров Р.Ф. Модернизация системы налогового контроля на основе нейросетевых информационных технологий. -М.: Наука, 2001. - 344 с.

2. Шумский С.А. Байесова регуляризация обучения: Лекции для школы-семинара «Современные проблемы информатики» (23-25 января 2002 г., Москва). - М.: МИФИ, 2002. - 33 с. (file:// Нейро ОК Интелсофт^Ш).

3. Бирюков А.Н. Теоретические основы разработки нейросетевых моделей в системе налогового администрирования. - Уфа: Академия наук РБ, Издательство «Гилем», 2011. - 380 с.

4. Бирюков А.Н. Байесовская регуляризация нейросетевых моделей ранжирования и кластеризации экономических объектов. - Уфа: Академия наук РБ, Издательство «Гилем», 2011. - 292 с.

5. Хайкин С. Нейронные сети: полный курс, 2-ое издание: Пер. с англ. - М.: Издательский дом «Вильямс», 2006. - 1104 с.

6. Горбатков С.А., Полупанов Д.В., Бирюков А.Н., Макеева Е.Ю. Методологические основы разработки нейросетевых моделей экономических объектов в условиях неопределенности - М.: Издательский дом «Экономическая газета», 2012. - 494 с.

7. Тихонов А.Н., Гончарский А.В., Степанов В.В., Ягола А.Г. Численные методы решения некорректных задач. М.: Наука, 1990.

8. Иванов В.К., Васин В.В., Танана В.П. Теория линейных некорректных задач и ее приложения. М.: Наука, 1978.

9. Прангишвили И.И. Системный анализ и общесистемные закономерности. - М.: СИНТЕГ, 2000. - 525 с.

10. Каллан Р. Основные концепции нейронных сетей = The Essence of Neural Networks First Edition. - М.: Вильямс, 2001. - 288 с.

11. Прангишвили И.В. Системный подход и общесистемные закономерности. Серия «Системы и проблемы управления». - М.: СИНТЕГ, 2000, 528 с.

12. Урманцев Ю.А. Общая теория систем: состояние, приложение и перспективы развития. Система, симметрия, гармония. - М.: Мысль, 1988.

13. Ясницкий Л.Н. Введение в искусственный интеллект. - М.: Издат. центр «Академия», 2005. - 176 с.

Рецензент: Статья рецензирована членами редколлегии журнала.

Biryukov Aleksandr Nikolaevich

FGBOU VPO «Bashkir state University»

Russia, Ufa E-mail: [email protected]

The method of quasi-solutions for the regularization of neural network models of tax control

Abstract. Issues covered in this article arose from an objective need for research aimed at improving the efficiency of the tax system at the regional level.

The state can not spend more on the collection of taxes, so the structure of taxes and state tax administration system (SNA) to ensure that they collect, must at minimum cost to provide high performance, which is impossible without good information and analytical system of support of decisions. The construction of such a system involves the integration into a single information space of all structural units of the tax and other state bodies. Required common information space created in recent years in the form of electronic data interchange (EDI), developed by the Federal Tax Service of the Russian Federation. This system, which is the basis for the automation of the tax authorities is described in almost all textbooks Russian economic institutions.

However, EDI is one bottleneck - it poorly formatizirovan analysis unit, the core of which should serve as a mathematical model for analyzing the financial condition of the taxpayer, of violations of the tax legislation in the declarations, the synthesis of the optimal plan of field tax audits. Such models should serve as a sufficiently reliable and objective basis for management decision support.

Currently, there is a powerful mathematical tool (universal approximator and clusterer) -neural network. By using neural networks require their learning by example, that from a mathematical point of view, is an ill-posed inverse Hadamard problems like interpretation. This raises the dilemma of finding a compromise between the generalization error model and its robustness (resistance to variations of the data in a given range).

With regard to the neural network model CHA, which differ very noisy data, aggravated in some cases, shortage of observations, research on regularization of neural networks in inverse problems were not carried out.

In the works V.K. Ivanova [8] a rigorous mathematical justification of the two methods for solving ill-posed problems, provided that there is an additional a priori information on the desired solution. If you know that the decision is an element of the set of the compact, he developed a method of quasi-solutions. In this case it is possible and error estimates for approximate solutions. The article develops the idea of a new pre-computer technology (desk) tax audit companies, taxpayers, proposed on the basis of neural network modeling. Use of these models provides the basis for improving the reliability and objectivity of the tax control in the tax authorities, and to improve the effectiveness of field tax audits.

Keywords: neural network; neural network model; Bayesian approach; nested mathematical models; Neural network submodel; the method of quasi-solutions; algorithm.

REFERENCES

1. Bukaev G.I., Bagel N.D. Gorbatkov S.A., Satarov R.F. Modernisation of tax control system based on neural network information technologies. - M.: Nauka, 2001 - 344 p.

2. Shumsky S.A. Bayesian regularization of study: Lectures for school-seminar "Modern problems of informatics" (23-25 January 2002, Moscow). - M.: MEPhI, 2002. - 33 p. (file: // Neuro Intelsoft.htm OK).

3. A.N. Biryukov The theoretical basis for the development of neural network models in the system of tax administration. - Ufa Academy of Sciences of Belarus, Publisher "Guillem", 2011. - 380 p.

4. A.N. Biryukov Bayesian regularization neural network models ranking and clustering of economic projects. - Ufa Academy of Sciences of Belarus, Publisher "Guillem", 2011. - 292 p.

5. Haykin C. Neural networks: a complete course, 2nd ed.: Trans. from English. - M.: Publishing House "Williams", 2006. - 1104 s.

6. Gorbatkov S.A., Polupanov D.V., Biryukov A.N., Makeyev E.Y. The methodological basis for the development of neural network models of economic objects in neopredelennosti - M.: Publishing house «Economic newspaper», 2012. - 494 s.

7. Tikhonov, Goncharsky A.V., Stepanov V.V., Yagola A.G. Numerical methods for solving ill-posed problems. M.: Nauka, 1990.

8. V.K. Ivanov, V.V. Vasin, V.P. Tanana, Theory of linear ill-posed problems and its applications. M.: Nauka, 1978.

9. Prangishvili II System analysis and system-wide patterns. - M.: SINTEG, 2000. - 525 p.

10. Kallan R. The basic concepts of neural networks = The Essence of Neural Networks First Edition. - M.: Williams, 2001. - 288 p.

11. Prangishvili I.V. The systems approach and system-wide laws. A series of "systems and control problems" - M.: SINTEG, 2000, 528 p.

12. Urmantsev Y.A. The general theory of systems: state and prospects of development of the application. The system, symmetry, harmony. - M.: Thought, 1988.

13. Yasnitsky L.N. Introduction to Artificial Intelligence. - M.: Izdat. center "Academy", 2005. - 176 p.

Метод квазирешений для регуляризации нейросетевых моделей налогового контроля Текст научной статьи по специальности «Математика»

Аннотация научной статьи по математике, автор научной работы — Бирюков Александр Николаевич

Похожие темы научных работ по математике , автор научной работы — Бирюков Александр Николаевич

The method of quasi-solutions for the regularization of neural network models of tax control

Текст научной работы на тему «Метод квазирешений для регуляризации нейросетевых моделей налогового контроля»