Научная статья на тему 'Об одном подходе к принятию решений в налоговом администрировании на основе нейросетевых моделей с байесовской регуляризацией'

Об одном подходе к принятию решений в налоговом администрировании на основе нейросетевых моделей с байесовской регуляризацией Текст научной статьи по специальности «Экономика и бизнес»

CC BY
128
43
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
НАЛОГОВОЕ АДМИНИСТРИРОВАНИЕ / НЕЙРОННЫЕ СЕТИ / ПРЕДОБРАБОТКА / РЕГУЛЯРИЗАЦИЯ / БАЙЕСОВСКИЙ ПОДХОД / ЭКСПЕРТНАЯ СИСТЕМА

Аннотация научной статьи по экономике и бизнесу, автор научной работы — Фархиева Светлана Анатольевна

Рассмотрен подход к поддержке принятия решений в налоговом администрировании на основе нейросетевых моделей. Предложен приближенный метод байесовской регуляризации нейросетевых моделей подсистем налогового администрирования, которые характеризуются сильным зашумлением (и даже сознательным искажением) данных. Актуальность темы для практики состоит в том, что она создает научную базу для модернизации системы налогового администрирования в направлении повышения эффективности ее работы и уровня автоматизации.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по экономике и бизнесу , автор научной работы — Фархиева Светлана Анатольевна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Об одном подходе к принятию решений в налоговом администрировании на основе нейросетевых моделей с байесовской регуляризацией»

Об одном подходе к принятию решений в налоговом администрировании на основе нейросетевых моделей с байесовской

регуляризацией

Фархиева Светлана Анатольевна Старший преподаватель кафедры «Математика и информатика » Всероссийский заочный финансово-экономический институт, филиал в г.Уфе

ok-xi@yandex.ru

Аннотация. Рассмотрен подход к поддержке принятия решений в налоговом администрировании на основе нейросетевых моделей. Предложен приближенный метод байесовской регуляризации нейросетевых моделей подсистем налогового администрирования, которые характеризуются сильным зашумлением (и даже сознательным искажением) данных. Актуальность темы для практики состоит в том, что она создает научную базу для модернизации системы налогового администрирования в направлении повышения эффективности ее работы и уровня автоматизации.

Ключевые слова: налоговое администрирование, нейронные сети, предобработка, регуляризация, байесовский подход, экспертная система.

Summary. In article the approach to support of decision-making in tax administration on the basis of neuronetwork models is considered. The approximate method of bayesovsky regularization of neuronetwork models of subsystems of tax administration which are characterized by a strong zashumleniye (and even conscious distortion) data is offered. The subject urgency for practice consists that she creates scientific base for modernization of system of tax administration in the direction of increase of efficiency of its work and automation level.

Keywords: tax administration, neural networks, preprocessing,

regularization, bayesovsky approach, expert system.

В современных условиях развития российской экономики актуальным является максимальное наполнение государственного бюджета доходами и обеспечение их сбалансированности с расходами. В рамках приоритетных направлений совершенствования налоговой системы Российской Федерации, определенных Президентом и Правительством, предусмотрено, что использование эффективных приемов и методов налогового

администрирования и дальнейшее их совершенствование должно способствовать значительному росту налоговых поступлений в бюджет. Поэтому актуальной проблемой исследований представляется совершенствование технологий подсистем налогового администрирования на основе методов и технологий построения нейросетевых моделей поддержки принятия решений в условиях высокой неопределенности данных (существенное искажение данных налоговых деклараций, дефицита наблюдений и т.д.). Это в конечном итоге повысит собираемость налогов с сохранением возможности эффективного функционирования предприятий после уплаты налогов.

В результате анализа известных подходов для поддержки принятия решений в системе налогового администрирования и существующих методик налогового контроля, планирования и регулирования, а также особенностей условий моделирования (сильная зашумленность данных) обоснована необходимость исследования управления процессами в этих подсистемах и разработка нейросетевых моделей для представления знаний в интеллектуальных экспертных системах по принятию решений в системе налогового администрирования.

В целях системного видения процессов в системе налогового администрирования разработана мультиагентная когнитивная карта (модель) (рисунок 1), которая наглядно представляет структуру налоговой системы регионального и муниципального уровней, взаимосвязей потоков информации и финансов между подсистемами. Эта модель позволяет декомпозировать общую задачу моделирования на подмодели агентов, четко

очерчивая границы между ними, что облегчает разработку соответствующих подходов и методов с учетом причинно-следственных связей между всеми экономическими агентами. Тем самым уменьшается размерность задач моделирования и предопределяется эффективность нейромоделей.

Рисунок 1. Когнитивная мультиагентная модель финансовых и

информационных потоков в бюджетно-налоговой системе регионального и

муниципального уровней.

Нейросети по сравнению с традиционными инструментариями эконометрики и прикладной статистики считаются универсальным инструментарием, поскольку нейросетевые модели сохраняют способность работать в сложных условиях моделирования, где традиционные методы теряют работоспособность. Сложные условия моделирования в задачах налогового администрирования, это - прежде всего сильное зашумление данных, зачастую переходящее в сознательное их искажение с целью уменьшения налогооблагаемой базы; дефицит наблюдений, связанный с тем, что бухгалтерская отчетность формируется налогоплательщиками один раз в квартал. То есть имеет место нарушение предпосылок метода наименьших квадратов.

Во всех трех подсистемах налогового администрирования можно выделить в нейросетевых математических моделях общее «ядро» в виде восстанавливаемой параметрической «обобщенной производственной функции» У(X,W), где X - вектор входных факторов, Ж - совокупность оцениваемых параметров (в нейросети - это матрица синаптических весов). Моделирование такого «ядра» позволяет разработать общую методологию моделирования в нейросетевом базисе для подсистем налогового контроля, налогового планирования и налогового регулирования в виде совокупности методов и алгоритмов [1]. Наглядно взаимосвязь основных моделей и надстроек к ним в системе налогового администрирования показана на рисунке 2.

Система налогового администрирований

Обратная задача аппроксимации «ядра»модели подсистем - восстановление многомерных функциональных зависимостей в нейросетевом базисе

І

Надстройка к модели восстановления - метод обнаружения нарушений налогоплательщиками налогового законодательства

Надстройка к модели восстановления - метод синтеза оптимального плана выездных налоговых проверо*;

Надстройка к модели восстановления - метод групповой оценки финансового состояния налоголлателыцжов

■ Г 1 ' 1 г

Подсистема налогового Подсистема налогового Подсистема налогового

контроля планирования регулирования

г 1 ' 1 г

Основная модель Основная модель Основная модель

восстановления восстановления восстановления

динамической динамической динамически

многофакторной многофакторной многофакторной

зависимости МВИСЧММТН зависимости

У(х ю ¥{Х„ Ш У(XIV)

и оценка отклонения от и синтез плана выездных и оценка финансового

эталонной функции налоговых проверок состояния

Разработка прикладных методик в качестве поддержки принятия решений в подсистема* налогового

администрирования

Рисунок 2. Взаимосвязь математических моделей в подсистемах налогового

администрирования

В предварительных исследованиях [2] проведен модельный вычислительный эксперимент, в котором показано, что при повышении некоторого критического значения интенсивности шумов и их объема нейросеть теряет устойчивость (малому приращению интенсивности шума соответствуют очень большие приращения ошибки обобщения). Это обосновывает необходимость предобработки данных и регуляризации нейросетевой модели, то есть повышения устойчивости нейросети к возмущению входных данных. Для практики регуляризация дает повышение достоверности оценок с помощью нейросетевых моделей в тяжелых условиях моделирования.

Предлагается основной подход к регуляризации нейросетевых моделей - байесовский подход [3,4]. Согласно [5] под регуляризацией понимается «сужение» класса допустимых решений. В этой теории для апостериорной оценки вероятности появления данных в соответствии с данной фиксированной гипотезой \кС1} расчет вероятности требует оценки

функции правдоподобия в формуле Байеса. Для этого в классической теории [5] построены аналитически соответствующие статистические суммы через оценку функции правдоподобия. Условия применимости принципа. максимального правдоподобия классические - шумовая составляющая имеет нормальный закон распределения. В задачах налогового администрирования это не выполняется в силу сознательного искажения данных и других условий, связанных с предпосылками метода наименьших квадратов. Поэтому предлагается приближенный метод байесовской регуляризации нейросетевых моделей.

Механизм регуляризации при этом состоит в двух операциях:

- сужение класса искомых решений при апостериорной фильтрации гипотез-нейросетей \кС1}, т.е. отфильтровываются нейросетевые модели с неприемлемым качеством объяснения данных;

- осреднение расчетных характеристик на суженном ансамбле отфильтрованных нейросетей.

То есть предлагается приблизить байесовский подход [5] к реальным условиям моделирования, когда априори неизвестен закон распределения шумов. Сделано это путем введения специального критерия оценки апостериорных вероятностей гипотез \кС1} о порождении данных D:

P(hq\D\H) ^ Р* = (К*/ N),

*

где Nq - число «хороших» точек, относительная ошибка в которых не

превышает заданный экспертно уровень £ (обычно, 0,05..0,1) для *-ой гипотезы; N - общее число точек, предъявляемых обученной сети.

Предлагаемый приближенный байесовский подход реализован с помощью метода вложенных математических моделей, который включает в себя алгоритмы предпроцессорной обработки данных (предрегуляризация) и алгоритмы байесовской регуляризации обучения сетей и их апостериорной фильтрации. Это позволяет с целью обеспечения состоятельности задачи регуляризации нейросетевой модели процедуры улучшения информативности данных производить взаимосвязано с процедурами байесовской регуляризации, что повышает эффективность байесовской регуляризации обучения нейросети. Логическая схема метода показана на рисунке 3. Метод вложенных математических моделей разработан детально и апробирован в широких сериях вычислительных экспериментов, как в целом, так и в отдельности по каждой процедуре метода [3].

Построение гибридной обобщенной нейросетевой модели восстановления «обобщенной производственной функции» МВММ

Подмодель I предпроцессорной обработки данных О = (х;, у*}, і = 1, N при заданной метагипотезе (предрегуляризация) (Нт=сопз1)

1.1. Алгоритм априорного экспертного выбора метагипотезы (Нт=сопз1), т.е. парадигмы нейросети, её архитектуры, активационных функций и алгоритма обучения

1.3. Алгоритм нормировки и фильтрации переменных по их статистической значимости по критерию Стьюдента

1.4. Алгоритм удаления из данных противоречивых вектор-строк (примеров) наблюдений по критерию Липшица Ь

Подмодель I восстановления многомерной нелинейной функции У(X) с регуляризацией на байесовском ансамбле нейросетей (X Ж= Г^

1.7. Алгоритм «ремонта» вектор- столбцов данных в кластерах

11.2. Выбор априорных байесовских гипотез-нейросетей уг* (X, Ж)|е Н в рамках фиксированной мета-гипотезы Н. Обучение нейросетей.

1

11.3. Определение точек !* , хорошо объясняющих данные, для апостериорной оценки вероятности гипотез.

Ч

II.4. Апостериорная фильтрация (лґ/лг) гипотез по критерию

НЕТ

II.6. Конец построения обобщенной модели

Выдача осредненных на байесовском ансамбле характеристик объекта для прикладной компьютерной методики поддержки принятия решения ЛПР.

Рисунок 3. Логическая схема метода вложенных математических моделей Разработка специальных алгоритмов предобработки данных продиктована следующими соображениями:

1. В задачах подсистем налогового администрирования рассматриваются сложные условия моделирования, позволяющие достичь

требуемого уровня обобщения в концепциях, методах, алгоритмах и моделях. В этих условиях роль предобработки данных возрастает.

2. Принципиальное отличие предложенных алгоритмов предобработки данных от традиционных методов математической статистики состоит в том, что предобработка проводится не изолированно от обучения нейросети, а связана с ним, т.е. подчинена качеству будущего обучения. Для этого вводится специальный инструментарий - вспомогательные нейросетевые субмодели.

3. В процедуры предобработки данных вводится процедура байесовской регуляризации на ансамбле нейросетей, поэтому процедуры предобработки данных приобретают черты «предрегуляризации» будущего обучения рабочей нейросети.

Для оценки адекватности нейросетевых моделей нет стройной теории, аналогичной регрессионным методам. Для теоретической оценки адекватности предложен специальный двухступенчатый метод:

I шаг. Оценка адекватности (ее механизм) скрыта в самом алгоритме регуляризации. А именно, в процедуре фильтрации по апостериорному критерию и последующему осреднению всех расчетных характеристик на отфильтрованном ансамбле сетей.

II шаг. Обоснование адекватности по выходным характеристикам, полученным с помощью нейросетей. А именно, сравниваются синтезированные оптимальные планы выездных налоговых проверок, полученные на каждой сети из отфильтрованного ансамбля нейросетей. Совпадение этих планов с определенной требуемой вероятностью и служат гарантией оценки адекватности модели.

Причем вторая ступень характеризуется своими интегральными оценками. Она оценивает адекватность после всех процедур предобработки данных, регуляризации и синтеза плана.

Кроме того, адекватность исследовалась в широких сериях вычислительных экспериментов на реальных данных [4].

Предложенный подход прошел проверку на натурных производственных экспериментах по 30 предприятиям одной отрасли. По эти предприятиям были зафиксированы налоговые декларации за 3 года по бухгалтерской отчетности. В 2010г. по предприятиям были проведены выездные налоговые проверки. Сравним результаты моделирования с результатами налоговых проверок, проводившихся на предприятиях, участвовавших в вычислительном эксперименте. В таблице 1 представлены оптимальный план выездных проверок (составленный по критерию отбора на основе байесовского ансамбля нейросетей) и величина налоговых доначислений, полученных по результатам выездных проверок (указаны первые 12 номеров предприятий согласно оптимальному плану и 12 номеров предприятий с наибольшими доначислениями) [4].

Таблица 1

Сравнение результатов моделирования с итогами

выездных налоговых проверок

№ предприятия Значение V* № предприятия Доначисления, руб.

11 0.20276 11 7002076

3 0.09776 9 3140252

22 0.07272 8 2780893

9 0.06346 24 1911636

14 0.04393 21 1700531

21 0.02258 22 1520399

8 0.02081 16 1427865

24 0.01875 10 1384382

2 0.01612 13 1371761

12 0.01565 3 1366995

30 0.01513 14 1041774

10 0.01316 2 839696

Из таблицы 1 видно, что из 12 предприятий, допускавших грубое нарушение налогового законодательства в окончательный план проверки попало 10. Это говорит о том, что предложенный подход идентифицировал

нарушение налогового законодательства практически с 83%-ой вероятностью.

Также проведено сравнение с доступными моделями аналогичного назначения (Estimation Tax И.И. Голичева) [6], которые служат независимым подтверждением адекватности предложенных нейросетевых моделей с байесовской регуляризацией. В таблице представлены результаты сравнения полученного на ее основе оптимального плана отбора налогоплательщиков по предложенному методу для 18 проверяющих бригад с планом отбора, полученным по альтернативной модели непараметрического сглаживания [6]. В таблице 2 приведены коды налогоплательщиков, включенных в планы отбора по обеим моделям.

Таблица 2

Сравнение с альтернативной моделью отбора

ГНСМ 41 35 26 43 66 68 11 27 40 73 18 25 71 52 46 57 16

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Estimation Tax 41 60 21 35 11 26 43 18 40 73 68 27 71 46 25 66 78

Из таблицы 2 следует, что по каждой модели совпадают 12 объектов налогового контроля из 17 (совпадения обозначены цветом), то есть модели взаимно подтверждают друг друга на 71 % [1].

В таблице 3 приведен фрагмент расчетов попадания одного из предприятий-налогоплательщиков образованных кластеров в диапазон значений финансовых показателей, соответствующих каждому из уровней финансового состояния предприятия, определенных экспертно (интервалы попадания выделены цветом) [1]. Как видно из таблицы 3 предприятие принадлежит к классу низкого риска банкротства, что подтверждается экспертами. Это есть успешный пример реализации надстройки оценки финансового состояния для подсистемы налогового регулирования.

Таблица 3

Диапазон значений экономических показателей по группам уровня риска

Группа уровня риска Очень высокий Высокий риск Средний риск Низкий риск Очень низкий риск

P1 0,1-0,4 0,4-0,8 0,8-1,5 1,5-2,4 2,4-2,8

Е1 2,70-2,50 2,50-1,70 1,70-1,17 1,17-0,90 0,90-0,50

0,25-0,31 0,31-0,54 0,54-0,83 0,83-0,93 0,93-0,95

Е3 -2,00.. .-1,66 -1,66.-0,33 -0,33.0,92 0,92-1,84 1,84-3,50

Е4 1,60-1,51 1,51-1,18 1,18-0,83 0,83-0,56 0,56-0,20

Согласно предложенному в статье подходу к поддержке принятия решений в системе налогового администрирования повышение эффективности государственного управления в налоговой системе регионального и муниципального уровня на основе нейромоделирования, это:

1. В подсистеме налогового контроля - это повышение объективности выявления нарушений налогового законодательства и автоматизации технологии камеральных проверок.

2. В подсистеме налогового планирования - это синтез готовых оптимальных планов выездных налоговых проверок по критерию максимизации доначислений, т.е. увеличение собираемости налогов.

3. В подсистеме налогового регулирования - повышение оперативности групповых оценок финансово-экономического состояния налогоплательщиков.

В экспертной системе налогового администрирования ранее нейросетевые математические модели не использовались. Предложенный в статье подход к поддержке принятия решений в налоговом администрировании на основе нейросетевых математических моделей с байесовской регуляризацией предполагает их использование в качестве моделей представления и накопления знаний в экспертной системе для подсистем налогового администрирования. Применение нейросетевого моделирования позволяет моделям представления знаний функционировать в сложных специфических условиях моделирования (сильное зашумление данных, плоть до сознательного искажения).

Данная работа носит методологический характер. Предложенные ранее идеи, методы и алгоритмы получили подтверждение на вычислительных и натурных экспериментах [1-4]. Разработанные методологические и теоретические основы нейромоделирования экономических объектов в условиях искажения информационного пространства данных могут быть распространены на другие классы задач, например оценки кредитоспособности заемщиков, финансового контроля, внутреннего контроллинга предприятия, контроля тарифов ЖКХ и другие.

Библиографический список

1. Нейросетевое математическое моделирование в задачах ранжирования и кластеризации в бюджетно-налоговой системе регионального и муниципального уровней: Монография / С.А. Горбатков и др. - Уфа: РИЦ БашГУ, 2011. - 224 с.

2. Горбатков С.А., Полупанов Д.В. Методы нейроматематики в налоговом контроле. / Под ред. д.т.н., проф. С.А. Горбаткова. - Уфа: РИЦ БашГУ, 2008. -136 с.

3. Алгоритм структурирования данных с использованием вспомогательных нейросетевых субмоделей и построение рабочей нейросетевой модели с байесовской регуляризацией. / Горбатков С.А. Фархиева С.А. // Свидетельство о регистрации электронного ресурса в ОФЭРНиО ИНИМ РАО № 16403 от 22.11.2010г. Номер государственной регистрации в Национальном информационном фонде неопубликованных документов: 50201050147.

4. Оценка эффективности алгоритмов предрегуляризации и байесовской регуляризации нейросетей для камеральной налоговой проверки. / Г орбатков С.А., Белолипцев И.И., Фархиева С.А., Полупанов Д.В. // Научная сессия НИЯУ МИФИ-2012. XIV всероссийская научно-техническая конференция «Нейроинформатика-2012»: М.: НИЯУ МИФИ. 2012. С. 38-48.

5. Шумский С.А. Байесова регуляризация обучения // Научная сессия МИФИ 2002. IV Научно-техническая конференция «Нейроинформатика -2002»: Лекции по нейроинформатике. Часть 2. - М.: МИФИ, 2002, с. 30-93.

6. Модернизация налогового контроля (модели и методы): Монография / Под ред. А.Н.Романова. - М.: ИНФРА-М: Вузовский учебник, 2010. - XI. 320 с.

i Надоели баннеры? Вы всегда можете отключить рекламу.