ЭКОНОМИКА И УПРАВЛЕНИЕ НАРОДНЫМ ХОЗЯЙСТВОМ
УДК 519.226.3:336.201.2
С. А. Горбатков, О. Б. Рашитова, А. М. Солнцев
ИНТЕЛЛЕКТУАЛЬНОЕ МОДЕЛИРОВАНИЕ В ЗАДАЧЕ ПРИНЯТИЯ РЕШЕНИЙ В РАМКАХ НАЛОГОВОГО УПРАВЛЕНИЯ
Рассматривается подход к повышению эффективности принятия решений налогового регулирования за счет использования интеллектуального моделирования. В рамках данного подхода предложен метод селекции факторов оценки финансового состояния предприятий в процедуре их кластеризации на нейронных сетях на основе байесовского подхода. Представлены результаты исследований эффективности предложенного метода на примере оценки кредитоспособности предприятий в различных отраслях народного хозяйства. Налоговое администрирование; кластеризация; селекция факторов; байесовский подход; нейронные сети
ВВЕДЕНИЕ
Прикладной аспект рассматриваемой задачи связан с технологиями налогового регулирования (управления). Кластеризация налогооблагаемых предприятий с целью принятия решений по налоговому регулированию повышает объективность принимаемых решений. Лицо, принимающее решение (ЛПР), может отнести то или иное предприятие к одному из получаемых кластеров и принять решение по результатам такого математического моделирования.
Вопросам регуляризации моделей, используемых в экономико-математическом моделировании, уделяется достаточное внимание, поскольку это улучшает их адекватность и повышает качество получаемых решений. В частности, достаточно подробно проработан данный вопрос С. А. Шумским [1] применительно к использованию нейронных сетей для случаев, когда выполняются условия соответствия исходных данных (векторов х = (х1,х2,...,хп)) гауссовым смесям распределения плотности вероятности кластеризируемых объектов.
Однако имеется класс прикладных задач, в которых не выполняется требование возможности представления данных в виде смеси гауссовских распределений в силу сильного искажения исходных данных и их малого объема [2]. В этой связи актуальным является вопрос теоретического обоснования регуляризации нейросе-тевых кластеризаторов при невыполнении указанных требований.
1. СЕЛЕКЦИЯ ПРИЗНАКОВ ФИНАНСОВОГО СОСТОЯНИЯ ПРЕДПРИЯТИЙ
В вышеуказанных прикладных задачах кластеризации и ранжирования вектор признаков х = (х1, х2,..., хп ) может содержать большое число компонент (до нескольких десятков). Часть из этих компонент имеют высокую информативность в аспекте разделения векторов (объектов) х на классы, а часть малоинформативна. В результате качество анализа с использованием моделей систем искусственного интеллекта, например, кластеризации как в нашем случае, может оказаться неудовлетворительным.
В этой связи предлагается метод кластеризации с селекцией признаков и байесовской регуляризацией (КСП и БР), предусматривающий итерационный процесс кластеризации с оценкой ее качества [3].
Селекция признаков при кластеризации представляет собой процедуру выделения из всего множества признаков меньшего подмножества с сохранением информативности [4].
Суть селекции признаков - это выделение признаков, которые приводят к большим расстояниям между классами и к малым расстояниям внутри классов, т. е. к минимизация критерия качества
м ыт , Л
Е 2 (їт ; Хцт )|
т=1 /=1 )
ММ, \
Е Е *2 (х ц/;х ц т)
(1)
Контактная информация: [email protected]
где q = 1, 2,..., Q и Q - соответственно номер гипотезы-нейросети в байесовском ансамбле и их общее количество; Ыт - число элементов, по-
1
/=1 т=/+1
павших в т-й кластер; хцт - точка центра т-го кластера в п-мерном евклидовом пространстве признаков; й (х т; х цт)- евклидово расстояние от
исследуемого объекта хт до центра своего
т-го кластера; й(х ;хцт) - расстояние между
1-м и т-м кластерами; С2М - число сочетаний из М по 2; М- количество кластеров.
В предлагаемом методе используется скалярная селекция признаков, предусматривающая отдельное независимое рассмотрение используемых признаков.
Суть метода скалярной селекции признаков состоит в оценке дискриминантной способности каждого отдельного признака х}- путем проверки соответствующих статистических гипотез о законах распределения плотности вероятности анализируемого признака в разных классах (кластерах). Если распределения плотности /(xj |0!), I = 1, М совпадают для разных классов (I Ф т ) при назначенной мере сходства, то признак не различает эти классы и 0т.
Рассмотрим количественные соотношения для алгоритма скалярной селекции для наглядности на примере двух классов: 01 и 02, хотя все соотношения, приводимые ниже, справедливы для любого конечного числа классов 01,
^, • • • ,0m, — ,0М.
Примем следующие обозначения: пусть х}- -анализируемый признак. Пусть известны пре-ценденты для этого признака, т. е. случайные его реализации из класса 01 {% 1} е 01; I = 1, Ы1 и для класса О2 [ху2 }е П2; / = 1, N. , где Ы1, N. - числа прецендентов в классах 01 и 02. Методами математической статистики [5] оцениваются эмпирические законы распределения плотности вероятности для {хгуд} и {хгу,2}.
Обозначим через Н0 и Н1 две гипотезы: Н1 -средние значения признаков отличаются существенно в классах 01 и 02; Н0 - средние значения признаков отличаются несущественно -нуль-гипотеза. Примем соглашение о том, что признаки {х;} при селекции нормализованы стандартным способом [6] и пусть известны дисперсии для нормированных прецендентов х;- в классах. Тогда при селекции основная задача - проверить отличие средних значений Ц и ц2 признаков в двух классах 01 и 02. Соответствующие гипотезы имеют вид:
Но : АтJ = тл - тJ2 = О; АтJ Ф О . (2)
В задаче о значимости различия средних ц;1 и ц2 используется критерий Стьюдента [5] с числом степеней свободы (N1 + N2) - 2:
Ь =
к
_ Г71
-+-(N1 N2
(2)
где 8 - общее среднеквадратическое отклонение анализируемого признака х}- от своих средних в кластерах 01 и 02
5=
(N1 - 1)5Л2 + (N2 -1)522
(N1 + N 2) - 2
Заметим, что если закон распределения плотности вероятности анализируемого признака х}- в кластерах 01 и 02 отклоняется от нормального, то оценка дискриминантной способности этого признака будет носить приближенный характер. Для уменьшения погрешности такой оценки в предлагаемом методе используется байесовский подход к регуляризации модели кластеризации, подробно описанный ниже.
После вычисления по (2) проверяем нуль-гипотезу:
Но: tJ < га (а; п= N1 + N. - 2)?, (3)
где ^ - табличное значение критерия Стьюдента с принятым уровнем значимости а; V -число степеней свободы для статистики Стью-дента.
Если неравенство (3) выполнено, то делается вывод о том, что статистически значимого различия в средних ц1 и ц2 по классам 01 и 02 нет. Следовательно, анализируемый признак х}-неинформативен в аспекте разделения данных на классы (кластеры) с принятым уровнем значимости а и при имеющихся объемах прецен-дентов в двух классах N и N.. При конечном числе классов М описанная процедура селекции признаков проводится последовательно попарно для классов , 0т ,(т Ф / ).
Признак {х;} считается неинформативным для выполненного разбиения, если он не различает распределения этого признака более чем в одном из всех сочетаний пар классов ,0т,(т ФI) ; I, т =1, 2, ...,М.
2. БАЙЕСОВСКИЙ ПОДХОД К АНАЛИЗУ ОБЪЕКТОВ НАЛОГООБЛОЖЕНИЯ
Причиной неудовлетворительного качества кластеризации с помощью нейросетевых инструментариев является возможная сильная зави-
симость результатов кластеризации от параметров настройки сети. Так, для рассматриваемого примера использования в качестве нейросетево-го кластеризатора самонастраивающейся карты Кохонена (SOM) результаты кластеризации сильно зависят от параметров, определяющих динамику скорости ее обучения и величины гауссовой окрестности возбужденного нейрона. Данная неустойчивость нейросетевого класте-ризатора по вариации параметров настройки в методе КСП и БР парируется на основе байесовской процедуры регуляризации нейросети.
Главные идеи байесовского подхода [1], используемые в предлагаемом методе, следующие:
• выбор ансамбля априорных гипотез-нейросетей {hq (x,W)}, где W - множество параметров модели (синаптических весов), осуществляется из фиксированного класса (семейства) Н мета-гипотез (сетей Кохонена);
• апостериорная фильтрация обученных гипотез-нейросетей осуществляется по критерию, оценивающему качество кластеризации (1) как по плотности группировки объектов вокруг центров кластеров (числитель отношения (1)), так и по удаленности кластеров друг от друга (знаменатель в (1));
• после фильтрации гипотез-нейросетей осуществляется усреднение критерия качества разбиения векторов (объектов) x е D на кластеры по (1) на отфильтрованном ансамбле гипотез-нейросетей.
В предлагаемом методе КСП и БР нейронной сети формула Байеса непосредственно не используется для апостериорной оценки вероятности [p(hq\D\H)}, где P() - апостиорная вероятность выбранных гипотез-нейросетей; {hq} - множество априорно выбранных гипотез-
нейросетей в ансамбле; H - мета-гипотеза ({hq}е H); D - множество данных, поскольку
для оценки указанной вероятности через функцию правдоподобия требуется априорное знание аналитической формы закона распределения кластеризуемых векторов x, например в виде гауссовой смеси. Такого знания у нас нет. Поэтому апостериорные вероятности {p(hq|D|H )}, несущие информацию о качестве
разбиения данных D на кластеры, в предлагаемом методе КСП и БР оцениваются косвенно путем фильтрации гипотез-нейросетей {hq} по
критерию (1).
Фильтрация гипотез-нейросетей для случая с большим разбросом качества разбиения
Организуется итерационный процесс пошагового отбора (удаления из ансамбля) гипотез-нейросетей [кд] с низким качеством кластеризации (1), т.е. большим значением 0д [кд (х, Ж)В|И]:
д* 0(д) < 0о; д = 1, 2, ..., Q, (4)
* ^ где д - номер гипотезы-нейросети, успешно прошедшей процедуру фильтрации; 0о - желаемое значение качества фильтрации, определяемое в предварительных вычислительных
экспериментах; В = Х } , (7=1, п) - сово-
купность вектор-строк данных.
После фильтрации (4) уточненные значения
центров кластеров [ хц^ ] и соответствующего
им критерия качества разбиения 0 по (1) находятся как усредненные на отфильтрованном байесовском ансамбле величины:
Q* —* Г Q* >
Ицт М И * ц mq / Q*; В = М 0* * q / 0
_q* =1 _ К q =1 J
Процесс обучения SOM характеризуется, во-первых, окрестностью взаимодействия k -го нейрона с i-м вектором обучающей выборки [11]:
d\
К, = exP(- 20^, (6)
где dk.. - расстояние взаимодействия по евклидовой метрике; а - параметр гауссового распределения
o(t) = a0exp(——), t = 0,1,2,..., (7)
t1
где o0 - начальное значение величины а в алгоритме SOM; т1 - некоторый параметр, влияющий на характеристику а. Во-вторых, процесс обучения SOM характеризуется скоростью изменения (модификации) весов при обучении, характеризуемой параметром n(t) экспоненциально изменяющегося от номера повторного прогона обучающей выборки (фактически от времени t):
h(t) = h0 exp( ~), t = 0,1,2, ..., (S)
t2
где т2 - еще один параметр, влияющий на эффективность работы алгоритма SOM.
При формировании байесовского ансамбля гипотез-нейросетей [кд] варьировались указанные параметры обучения т1 и т2.
Организация итераций в алгоритме метода
Шаг 0. к = 0 (к - номер итерации), п(к) = п. При заданных М, 0о и полной размерности п вектора признаков х е Яп осуществляем начальное разбиение В на кластеры методом самоорганизующихся карт Кохонена [11]. При этом строится байесовский ансамбль из Q нейросетей Кохонена (кд (х,Ж)В|И} и по (3)-(4)
- (к)
находятся уточненные центры кластеров хцт
и критерий качества разбиения 0* (к).
Шаг 1. к = к +1. Производим по каждому признаку Х7 расчет критериев Стьюдента по (2) и проверяем соответствующие нуль-гипотезы ио по (3) для всех пар образованных кластеров О,,От,(т ФI); I, т = 1, 2, ...,М.
Шаг 2. Проводим проверку информативности каждого признака, исходя из условия, что он различает распределения этого признака более чем в одном из всех сочетаний пар классов
О,,От,(т ФI) ; I, т = 1, 2, ...,М.
Шаг 3. Если все рассмотренные признаки информативны, то процедура селекции заканчивается, если нет - осуществляется исключение неинформативных признаков из компонент вектора х, т.е. сокращение размерности вектора х
(к) (к-1)
до п = п у - и, где и - число исключенных на данной итерации признаков.
Шаг 4. Осуществляем кластеризацию с измененным составом признаков и проверяем условие улучшения качества разбиения на к-й итерации селекции признаков:
0 * да < 0 * (к-1) ? (9)
Если неравенство (9) выполняется, то, продолжая процесс отбора, переходим к шагу 1, если нет - «ужесточаем» правила отбора по (3) и (4) и, начиная заново процесс отбора, переходим к шагу о.
Замечание. Как известно [10], результат кластеризации с помощью сети Кохонена изменяется при повторных запусках нейросети (дублирующих расчетах) за счет случайного характера выбора начальных положений нейронов. В этом случае в обобщенном критерии качества разбиения (5) полезно вместо [0д*] брать значения, осредненные по дублирующим расчетам:
— 1 К
0 * ^ 0д- =_ V 0 * , (10)
д ^ д,
где 0д. г - значение критерия качества в г-м
повторном расчете; Я - количество повторов.
3. КОЛИЧЕСТВЕННЫЕ ОЦЕНКИ
Апробация предлагаемого метода КСП и БР производилась на реальных (закодированных) данных сельскохозяйственных предприятий-налогоплательщиков Республики Башкортостан. В качестве признаков кластеризации использованы показатели, достаточно полно характеризующие состояние предприятий в условиях российской экономики. Они отражают мнения руководителей коммерческих предприятий (по результатам их опроса) и входят в состав методики Федерального управления по делам несостоятельности (банкротства) и моделей Альтмана [8].
В качестве основных используются 16 показателей. Первую группу составляют показатели, характеризующие рентабельность предприятия:
Я1 - общая рентабельность (отношение балансовой прибыли к сумме выручки от продаж и внереализационных доходов);
Я2 - рентабельность активов (отношение чистой прибыли к средней балансовой стоимости активов);
Я3 - рентабельность собственного капитала (отношение чистой прибыли к сумме доходов будущих периодов, капиталов и резервов (за вычетом собственных акций, выкупленных у акционеров) за вычетом целевого финансирования и поступлений);
Я4 - рентабельность продукции (отношение прибыли от продаж к выручке от продаж);
Я5 - рентабельность оборотных активов (отношение чистой прибыли к средней стоимости оборотных активов).
Вторую группу составляют показатели, характеризующие ликвидность и платежеспособность предприятия:
Ы - быстрый коэффициент ликвидности (отношение вычета запасов, налога на добавленную стоимость по приобретенным ценностям и долгосрочной дебиторской задолженности из оборотных активов к краткосрочным обязательствам, не включая доходы будущих периодов);
Ь2 - коэффициент покрытия запасов (отношение суммы оборотных собственных средств, краткосрочных займов, кредитов и краткосроч-
ной кредиторской задолженности к средней величине запасов);
Ь3 - текущий коэффициент ликвидности (отношение разности оборотных активов и долгосрочной дебиторской задолженности к краткосрочным обязательствам, не включая доходы будущих периодов).
Третью группу составляют показатели, характеризующие деловую активность:
А2 - оборачиваемость активов (отношение выручки от продажи за вычетом налога на добавленную стоимость, акцизов и др. обязательств к средней стоимости активов);
А4 - оборачиваемость кредиторской задолженности (отношение выручки от продажи без учета коммерческих и управленческих расходов к средней кредиторской задолженности);
А5 - оборачиваемость дебиторской задолженности (отношение выручки от продажи за вычетом налога на добавленную стоимость, акцизов и др. обязательств к разности дебиторской задолженности на конец отчетного периода и задолженности учредителей по вкладам в уставной капитал на конец отчетного периода);
А6 - оборачиваемость запасов (отношение себестоимости к средней величине запасов).
Четвертую группу составляют показатели, характеризующие финансовая устойчивость предприятия:
¥1 - коэффициент финансовой зависимости (отношение суммы долгосрочных и краткосрочных обязательства, не включая доходы будущих периодов к сумме доходов будущих периодов, капитала и резервов (за вычетом собственных акций, выкупленных у акционеров) за вычетом целевого финансирования и поступлений);
¥2 - коэффициент автономии собственных средств (отношение суммы доходов будущих периодов, капитала и резервов (за вычетом собственных акций, выкупленных у акционеров) за вычетом целевого финансирования и поступлений к сумме внеоборотных и оборотных активов);
¥3 - обеспеченность запасов собственными оборотными средствами (отношение собственных оборотных средств к запасам);
¥4 - индекс постоянного актива (отношение суммы внеоборотных активов и долгосрочной дебиторской задолженности к сумме доходов будущих периодов, капиталу и резервов (за вычетом собственных акций, выкупленных у акционеров) за вычетом целевого финансирования и поступлений).
Практическое подтверждение предложенного метода селекции признаков осуществлялось для группы из 24 предприятий, для которых были просчитаны вышеназванные 16 показателей в качестве признаков кластеризации. В качестве инструментария кластеризации использовалась нейронная сеть Кохонена, которая успешно применяется в задаче принятия решений при налоговом администрировании [2, 9].
В рассматриваемом примере в гипотезах-нейросетях {hq (X , W )Н } варьировались две вышеназванные эвристики - т1 и т2.
Параметр {t1} варьировался дискретно на трех уровнях: t1 = {140; 280; 700}.
Параметр {t2} варьировался дискретно также на трех уровнях: t2 = {125; 250; 625}.
Уровни указанных параметров подбирались путем предварительных вычислительных экспериментов. В различных сочетаниях уровней ii и т2 было образовано в байесовском ансамбле 9 сетей Кохонена. Для каждой q-й сети проводилось по 3 дублирующих обучения.
Для расчетов использовался программный продукт Deductor Studio 4.4 (демоверсия с ограничением числа записей) для аналитической платформы Deductor Lite.
Проводились предварительные вычислительные эксперименты по выбору параметров адаптивного процесса обучения сети Кохонена с целью определения начального значения ширины с0 функции топологической окрестности h * (d * ), начальной скорости обучения h0,
k , q k , q
числа эпох Т (итераций) процесса модификации весов: T = 500; с0 = 4; h0 = 0,3.
Основные результаты процесса кластеризации в представленном ансамбле гипотез-нейросетей заключаются в следующем.
Фильтрация байесовских гипотез {hq (x ,W ) Н } для байесовского метода кластеризации 24 рассмотренных предприятий проведена во всех 27 нейросетевых моделях байесовского ансамбля.
Обобщенный показатель 0 по (1), оценивающий косвенно апостериорную вероятность гипотез-нейросетей p(hq (x,W ) D|H), изменяется
на множестве из 27 сетей ансамбля в довольно широких пределах: от 0q[(hq)]min = 0,43852 до 0q[(hq)]max = 0,59826, т.е. на 36,4%.
Согласно байесовскому методу было использовано предложенное правило фильтрации (4). Уже на первой итерации фильтрации установлено, что все 9 сравниваемых гипотез-
нейросетей [кд] прошли условия отбора и оставлены в апостериорном (отфильтрованном) ансамбле. После выполнения первой итерации процедуры селекции при кластеризации с использованием всех признаков были оставлены в качестве информативных только пять - Ь2, А6, ¥1, ¥2, ¥3.
На второй итерации оценка информативности этих признаков не изменилась с сохранением качества кластеризации по (1). Таким образом было сокращено пространство признаков кластеризации для их практического применения. Усредненное по (5) значение критерия качества значительно уменьшилось (рис. 1), что говорит об эффективности процедуры селекции, а окончательно полученное значение
0* (2) = 0,505 - о достаточно высоком качестве разбиения.
Рис. 1. Динамика критерия качества в процессе селекции
ЗАКЛЮЧЕНИЕ
Показана эффективность предложенного метода селекции признаков кластеризации, выраженная в значительном сокращении их количества, в рассматриваемом примере моделирования принятия решений при налоговом администрировании предприятий.
Применительно к условиям моделирования рассмотренного примера (сильное зашумление данных и их дефицит) проявляется заметное расслоение результатов разбиения на кластеры в зависимости от параметров адаптивного обучения сети Кохонена, которые в широких пределах варьировались в ансамбле сетей. Следовательно, идея о необходимости регуляризации нейросетевого классификатора подтвердилась в вычислительных экспериментах. Идея байесовского метода регуляризации количественно апробирована и подтверждена для рассмотренной практической задачи.
СПИСОК ЛИТЕРАТУРЫ
1. Шумский С. А. Байесова регуляризация обучения // Лекции по нейроинформатике. Ч. 2. М.: МИФИ, 2002. С. 30-93.
2. Нейросетевое математическое моделирование в задачах ранжирования и кластеризации в бюджетно-налоговой системе регионального и муниципального уровней: монография / С. А. Горбатков [и др.]. Уфа: РИЦ БашГУ, 2011. 222 с.
3. Горбатков С. А., Рашитова О. Б. Байесовский итерационный алгоритм кластеризации на основе селекции признаков: Св-во ОФЭРНИО 17538. Рег. 31.10.2011.
4. Местецкий Л. М. Математические методы распознавания образов: курс лекций. М.: МГУ, 2004. 85 с.
5. Айвазян С. А., Мхитарян В. С. Прикладная статистика и основы эконометрики. М.: ЮНИТИ, 1998. 1023с.
6. Ежов А. А., Шумский С. А. Нейрокомпьютинг и его применение в экономике и бизнесе: учебник. М.: Изд-во МИФИ, 1998. 224 с.
7. Вентцель Е. С. Теория вероятностей. М.: Высшая школа, 1999. 576 с.
8. Давыдова Г. В., Беликов А. Ю. Методика количественной оценки риска банкротсва предприятий // Управление риском. 1999. № 3. С. 13-20.
9. Горбатков С. А., Рашитова О. Б. Кластеризация заемщиков для оценки кредитного риска // Проведение научных исследований в области обработки, хранения, передачи и защиты информации: сб. науч. тр: в 4 т. Т4. Ульяновск: УлГТУ, 2009. С. 394-403.
10. Хайкин С. Нейронные сети: полный курс. М.: Изд. дом «Вильямс», 2006. 1104 с.
ОБ АВТОРАХ
Горбатков Станислав Анатольевич, проф. каф. математики и информатики Уфимск. филиала Финансового ун-та при Правительстве РФ. Дипл. инженер-электромеханик (Томск. политехн. ин-т, 1960). Д-р техн. наук по упр-ю в техн. системах (МИЭМ, 1990). Нейросетевое моделирование и управление в технических и экономических системах.
Рашитова Ольга Борисовна, ст. преп. той же каф. Дипл. математик (БГУ, 1999), экономист (ВЗФЭИ, 2007). Иссл. в обл. экон. процессов
Солнцев Андрей Михайлович, нач. налоговой инспекции Межрайон. инспекции Фед. налоговой службы № 39 по РБ. Дипл. экономист (ВЗФЭИ, 1995). Иссл. в обл. процессов налогообложения.