ИССЛЕДОВАНИЕ ВОЗМОЖНОСТЕЙ МЕТОДА ДЕРЕВЬЕВ КЛАССИФИКАЦИИ ПО ПЕРЕРАСПРЕДЕЛЕНИЮ НЕОПРЕДЕЛИВШИХСЯ РЕСПОНДЕНТОВ

Воробьев Андрей Анатольевич; Великих Александр Сергеевич; Кладова Елена Андреевна; Рыбак Алексей Максимович

УДК 316:004.02

DOI 10.23672^5862-2498-7985^

Воробьев Андрей Анатольевич

кандидат технических наук, доцент,

Академия Федеральной службы охраны Российской Федерации, г. Орел awa@mail.ru

Andrey А. Vorobyov

Candidate of Technical Sciences,

Associate Professor,

Academy of the Federal Security Service

Russian Federation, Orel

awa@mail.ru

Великих Александр Сергеевич

кандидат технических наук, воинская часть № 63166, г. Москва forvel@mail.ru

Кладова Елена Андреевна

сотрудник,

Академия Федеральной службы охраны Российской Федерации, г. Орел 4kladov@mail.ru

Рыбак Алексей Максимович

сотрудник,

Академия Федеральной службы охраны Российской Федерации, г. Орел aleshar1999@mail.ru

Alexandr S. Velikikh

Candidate of Technical Sciences, military unit № 63166, Moscow forvel@mail.ru

Elena A. Kladova

Employee,

Academy of the Federal Security Service Russian Federation, Orel 4kladov@mail.ru

Alexey M. Rybak

Employee,

Academy of the Federal Security Service Russian Federation, Orel aleshar1999@mail.ru

Исследование возможностей

метода деревьев классификации по перераспределению неопределившихся респондентов

Аннотация. В статье рассматривается проблема прогнозирования на основе социологических данных с различными типами пропусков. В результате анализа существующих подходов для восстановления пропусков с использованием математических методов был выбран метод деревьев классификации. С использованием метода деревьев классификации предложена методика, основными этапами которой являются: приведение не случайных пропусков к случайным путем отбора независимых переменных, коррелируемых с зависимой переменной («Кандидат»); построение дерева классификации; подсчет пропусков по разным сочетаниям групп; построение прогнозных оценок с учетом перераспределения не определившихся респондентов. Проведенные в работе эксперименты, подтвердили возможность повышения точности прогнозирования с использованием предложенной методики.

Ключевые слова: социологический данные, не определившиеся респонденты, восстановление пропусков. метод деревья классификации, статистический эксперимент.

Research of the possibilities

of the trees classification method for restricting uncertain respondents

Annotation. The article deals with the problem of forecasting based on sociological data with various types of gaps. As a result of the analysis of existing approaches for the restoration of gaps using mathematical methods, the method of classification trees was chosen. Using the method of classification trees, a technique is proposed, the main stages of which are: reduction of non-random gaps to random by selecting independent variables correlated with the dependent variable («Candidate»); building a classification tree; counting gaps for different combinations of groups; construction of forecast estimates taking into account the redistribution of undecided respondents. A number of experiments carried out in this work have confirmed the possibility of increasing the accuracy of forecasting using the proposed methodology.

Keywords: sociological data, undecided respondents. restoration of passé, method of classification trees, statistical experiment.

Введение. Для объективного анализа и прогнозирования социально-экономических и общественно-политических отношений в субъектах Российской Федерации проводятся социологические опросы.Точность сведений, полученных путем сбора общественного мнения, во много зависит откачества (репрезентативности) выборок социологических данных. Однако в последние годы происходит их снижение за счет роста количества пропусков, которые возникают при ответах респондентов, закодированных как «затрудняюсь ответить» (неопределившиеся респонденты).

Теоретический анализ существующих методов и выбор актуальных для восстановления пропусков в социологических данных.

Для повышения точности прогнозирования избирательных кампаний на основе социологических данных с пропусками (неопределившимися респондентами) предложен ряд подходов с использованием методов мультиномиальной логистической регрессии (МЛР) [1] и множественной импу-тации (МИ) [2]. В результате их анализа, выявлены следующие ограниченияпри использовании:

- для МЛР: возможность прогнозирования только явки респондентов на выборах и требование к количеству (не более двух) независимых переменных из-за высоких накладных расходов при работе программного модуля [6];

- для МИ: перераспределение неопределившихся респондентов осуществляется только с использованием одной фиктивной переменной, т.е., не может учитываться взаимосвязь двух и более независимых переменных, которая может существенно оказать влияние на точность прогнозирования [3].

В работе предлагается рассмотреть в качестве альтернативы рассмотренным выше методам -метод деревьев классификации (ДК). Это предположение связано с анализом результатов работы [4], а именно, возможности восстановления данных с помощью метода ДК полностью случайных пропусков (MCAR)[5]. Однако в случае восстановления данных с другими видами пропусков: неслучайных (NMAR) и случайных (MAR), которые были выявлены в исследуемых в работе социологических данных [7] с помощью t-критерия Сть-юдента (уровень значимости 0,01) [8] потребовал дополнительных исследований.

Результаты экспериментов по использованию метода деревьев классификации для восстановления пропусков в социологических данных.

Известно, что для корректного применения математических методов для восстановления пропусков в социологических данных большинство из

пропусков должны быть случайными (MAR) [5]. Как правило, MAR случайно распределены не по всем переменным в массиве данных, а только внутри каких-либо определенных подгрупп переменных. Поэтому в работе была сформулирована гипотеза, что значения пропущены не случайно в зависимой переменной («Кандидат»), а ввиду некоторых закономерностей и могут быть скомпенсированы другой имеющейся в выборке информацией. Анализ исходных данных[7], проведенный посредством первичного построения ДК, выявил статистически значимые независимые переменные по критерию Хи-квадрат Пирсона, а затем, среди них с использованием подхода, изложенного в [8], осуществлялся анализ и отбор подгрупп переменных, в которых присутствуют одинаковые элементы пропусков в данных. В результате, были выбраны независимые переменные: «К какой социальной группе вы относитесь?»,измеренные в порядковой шкале и: «Работаете ли Вы в настоящее время?» в дихотомической шкале. Таким образом, присутствие в наборе данных о социальной принадлежности и работе респондентов позволяет объяснить повышенную вероятность пропусков (неопределившихся респондентов) и применять математические методы для восстановления пропусков.

С использованием двух выбранных ранее независимых переменных было выполнено повторное построение ДК. Для оценки пригодности полученной модели дерева необходимо использовать показатель «Риск» [4] и, в результате эксперимента, проведенная оценка риска показала, что примерно в 43-44 процентах неверно будут предсказываться наблюдения, что является допустимым показателем (менее 50 %).

После построения модели дерева необходимо сформировать таблицу сопряженности по отобранным независимым переменным. В качестве исходных данным выбираются только те строки массива, которые содержат неопределившихся респондентов. Далее, путем перебора всех комбинаций вариантов ответов независимых переменных отбираются комбинации, имеющие наибольшее число неопределившихся респондентов. После нахождения этих комбинаций и соотнесения с нужным узлом модели ДК, полученное количество неопределившихся респондентов перераспределяется в процентном соотношении по кандидатам узла (зависимой переменной). На исследуемых данных после подсчета и перераспределения пропусков количество неопределившихся респондентов сократилось на 68 %.

В результате проведенных исследований, была предложена методика восстановления пропусков в социологических данных с использованием метода ДК (рис. 1).

ш

Анализ зависимой переменной на наличие пропусков

И

Определение типа пропусков (проверка на случайность MCAR)

т

Приведение неслучайных (NMAR) к случайным (MAR)

3.1 | Выбор статистически значимых независимых переменных по критерию Хи-квадрат Пирсона

3.2 I Выбор независимых переменных, коррелируемых с зависимой

переменной

4 Построение дерева классификации по выбранным переменным

i

5 Подсчет пропусков по разным сочетаниям профилей групп

_*_

Построение прогнозных оценок с учетом перераспределения неопределившихся респондентов

Рисунок 1 - Методика восстановления пропусков в социологических данных с использованием метода деревьев классификации

Для оценки возможности использования ДК по повышению точности прогнозирования, по сравнению с методом МИ, были использованы данные социологических опросов по 10 субъектам. Оценка точности восстановления зависимой переменной в работе была осуществлена путем использования показателя: максимальная ошибка (МО), вычисляемый согласно выражению 1:

МО = 8Цр( Г; - Я; |) , (1)

Сравнение результатов, полученн

где п- процент, набранных /'-ой категорией зависимой переменной по данным с восстановленными значениями; Я/ - процент, набранных -ой категорией зависимой переменой в исходных данных.

Результаты проведенного эксперимента представлены в таблице 1, где использованиеметода ДК позволило повысить точность прогнозирования по сравнению с методом МИ по сумме МО всех субъектов и по МО в шести из десяти субъектах.

Таблица 1

с использованиемметодов МИ и ДК

Субъект РФ 1 2 3 4 5 6 7 8 9 10 сумма

МО, % методика с использованием МИ 4,43 5,06 2,86 7,53 2,67 4,88 6,39 5,21 4,32 5,47 ^ 48,82

МО, % методика с использованием ДК 4,12 5,10 1,21 6,04 2,68 4,96 4,08 4,8 4,72 3,53 ^ 41,24

Улучшение прогноза + - + + - - + + - +

Заключение. В результате проведенного исследования нами разработана методика, позволяющая перераспределить не определившихся респондентов с использованием метода деревьев классификации(ДК) и включающая в себя - процедуры:

- анализа зависимой переменной («Кандидат») на наличие пропусков MCAR, MAR и NMAR;

- приведения пропусков NMAR к MAR путем отбора независимых переменных с использованием подхода [8];

- построения дерева классификации;

- подсчета пропусков по разным сочетаниям групп и построения прогнозных оценок с учетом перераспределения не определившихся респондентов.

Для оценки возможности использования ДК по повышению точности прогнозирования проводился ряд экспериментов, которые показали следующие результаты: количество неопределившихся респондентов сократилось на 68 %; суммарная МО с использованием метода ДК по сравнению с методом МИ уменьшилась на 7,58 %

Литература:

1. Афанасьев В.В. Алгоритм перераспределения неопределившихся респондентов на основе мультиномиальной логистической регрессии /

B.В. Афанасьев, В.А. Благий, А.А. Воробьев // Вестник Евразийской науки. 2019. № 3. URL : https://esj.today/PDF/30ITVN319.pdf (доступ свободный).

2. Воробьев А.А. Исследование возможностей математических методов по восстановлению пропусков в номинативных социологических данных /

A.А. Воробьев [и др.] // Системы управления и информационные технологии. 2020. № 2(80).

C. 93-97.

3. Ротмистров А.Н. Логистическая регрессия с категориальными предикторами и эффектами взаимодействия и CHAID: сравнительный анализ на эмпирическом примере / А.Н. Ротмистров, П.А. Жидкова // Социология: методология, методы, математическое моделирование. 2016. № 43. С. 63-99.

4. Жучкова С.В. Возможность работы с пропущенными данными при использовании CHAID: результаты статистического эксперимента / С.В. Жучкова, А.Н. Ротмистров // Социология: 4М. 2018. № 46. С. 85-121.

5. Зангиева И.К. Проблема пропусков в социологических данных: смысл и подходы к решению / И.К. Зангиева // Социология: 4М. 2011. № 33. С. 28-56.

6. Воробьев А.А. Программный модуль обработки результатов социологических исследований и построения прогнозных оценок на основе метода логистической регрессии / А.А. Воробьев,

B.А. Благий (дата регистрации 18.06.2019).

7. ВЦИОМ. URL : https://bd.wciom.ru/prognozy

8. Enders C. Applied Missing Data Analysis /

C. Enders // Methodology in the Social Sciences, 2010. 377 p.

Literature:

1. Afanasyev V. V. Algorithm for the redistribution of undecided respondents based on multinomial logistic regression / V.V. Afanasyev, V.A. Blagiy, A.A. Voro-biev // Bulletin of Eurasian Science. 2019. № 3, https://esj.today/PDF/30ITVN319.pdf (free access).

2. Vorobiev A.A. Investigation of the possibilities of mathematical methods to restore gaps in nominative sociological data / A.A. Vorobiev [et al.] // Control systems and information technology. 2020. № 2(80). P. 93-97.

3. Rotmistrov A.N. Logistic regression with categorical predictors and interaction effects and CHAID: comparative analysis on an empirical example / A.N. Rotmistrov, P.A. Zhidkova // Sociology: methodology, methods, mathematical modeling. 2016. № 43. P. 63-99.

4. Zhuchkova S.V. Ability to work with missing data when using CHAID: results of a statistical experiment /

5.V. Zhuchkova, A.N. Rotmistrov // Sociology: 4M. 2018. № 46. P. 85-121.

5. Zangieva I.K. The problem of gaps in sociological data: meaning and approaches to solution / I.K. Zangieva / Sociology 4М. 2011. № 33. P. 28-56.

6. Vorobyov A.A. Program module for processing the results of sociological studies and constructing forecast estimates based on the logistic regression method / A.A. Vorobyov, V.A. Blagiy (registration date 18.06.2019).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

7. VTsIOM. URL : https://bd.wciom.ru/prognozy

8 . Enders C. Applied Missing Data Analysis / C. Enders // Methodology in the Social Sciences, 2010. 377 p.

RESEARCH OF THE POSSIBILITIES OF THE TREES CLASSIFICATION METHOD FOR RESTRICTING UNCERTAIN RESPONDENTS

Текст научной работы на тему «ИССЛЕДОВАНИЕ ВОЗМОЖНОСТЕЙ МЕТОДА ДЕРЕВЬЕВ КЛАССИФИКАЦИИ ПО ПЕРЕРАСПРЕДЕЛЕНИЮ НЕОПРЕДЕЛИВШИХСЯ РЕСПОНДЕНТОВ»