Б01: 10.15593/2224-9354/2021.1.7 УДК 303.425.6:303.446
Е.Е. Фомина
СРАВНИТЕЛЬНЫЙ АНАЛИЗ МЕТОДОВ ИМПУТАЦИИ КАТЕГОРИАЛЬНЫХ ПЕРЕМЕННЫХ В МАССИВАХ С РЕЗУЛЬТАТАМИ СОЦИОЛОГИЧЕСКИХ ОПРОСОВ
Работа с массивами категориальных переменных довольно распространена в социологических исследованиях. В частности, при анализе результатов опросов и анкетирований приходится иметь дело с базами данных, переменные в которых представлены в номинальной, порядковой или дихотомической шкале. На этапе обработки таких данных может возникнуть ситуация, когда исходная таблица содержит пропуски, что может стать существенным препятствием для применения ряда математических методов. Решением этой проблемы является импутация или восстановление пропущенных значений. На сегодняшний день разработано достаточно большое количество методов импутации, многие из которых могут применяться только для восстановления значений интервальных переменных. В настоящей статье рассмотрена проблема восстановления отсутствующих значений в массивах категориальных признаков. В работе проведен сравнительный анализ трех методов: метода замены мерой средней тенденции, нейронных сетей, деревьев классификации (на базе алгоритма СИДЮ). В вычислительном эксперименте участвовали выборки с номинальными и порядковыми переменными с различным числом градаций, а также выборки с дихотомическими переменными. Оценка эффективности того или иного метода производилась по алгоритму, который включал в себя следующие этапы: формирование подвыборки с комплектными записями; генерация пропусков в одной из переменных; импутация значений этой переменной; расчет и анализ показателей эффективности. Было установлено, что наименее эффективен метод замены мерой средней тенденции, так как импутация этим методом искажает структуру выборки. Наилучшие результаты показал метод деревьев классификаций, которому соответствуют наиболее высокие показатели эффективности. Показатели импутации, полученные после применения нейронных сетей, близки к показателям, рассчитанным после применения деревьев классификации, однако недостатком метода являются значительные временные затраты на настройку параметров сети в случае выборок большого объема.
Ключевые слова: импутация пропущенных значений, категориальные переменные, деревья классификации, нейронные сети.
Введение. В настоящее время оценка общественного мнения по вопросам проводимой политики, состояния экономической ситуации, работы тех или иных общественных институтов базируется на данных социологических опросов. Многие компании прибегают к соцопросам для того, чтобы понять отношение респондентов к предлагаемым продуктам и услугам.
Хотя опросы не являются инструментом управления, они помогают выявить «сильные» и «слабые» стороны проводимых преобразований, проанализировать отношение к поставленным вопросам и проблемам, выработать дальнейший алгоритм действий.
© Фомина Е.Е., 2021
Фомина Елена Евгеньевна - канд. техн. наук, доцент кафедры информатики и прикладной математики ФГБОУ ВО «Тверской государственный технический университет», е-mail: [email protected].
Применение современных информационных технологий при организации опросов дает возможность проанализировать мнение большого количества респондентов, относящихся к разным группам по уровню образования, дохода, проживающих в разных регионах и типах населенных пунктов.
Таким образом, если вопросы и варианты ответов сформулированы корректно, то полученные результаты будут достаточно достоверно отражать картину исследуемой проблематики.
Следующим этапом после сбора данных является этап обработки полученной информации с применением статистических методов и здесь может возникнуть проблема неполноты представленных данных, связанная с частичными пропусками при ответе на некоторые вопросы [1]. Выборка с абсолютно полными наблюдениями - эталонный вариант, который практически никогда не встречается на практике. Наличие пропусков в массивах первичных данных встречается практически в каждом исследовании [2].
Причины пропусков могут быть связаны с некомпетентностью респондента в вопросе исследования или нежеланием отвечать на тот или иной вопрос; неправильно составленными вопросами или некорректными (неполными) вариантами ответов. Пропуски могут являться результатом технической ошибки при вводе данных.
Согласно общепринятой классификации типов пропусков, предложенной в работе [3], выделяют:
1. Полностью случайные пропуски - пропуски, вероятность возникновения которых не зависит как от истинного ответа, так и от других вопросов, представленных в анкете. Неответ на какой-либо вопрос является случайным, если он равновероятен для всех групп респондентов, на которые можно разбить выборку по этому вопросу и не зависит от других характеристик. Полностью случайные пропуски не приводят к смещению результатов анализа данных.
2. Частично случайные пропуски - пропуски, обусловленные влиянием других переменных, но не зависящие от переменной, значение которой пропущено. Например, для женщин пропуск ответа на вопрос о возрасте наиболее характерен, чем для мужчин.
3. Неслучайные пропуски - пропуски, которые возникают в том случае, если ответ или неответ на вопрос зависит от смысла самого вопроса. Например, респонденты с высоким уровнем дохода часто пропускают ответ на этот вопрос, боясь, что информация может оказаться в открытом доступе. Наличие неслучайных пропусков является для исследователя сигналом того, что необходима доработка инструментария сбора данных.
Таким образом, на подготовительном этапе исследования необходимо произвести восстановление, или импутацию пропущенных значений, так как многие статистические методы предполагают работу с полными массивами данных. Основная задача импутации - восстановление первоначальной структуры данных, которая могла наблюдаться в случае отсутствия пропусков.
Восстановление данных возможно в том случае, когда пропуски соответствуют первому или второму типу.
В настоящее время разработано достаточно большое количество алгоритмов импутации [4-6]. Однако одной из особенностей базы анкетных данных является тот факт, что обрабатываемые переменные представлены в номинальной, порядковой или дихотомической шкале, что накладывает ограничения на применяемые математические методы [7-9].
В связи с этим возникает проблема выбора наиболее эффективного алгоритма импутации, подходящего для обработки переменных такого типа.
Цель настоящего исследования - провести сравнительный анализ методов импутации, которые могут быть применены для восстановления пропущенных значений в массивах категориальных переменных.
В статье описаны результаты вычислительных экспериментов с применением метода замены мерой средней тенденции, нейронных сетей и деревьев классификации для выборок с различными исходными данными и различным процентом пропущенных значений.
Оценка эффективности метода проводилась по следующему алгоритму:
1) формировался массив записей, не содержащих пропущенных значений, путем исключения некомплектных наблюдений из выборки;
2) генерировались пропущенные значения в импутируемой переменной (процент пропущенных значений в серии экспериментов составлял 5, 20, 60 или 90 %);
3) пропущенные значения поочередно восстанавливались с использованием разных методов: метода замены мерой средней тенденции, деревьев классификации и нейронных сетей;
4) рассчитывались характеристики полученных выборок (процент неверно импутированных значений, средняя абсолютная погрешность и коэффициент вариации), на основании которых делался вывод об эффективности того или иного метода в данном исследовании.
Вычислительные эксперименты проводились на 50 выборках с разным объемом и различным числом градаций категориальных переменных.
В статье для примера приводятся результаты восстановления пропущенных значений для трех выборок: VI - выборка объемом 36 836 значений, им-путируемая переменная (у1) дихотомическая; VI - выборка объемом 36 000 значений, импутируемая переменная (у2) номинальная (принимает 8 значений); V3 - выборка объемом 36 500 значений, импутируемая переменная (у3) порядковая (принимает 16 значений)
Методы исследования. Описание результатов. Импутация с использованием меры средней тенденции. Данный метод является самым простым в реализации и не требует специального программного обеспечения, что является его главным достоинством. Сущность метода заключается в том, что про-
пущенные значения заполняются подходящими мерами средней тенденции, рассчитанными по набору комплектных записей. В частности для номинальной переменной на место пропуска подставляется мода, для порядковых - мода или медиана.
Во всех вычислительных экспериментах метод показал достаточно высокий процент неверно восстановленных значений. Кроме того, импутация методом замены мерой средней тенденции значительно искажает структуру выборки, в большинстве случаев уменьшая дисперсию, что приводит к недооценке ее неоднородности.
Приведем результаты вычислительных экспериментов для выборок VI, VI и V3. Как можно видеть из табл. 1, при восстановлении пропусков с использованием меры средней тенденции процент неверно восстановленных значений для дихотомической переменной VI находится в пределах от 48 до 50 %. Для номинальной переменной VI - в пределах от 57 до 62 %. Для порядковой переменной v3 - в пределах от 81 до 92 %.
Таблица 1
Процент неверно импутированных значений (способ - замена мерой средней тенденции)
Выборка Процент пропущенных значений
5 % 20 % 60 % 90 %
VI 50,01 % 50,13 % 48,04 % 49,02 %
VI 57,12 % 58,35 % 61,22 % 62,16 %
V3 82,25 % 82,11 % 82,02 % 92,33 %
Наряду с процентом неверно импутированных значений была рассчитана средняя абсолютная погрешность. В случае анализа порядковых переменных средняя абсолютная погрешность позволит оценить степень близости восстановленной категории к истинному значению. В случае анализа номинальных и дихотомических переменных эта степень близости не существенна, так как категории переменной представлены без естественного упорядочения. Данный показатель был рассчитан с целью статистической оценки эффективности метода.
Установлено, что чем выше число градаций переменных, тем средняя абсолютная погрешность больше. Так, например, для переменной v2, имеющей 8 градаций, средняя абсолютная погрешность не превосходит 0,81 (т.е. при восстановлении возможно отклонение от истинного значения в среднем на одну категорию). А для переменной v3 (16 градаций) погрешность изменялась от 2,07 (5 % пропусков) до 5,13 (90 % пропусков) (табл. 2).
Кроме того, импутация методом замены мерой средней тенденции приводит к значительному изменению структуры выборки (табл. 3). В большинстве случаев импутация ведет к недооценке неоднородности, однако в ряде случаев наблюдался значительный рост коэффициента вариации. Этот эффект был характерен для переменных с большим числом градаций, когда процент пропус-
ков достаточно высок. Так, например, для переменной уЗ при восстановлении 90 % пропущенных значений коэффициент вариации увеличился почти в семь раз (см. табл. 3).
Таблица 2
Абсолютная погрешность (способ - замена мерой средней тенденции)
Выборка Процент пропущенных значений
5 % 20 % 60 % 90 %
V1 0,49 0,49 0,48 0,48
V2 0,72 0,73 0,81 0,70
V3 2,07 2,07 2,40 5,13
Таблица 3
Коэффициент вариации выборки с импутированными значениями (способ - замена мерой средней тенденции)
Выборка Коэффициент вариации исходной выборки Процент пропущенных значений
5 % 20 % 60 % 90 %
V1 35% 34,30 % (-0,7 %) 32,20 % (-2,8 %) 23,10 % (-11,9 %) 11,01 % (-23,99 %)
V2 38% 37,12 % (-0,88 %) 36,00 % (-2 %) 29,12 % (-8,88 %) 17,15 % (-20,85 %)
V3 53% 52,03 % (-0,97 %) 48,01 % (-4,99 %) 34 % (-19 %) 388,00 % (+335 %)
Импутация с использованием деревьев классификации. Деревья классификации - это метод, позволяющий решать задачи классификации объектов по группам в случае категориального отклика или задачи прогнозирования, в случае количественного отклика [10, 11].
В качестве исходных данных метода выступает таблица, содержащая значения набора признаков некоторой совокупности объектов. Один из признаков содержит классы, к которым относятся объекты. Данный признак называется зависимым (зависимая переменная). Остальные признаки (независимые) позволяют прогнозировать принадлежность объектов к тому или иному классу.
В данном методе для решения задачи импутации в качестве зависимой переменной выступает категориальная переменная, содержащая пропуски. Зависимая переменная может принимать ограниченный набор целочисленных значений, которые могут рассматриваться как классы. Переменные без пропущенных значений используются для построения правил прогнозирования, которые позволяют выявить закономерность и импутировать значения зависимой переменной.
На сегодняшний день разработано несколько алгоритмов построения дерева. Для импутации категориальных переменных в исследовании использовался алгоритм CHAID (Chi Squared Automatic Interaction Detection). Этот метод обладает рядом существенных преимуществ: он является универсальным и
обрабатывает переменные в любых шкалах; не накладывает ограничения на закон распределения величин; результаты, полученные в ходе применения метода, легко интерпретируются исследователем.
Согласно данному алгоритму, при построении дерева на каждом шаге выбирается та независимая переменная (предиктор), которая максимально дифференцирует зависимую (отклик). Для этого рассчитывается статистика хи-квадрат или отношение правдоподобия между откликом и каждым предиктором. Предиктор, для которого величина значимости (р-значение) минимальна, выбирается в качестве разделяющего для составления решающего правила. Далее исследуется каждая категория выбранной независимой переменной, на основании этого исследования формируется первый узел дерева и составляется решающее правило. Процесс разбиения продолжается до тех пор, пока не будет выполнено условие остановки ветвления [12-14].
Данный метод реализован в пакете статистической обработки данных 8ТЛТ18Т1СЛ, который использовался в качестве инструмента исследования [15-17].
Импутация с использованием алгоритма СНАГО позволяет сократить процент неверно восстановленных значений по сравнению с предыдущим методом. В качестве примера в табл. 4 приводятся данные по выборкам VI, VI и V3.
Таблица 4
Процент неверно импутированных значений (способ - деревья классификации, алгоритм СНАГО)
Выборка Процент пропущенных значений
5 % 20 % 60 % 90 %
VI 45,50 % 45,14 % 44,40 % 44,12 %
VI 57,11 % 55,02 % 58,02 % 58,04 %
V3 71,90 % 71,61 % 69,61 % 68,71 %
Импутация с использованием алгоритма СНАГО позволила сократить среднюю абсолютную погрешность, по сравнению с методом замены мерой средней тенденции. Так, например, для переменной уЗ погрешность, рассчитанная после импутации методом замены средней тенденции, изменялась от 2,07 до 5,13 (см. табл. 2), а после применения метода деревьев классификации изменяется от 1,72 до 1,85 (табл. 5).
Таблица 5
Абсолютная погрешность (способ - деревья классификации, алгоритм СНАГО)
Выборка Процент пропущенных значений
5 % 20 % 60 % 90 %
VI 0,45 0,45 0,44 0,44
V2 0,69 0,66 0,71 0,70
V3 1,73 1,85 1,79 1,72
Установлено, что средняя абсолютная погрешность увеличивается с увеличением числа градаций восстанавливаемой переменной (см. табл. 5).
Важно отметить, что при импутации с использованием деревьев классификации коэффициент вариации исходной выборки и выборок с восстановленными значениями близки, т.е. метод не приводит к значительным смещениям в структуре (табл. 6).
Таблица 6
Коэффициент вариации выборки с импутированными значениями (способ - деревья классификации, алгоритм СНАГО)
Выборка Коэффициент вариации исходной выборки П роцент пропущенных значений
5 % 20 % 60 % 90 %
VI 35 % 34,6 % (-0,4 %) 34,9 % (-0,1 %) 36,9 % (+1,9 %) 32,0 % (-3 %)
V2 38 % 37,6 % (-0,4 %) 37,8 % (-0,2 %) 37,7 % (-0,3 %) 39,7 % (+1,7 %)
V3 53 % 53,1 % (+0,1 %) 54,4 % (+1,4 %) 56,3 % (+3,3 %) 77,6 % (+24,6 %)
Импутация с использованием нейронных сетей. Искусственные нейронные сети (ИНС) - математические модели и их программные или аппаратные реализации, построенные по принципу организации и функционирования биологических нейронных сетей [18-20].
ИНС обрабатывает входную информацию, которая представляет собой таблицу, содержащую значения некоторого количества переменных (признаков), и формирует совокупность выходных сигналов, решая таким образом задачи прогнозирования или задачи классификации [21-23].
Все модели ИНС в процессе своего построения требуют обучения (с учителем, без учителя или смешанное обучение) и настройку весовых коэффициентов.
Для решения задачи импутации была выбрана ИНС прямого распространения или многослойный персептрон. Входной сигнал в такой сети распространяется в прямом направлении, от слоя к слою. Многослойный персептрон включает в себя следующие элементы: входной слой нейронов; несколько скрытых вычислительных слоев; выходной слой. Каждый слой ИНС может иметь произвольное число нейронов. В качестве метода обучения использовался алгоритм обратного распространения ошибки [24, 25].
Результаты импутации с использованием ИНС близки к результатам, полученным при применении алгоритма СНАГО, однако в большинстве случаев незначительно уступают по всем анализируемым показателям эффективности.
Для примера в табл. 7-9 представлены результаты для выборок VI, VI и V3.
Таблица 7
Процент неверно импутированных значений (способ - нейронные сети)
Выборка Процент пропущенных значений
5 % 20 % 60 % 90 %
VI 48,10 48,10 47,92 47,91
¥2 58,70 58,31 60,92 60,92
V3 82,41 81,71 81,70 81,31
Таблица 8
Абсолютная погрешность (способ - нейронные сети)
Выборка Процент пропущенных значений
5 % 20 % 60 % 90 %
VI 0,48 0,48 0,48 0,48
¥2 0,70 0,71 0,76 0,75
¥3 2,13 2,17 2,20 2,16
Таблица 9
Коэффициент вариации выборки с импутированными значениями (способ - нейронные сети)
Выборка Коэффициент вариации Процент пропущенных значений
исходной выборки 5 % 20 % 60 % 90 %
VI 35 % 34,60 34,90 36,90 32,00
(-0,4) (-0,1) (+1,9) (-3)
¥2 38 % 37,60 37,80 37,70 39,70
(-0,4) (-0,2) (-0,3) (+1,7)
V3 53 % 53,10 54,40 56,30 77,60
(+0,1) (+1,4) (+3,3) (+24,6)
Выводы. Целью исследования являлся сравнительный анализ методов импутации категориальных переменных. Для восстановления пропущенных значений были выбраны такие методы, как замена мерой средней тенденции, деревья классификации (на базе алгоритма СНАГО), нейронные сети.
Предметом исследования являлись выборки с дихотомическими, номинальными и порядковыми переменными, содержащими от 5 до 90 % пропущенных значений.
Метод деревьев классификации на базе алгоритма СНАГО позволил получить наилучшие результаты в 90% исследуемых случаях. Восстановление пропусков этим методом позволило получить наименьший процент неверно импутированных значений и наименьшую среднюю абсолютную погрешность. Кроме того, метод не приводит к искажению структуры выборки (рис. 1-3).
Импутация нейронными сетями позволяет получить схожие результаты. Анализируемые показатели, в большинстве случаев, близки к показателям,
рассчитанным после применения деревьев классификации. Единственным недостатком являются значительные временные затраты на построение и анализ сетей (см. рис. 1-3).
Наименее эффективным является метод замены мерой средней тенденции. Ему соответствуют наибольший процент неверно восстановленных значений, наибольшая средняя абсолютная погрешность. Также применение данного метода существенно искажает структуру выборки, приводя в большинстве случаев, к недооценке ее неоднородности (см. рис. 1-3).
50% 100% 0% 50% 100% 0% 50% 100%
Замена мерой средней тенденции ■ Деревья классификации ...... Нейронные сети
Рис. 1. Процент неверно импутированных значений
0% 50% 100% 0% 50%
Замена мерой средней тенденции —— Деревья классификации
Рис. 2. Средняя абсолютная погрешность
Рис. 3. Коэффициент вариации
Список литературы
1. Фомина Е.Е. Подготовка и анализ результатов анкетирования с применением математических методов // Социосфера. - 2018. - № 2. - С. 194-198.
2. Зангиева И.К. Проблема пропусков в социологических данных: смысл и подходы к решению // Социология: методология, методы, математическое моделирование. - 2011.- № 33.- С. 28-56.
3. Литтл Р.Дж.А., Рубин Д.Б. Статистический анализ данных с пропусками: пер. с англ. - М.: Финансы и статистика, 1990. - 336 с.
4. Фабрикан М.С. Модель-ориентированный подход к отсутствующим значениям: множественная импутация в многоуровневой регрессии посредством R (на примере анализа опросных данных) // Социология: методология, методы, математическое моделирование. - 2015. - № 41. - С. 7-29.
5. Мартышенко С.Н. Методы восстановления пропусков в данных, представленных в различных измерительных шкалах // Территория новых возможностей. Вестник Владивостокского государственного университета экономики и сервиса. - 2013. - № 4 (22). - С. 242-255.
6. Абраменкова И.В., Круглов В.В. Методы восстановления пропусков в массивах данных // Программные продукты и системы. - 2005. - № 2. - С. 4.
7. Исследование возможностей математических методов по восстановлению пропусков в номинативных социологических данных / А.А. Воробьев, А.А. Воронецкий, А.И. Азрапкин, Е.Д. Белоножко // Системы управления и информационные технологии. - 2020. - № 2 (80). С. 93-97.
8. Кутлалиев А.Х. Метод множественного восстановления данных // Социологические методы в современной исследовательской практике: сб.ст., посвященных памяти А О. Крыштановского. - М.: Изд. дом НИУ ВШЭ, 2011. - С. 201-207.
9. Татарова Г.Г., Бессокирная Г.П. Предметно-ориентированный подход к «борьбе» с пропущенными данными в типологическом анализе // Социологические исследования. - 2017. - № 12 (404). - С. 42-54.
10. Фомина Е.Е. Возможности метода деревьев классификации при обработке социологической информации // Гуманитарный вестник. - 2018. -№ 11 (73). - С. 5.
11. Бова А. Деревья решений как техника добычи данных // Социология: теория, методы, маркетинг. - 2002. - № 1. - С. 128-136.
12. Жучкова С.В., Ротмистров А.Н. Возможность работы с пропущенными данными при использовании CHAID: результаты статистического эксперимента // Социология: методология, методы, математическое моделирование. -2018. - № 46. - С. 85-122.
13. Деревья классификации [Электронный ресурс] / Лаборатория статистических исследований Кубанского государственного университета. - URL: http://www.statlab.kubsu.ru/sites/project_bank/trees.pdf (дата обращения: 17.09.2018).
14. Деревья классификации. Основные идеи [Электронный ресурс] // StatSoft. Электронный учебник по статистике. - URL: http://statsoft.ru/home/ textbook/modules/ stclatre.html (дата обращения: 17.09.2018).
15. Боровиков В. STATISTICA. Искусство анализа данных на компьютере. - СПб.: Питер, 2003. - 688 с.
16. Фомина Е.Е. Обзор методов и программного обеспечения для восстановления пропущенных значений в массивах социологических данных // Гуманитарный вестник. - 2019. - № 4 (78). - С. 10.
17. Шимохин А.В., Воробьев Д.А. Применение Statistica 13 - Automated Neural Networks в обучении нейросетевому моделированию обучающихся на экономических направлениях [Электронный ресурс] // Электронный научно-методический журнал Омского ГАУ. - 2018. - №4 (15). - С. 19.
18. Ростовцев В.С. Искусственные нейронные сети: учебник. - Киров: Изд-во ВятГУ, 2014. - 208 с.
19. Землянская С.Ю., Сложеницын А.В., Андриевская Н.К. Структура модели для прогнозирования поведения групп лиц // Информатика и кибернетика. - 2016. - № 4 (6). - С. 37-43.
20. Хайкин C. Нейронные сети: полный курс: пер. с англ. - 2-е изд. - М.: Вильямс, 2006. - 1104 с.
21. Сташкова О.В., Шестопал О.В. Использование искусственных нейронных сетей для восстановления пропусков в массиве исходных данных // Известия вузов. Северо-Кавказский регион. Технические науки. - 2017. -№ 1. - С. 37-42.
22. Великанова Л.И., Лыченко Н.М. Восстановление пропусков в температурных временных рядах на базе нейросетевых моделей // Проблемы автоматики и управления. - 2018. - № 2 (35). - С. 51-58.
23. Снитюк В.Е. Эволюционный метод восстановления пропусков в данных // Интеллектуальный анализ информации: сб. тр. VI Междунар. конф. - Киев, 2006. - С. 262-271.
24. Шматов Г.П., Фомина Е.Е. Нейронные сети и генетический алгоритм: учеб. пособие / Твер. гос. техн. ун-т. - Тверь, 2019. - 200 с.
25. Осовский С. Нейронные сети для обработки информации / пер. с пол. И.Д. Рудинского. - М.: Финансы и статистика, 2002. - 344 с.
References
1. Fomina E.E. Podgotovka i analiz rezul'tatov anketirovaniia s primeneniem matematicheskikh metodov [The potential of the method of classification trees in the sociological information processing]. Sociosphere, 2018, no. 2, pp. 194-198.
2. Zangieva I.K. Problema propuskov v sotsiologicheskikh dannykh: smysl i podkhody k resheniiu [The problem of missing values in sociological data: Essence
and solution methods]. Sociology: Methodology, Methods, Mathematical Modeling, 2011, no. 33, pp. 28-56.
3. Little R.J.A., Rubin D.B. Statistical analysis of data with omissions (Russ. ed.: Littl R.Dzh.A., Rubin D.B. Statisticheskii analiz dannykh s propuskami. Moscow, Finansy i statistika, 1990, 336 p.).
4. Fabrikan M.S. Model'-orientirovannyi podkhod k otsutstvuiushchim znacheniiam: mnozhestvennaia imputatsiia v mnogourovnevoi regressii posredstvom R (na primere analiza oprosnykh dannykh) [Model-oriented approach to missing values: Multiple imputation in multilevel regression using R (on the example of analyzing survey data)]. Sociology: Methodology, Methods, Mathematical Modeling, 2015, no. 41, pp. 7-29.
5. Martyshenko S.N. Metody vosstanovleniia propuskov v dannykh, predstavlennykh v razlichnykh izmeritel'nykh shkalakh [Methods of restoration of admissions in the data presented in various measuring scales]. Territoriia novykh vozmozhnostei. Vestnik Vladivostokskogo gosudarstvennogo universiteta ekonomiki i servisa, 2013, no. 4 (22), pp. 242-255.
6. Abramenkova I.V., Kruglov V.V. Metody vosstanovleniia propuskov v massivakh dannykh [Methods for recovering gaps in data arrays]. Programmnye produkty i sistemy, 2005, no. 2, pp. 4.
7. Vorob'ev A.A., Voronetskii A.A., Azrapkin A.I., Belonozhko E.D. Issledovanie vozmozhnostei matematicheskikh metodov po vosstanovleniiu propuskov v nominativnykh sotsiologicheskikh dannykh [Research on mathematical methods ways for restoring gaps in nominative sociological data]. Sistemy upravleniia i informatsionnye tekhnologii, 2020, no. 2 (80), pp. 93-97.
8. Kutlaliev A.Kh. Metod mnozhestvennogo vosstanovleniia dannykh [Multiple data recovery method]. Sotsiologicheskie metody v sovremennoi issledovatel'skoi praktike. Moscow, HSE, 2011, pp. 201-207.
9. Tatarova G.G., Bessokirnaia G.P. Predmetno-orientirovannyi podkhod k "bor'be" s propushchennymi dannymi v tipologicheskom analize [A subject-oriented approach to "combating" missing data in typological analysis]. Sociological Studies, 2017, no. 12 (404), pp. 42-54.
10. Fomina E.E. Vozmozhnosti metoda derev'ev klassifikatsii pri obrabotke sotsiologicheskoi informatsii [The potential of the method of classification trees in the sociological information processing]. Gumanitarnyi vestnik, 2018, no. 11 (73), pp.
11. Bova A. Derev'ia reshenii kak tekhnika dobychi dannykh [Decision trees as a data mining technique]. Sotsiologiia: teoriia, metody, marketing, 2002, no. 1, pp. 128-136.
12. Zhuchkova S.V., Rotmistrov A.N. Vozmozhnost' raboty s propushchennymi dannymi pri ispol'zovanii CHAID: rezul'taty statisticheskogo eksperimenta [Handling missing data with CHAID: Results of a statistical experiment]. Sotsiologiia: metodologiia, metody, matematicheskoe modelirovanie, 2018, no. 46, pp. 85-122.
13. Derev'ia klassifikatsii [Classification trees]. Available at: http://www.statlab. kubsu.ru/sites/project_bank/trees.pdf (accessed 17.09.2018).
14. Derev'ia klassifikatsii. Osnovnye idei [Classification trees. Main ideas]. Available at: http://statsoft.ru/home/textbook/modules/stclatre.html (accessed 17.09.2018).
15. Borovikov V. STATISTICA. Iskusstvo analiza dannykh na komp'iutere [STATISTICA. The art of data analysis on a computer]. Saint Petersburg, 2003, 688 p.
16. Fomina E.E. Obzor metodov i programmnogo obespecheniia dlia vos-stanovleniia propushchennykh znachenii v massivakh sotsiologicheskikh dannykh [Review of software and methods for recovering missing values in sociological data sets]. Gumanitarnyi vestnik, 2019, no. 4 (78).
17. Shimokhin A.V., Vorob'ev D.A. Primenenie Statistica 13 - Automated Neural Networks v obuchenii neirosetevomu modelirovaniiu obuchaiushchikhsia na ekonomicheskikh napravleniiakh [Application of Statistica 13 - Automated neural Networks for the Economics students in neural network modeling]. Elektronnyi nauchno-metodicheskii zhurnal Omskogo GAU, 2018, no. 4 (15), pp. 19.
18. Rostovtsev V.S. Iskusstvennye neironnye seti [Artificial neural networks]. Kirov, VSU, 2014, 208 p.
19. Zemlianskaia S.Iu., Slozhenitsyn A.V., Andrievskaia N.K. Struktura modeli dlia prognozirovaniia povedeniia grupp lits [Model structure for the people group behavior forecasting]. Informatika i kibernetika, 2016, no. 4(6), pp. 37-43.
20. Haykin S. Neural networks: A complete course. 2nd edition (Russ. ed.: Khaikin C. Neironnye seti: polnyi kurs. 2nd ed., Moscow, Vil'iams, 2006, 1104 p.).
21. Stashkova O.V., Shestopal O.V. Ispol'zovanie iskusstvennykh neironnykh setei dlia vosstanovleniia propuskov v massive iskhodnykh dannykh [Using artificial neural networks for restoration of initial data array]. Izvestiia vuzov. Severo-kavkazskii region. Tekhnicheskie nauki, 2017, no. 1, pp. 37-42.
22. Velikanova L.I., Lychenko N.M. Vosstanovlenie propuskov v temperaturnykh vremennykh riadakh na baze neirosetevykh modelei [Recovery of gaps in temperature time series based on neural network models]. Problemy avtomatiki i upravleniia, 2018, no. 2 (35), pp. 51-58.
23. Snitiuk V.E. Evoliutsionnyi metod vosstanovleniia propuskov v dannykh [An evolutionary method for recovering data gaps]. Intellektual'nyi analiz informatsii. Proceedings of the 6th Int. Conf. Kiev, 2006, pp. 262-271.
24. Shmatov G.P., Fomina E.E. Neironnye seti i geneticheskii algoritm [Neural networks and genetic algorithm]. Tver, Tver State Technical University, 2019, 200 p.
25. Osowsky S. Sieci neuronowe do przetwarzania informacji (Russ. ed.: Osovskii S. Neironnye seti dlia obrabotki informatsii. Moscow, Finansy i statistika, 2002, 344 p.).
Оригинальность 85 %
Получено 16.12.2020 Принято 11.01.2021 Опубликовано 31.03.2021
E.E. Fomina
COMPARATIVE ANALYSIS OF THE METHODS OF CATEGORIAL VARIABLES IMPUTATION IN ARRAYS FOR SOCIOLOGICAL SURVEYS
Using arrays of categorical variables is quite common in sociological research. In particular, when analyzing the results of surveys and questionnaires, one has to deal with databases in which variables are presented in a nominal, ordinal or dichotomous scale. At the stage of processing such data, a situation may arise when the original table contains gaps, which can become a significant obstacle to applying a number of mathematical methods. The solution to this problem is to impute or restore missing values. To date, a fairly large number of methods of imputation have been developed, most of them being of use only to restore the values of interval variables. This article addresses the problem of recovering missing values in arrays of categorical features. In the work, a comparative analysis of three methods is carried out: the method of replacing by a measure of the average trend, neural networks, classification trees (based on the CHAID algorithm). The computational experiment involved samples with nominal and ordinal variables with different numbers of gradations, as well as samples with dichotomous variables. Evaluation of the effectiveness of a particular method was carried out according to an algorithm that included the following steps: forming a subsample with complete records; omission generation in one of the variables; imputation of the values of this variable; calculation and analysis of performance indicators. It was found that the least effective method is replacing by a measure of the average trend, since in this case the imputation distorts the sample structure. The best results were demonstrated by the classification tree method, which corresponds to the highest performance indicators. Imputation indicators obtained by neural networks are close to those acquired by classification trees. The disadvantage of the former is the significant time required to configure the network parameters for a big sample.
Keywords: imputation of missing values, categorical variables, classification trees, neural networks.
Elena E. Fomina - Cand. Tech. Sciences, Associate Professor, Department of Informatics and Applied Mathematics, Tver State Technical University, e-mail: [email protected].
Received 16.12.2020 Accepted 11.01.2021 Published 31.03.2021