Трегубова А. А.
ОПРЕДЕЛЕНИЕ ЦЕЛЕВОЙ ГРУППЫ ПОТРЕБИТЕЛЕЙ УСЛУГ ДОБРОВОЛЬНОГО МЕДИЦИНСКОГО СТРАХОВАНИЯ С ПОМОЩЬЮ ДИСКРИМИНАНТНОГО АНАЛИЗА
При продвижении различных страховых продуктов, в частности, при предложении услуг добровольного медицинского страхования (ДМС), одной из главных задач для любой страховой компании становится определение характеристик потенциальных потребителей страховых услуг.
Целью данного исследования является определение основных характеристик потребителей услуг ДМС. Следует отметить, что не существует единственно верного способа определения групп лиц, на которых должны быть направлены усилия по привлечению к страхованию.
В качестве эмпирической базы исследования были выбраны данные Российского
мониторинга экономического положения и здоровья населения (РМЭЗ). Источником информации для выявления детерминант спроса на услуги ДМС стали данные четырнадцатой волны наблюдения РМЭЗ (2005 год) за индивидами.
Для целей исследования вся совокупность индивидов была разделена на две группы: имеющие и не имеющие полис ДМС. Чтобы определить, какие из характеристик индивида и насколько существенно детерминируют его принадлежность к определенной группе, был проведен дискриминантный анализ, позволивший выделить наиболее информативные объясняющие переменные при классификации наблюдений на две группы.
В качестве объясняющих переменных были отобраны социально-демографические и экономические характеристики индивида (пол, возраст, доход индивида, наличие детей, возраст, тип населенного пункта, занятость трудовой деятельностью, принадлежность к профессиональной группе, брачный статус, образование, наличие пенсии), а также характеристики, описывающие состояние здоровья (наличие проблем со здоровьем, недавняя госпитализация, наличие хронических заболеваний сердца, легких, печени, почек, желудочно-кишечного тракта, позвоночника и других хронических заболеваний, самооценка индивидом своего состояния здоровья, удовлетворенность жизнью, курение).
Дискриминантный анализ позволил принять решение о том, какие характеристики различают (дискриминируют) две эти группы, а также на основе проведенной классификации предсказать, к какой группе будет относиться конкретное наблюдение, в данном случае — будет ли индивид с соответствующими характеристиками иметь полис ДМС.
Пошаговый дискриминантный анализ с включением. Результаты анализа представлены в таблице 1.
Дискриминантный анализ был проведен в 12 шагов. Значение статистики Уилкса лямбда для всей классификации (0,9553) позволяет предположить почти полное отсутствие дискриминации. Значения статистики F(12,2646)=10,317 показывает значимость классификации на высоком уровне значимо-
сти. Согласно значениям F-статистики и p-значениям для каждой переменной в модели можно выделить первые пять переменных, как значимые для дискриминации на более высоком уровне значимости (10%).
Значения толерантности, являющейся мерой избыточности переменной, для каждой из переменных в модели показывают, что переменные не более чем на 10% избыточны с уже включенными переменными, то есть практический вклад каждой переменной в улучшение качества дискриминации весьма значителен.
Частная лямбда Уилкса для каждой переменной в модели позволяет определить одиночный вклад соответствующей переменной в дискриминацию между совокупностями. Чем ниже значение лямбды, тем больше одиночный вклад переменной в степень дискриминации. Согласно полученным результатам наибольший вклад в дискриминацию вносит переменная «логарифм натуральный дохода», проживание в городе — вторая по значению вклада характеристика индивида, меньший вклад оказывает курение индивида, получаемая пенсия и тот факт, что индивид разведен, вносят в общую дискриминацию еще меньший вклад, влияние прочих переменных не так заметно.
Чтобы определить, насколько удачной оказалась проведенная классификация, рассмотрим матрицу классификации (табл. 2), которая представляет собой таблицу сопряженности «Факт-Прогноз».
Таблица 1. Результаты пошагового дискриминантного анализа с включением (группирующая переменная — наличие полиса ДМС)
Переменная Wilks' Lambda Partial Lambda Б- remove р-^е1 То1ег. 1-То1ег.
Логарифм натуральный дохода 0,993424 0,961628 105,5847 0,000000 0,897232 0,102768
Курите 0,957143 0,998079 5,0938 0,024092 0,932764 0,067236
Проживаете в городе 0,957357 0,997855 5,6872 0,017160 0,993326 0,006674
Получаете пенсию 0,956478 0,998773 3,2511 0,071489 0,946433 0,053567
Разведены 0,956454 0,998798 3,1839 0,074480 0,974214 0,025786
Длительность рабочей недели, час 0,956263 0,998997 2,6559 0,103285 0,924317 0,075683
Удовлетворены жизнью 0,956000 0,999272 1,9285 0,165037 0,963055 0,036945
Самооценка здоровья как очень хорошего 0,956091 0,999177 2,1806 0,139883 0,993323 0,006677
Недавняя госпитализация 0,955934 0,999341 1,7456 0,186548 0,996270 0,003730
Занятость в сфере обслуживания 0,956028 0,999243 2,0058 0,156816 0,956019 0,043981
Принадлежность к конторским служащим 0,955783 0,999499 1,3257 0,249668 0,975931 0,024069
Не состоите в браке 0,955750 0,999534 1,2340 0,266740 0,962849 0,037152
Group Percent G 1:0 p=0,95637 G 2:1 p=0,04363
G 1:0 (нет полиса ДМС) 100,0000 2543 0
G 2:1 (есть полис ДМС) 0,0000 116 0
Total 95,6375 2659 0
В среднем процент правильных предсказаний равен 95,64%. При этом в первую группу правильно были классифицированы все наблюдения (процент правильных предсказаний составил 100%), а во вторую группу не было отнесено ни одного наблюдения. Все наблюдения, принадлежащие ко второй группе, были отнесены в первую группу. Априорные вероятности отнесения в первую и вторую группы составили соответственно 0,96 и 0,04.
Одной из причин такой неточной классификации может быть структура имеющейся выборки. Число индивидов, имеющих полис ДМС, очень мало в общем объеме совокупности, при этом значения остальных характеристик индивида могут совпадать для двух выделенных групп. Поскольку переменные, дискриминирующие две группы, не позволили четко отнести к определенному классу то или иное наблюдение, то такие наблюдения были ошибочно отнесены к первой группе.
Следует отметить, что использование результатов классификации не является це-
лесообразным, поскольку прогнозные значения не будут точными. В этом случае можно использовать новую группирующую переменную — частота обращения за медицинской помощью в предположении того, что при росте потребностей индивидов в получении медицинских услуг их заинтересованность в приобретении полисов ДМС также повысится.
Таким образом, был проведен пошаговый дискриминантный анализ с включением с группирующей переменной — частота посещения врача для работающих индивидов (табл. 3). Поскольку при проведении пошагового анализа в модель включались переменные с наибольшим значением F, дающие наиболее значащий единственный вклад в дискриминацию между совокупностями, то значение статистики F для включения было принято равным трем, что позволило оставить в модели наиболее значимо дискриминирующие переменные.
Переменная Wilks' Lambda Partial Lambda F-remove p-level Toler. 1-Toler.
Недавняя госпитализация 0,905814 0,957568 117,1163 0,000000 0,984443 0,015557
Наличие проблем со здоровьем 0,874841 0,991470 22,7377 0,000002 0,853298 0,146703
Самооценка здоровья как плохого 0,875350 0,990894 24,2891 0,000001 0,897512 0,102488
Хроническое заболевание сердца 0,873677 0,992791 19,1906 0,000012 0,924741 0,075259
Другие хронические заболевания 0,872155 0,994524 14,5525 0,000139 0,933250 0,066750
Мужской пол 0,870018 0,996967 8,0403 0,004610 0,880737 0,119263
Наличие инвалидности 0,871993 0,994709 14,0594 0,000181 0,973452 0,026548
Наличие высшего образования 0,869913 0,997087 7,7205 0,005498 0,970849 0,029152
Принадлежность к профессионалам со средним специальным образованием 0,870337 0,996601 9,0132 0,002705 0,949499 0,050501
Принадлежность к конторским служащим 0,870519 0,996393 9,5671 0,002002 0,939949 0,060051
Длительность рабочей недели, час 0,868637 0,998551 3,8341 0,050325 0,942553 0,057447
Самооценка здоровья как очень хорошего 0,868665 0,998520 3,9182 0,047869 0,989443 0,010557
Хроническое заболевание позвоночника 0,868808 0,998355 4,3546 0,037005 0,914897 0,085103
Хроническое заболевание печени 0,868617 0,998575 3,7717 0,052233 0,933435 0,066565
Удовлетворены жизнью 0,868465 0,998750 3,3079 0,069060 0,964242 0,035758
Таблица 3. Результаты пошагового дискриминантного анализа с включением (группирующая переменная — частота обращения за медицинской помощью)
Дискриминантный анализ был завершен на 15 шаге. Значение статистики Уилкса лямбда для всей классификации составило 0,86738, что позволяет предположить наличие слабой дискриминации. Значение статистики Б(15,2643)=26,941 показывает значимость классификации на высоком уровне значимости. Согласно значениям Б-статистики и р-значениям отдельные переменные в модели в целом значимы для дискриминации на уровне значимости 10%.
Значения толерантности для каждой из переменных в среднем находятся в пределах от 0,9 до 0,98, что говорит о том, что включенные переменные не являются избыточными, то есть их вклад в качество дискриминации весьма значителен.
Чтобы определить одиночный вклад соответствующей переменной в дискриминацию между совокупностями можно рассмотреть значения частной лямбды Уилкса. Согласно полученным результатам наибольший вклад в дискриминацию вносит переменная «недавняя госпитализация», следующей по величине вклада характеристикой является самооценка здоровья как плохого, затем — наличие проблем со здоровьем.
В порядке снижения величины вклада в дискриминацию можно выделить следующие характеристики индивида: наличие хронического заболевания сердца и других хронических заболеваний, инвалидности, принадлежность к таким профессиональным группам, как конторские служащие и профессионалы со средним специальным образованием,
пол индивида, наличие у него высшего образования, наличие хронического заболевания позвоночника, самооценка здоровья как очень хорошего, длительность рабочей недели в часах, наличие хронического заболевания печени, удовлетворенность жизнью.
Для того чтобы определить качество проведенной классификации рассмотрим матрицу классификации (табл. 5).
В среднем процент правильных предсказаний составил 92,59%. В первую группу часто посещающих врача правильно было классифицировано 96,9% наблюдений, а во вторую группу — 28,3%. Также стали известны априорные вероятности отнесения наблюдения в соответствующую группу — для первой группы эта вероятность составила 0,94, для второй — 0,06.
Следует отметить, что изучаемая многомерная совокупность не подчиняется нормальному распределению. Однако пренебрежение условием нормальности не является фатальным в том смысле, что результирующие критерии значимости все еще заслуживают доверия. Таким образом, результаты проведенного дискриминантного анализа можно использовать для классификации наблюдений.
Для того чтобы иметь возможность классифицировать наблюдения, можно определить функции классификации (табл. 4), которые вычисляются для каждой совокупности и могут непосредственно применяться для классификации объектов.
Таблица 5. Матрица классификации (группирующая переменная — частота обращения за медицинской помощью)
Group Percent G 1:0 p=0,93757 G 2:1 p=0,06243
G 1:0 (нечасто обращающиеся к врачу) 96,87124 2415 78
G 2:1 (часто обращающиеся к врачу) 28,31325 119 47
Total 92,59120 2534 125
Переменная G_1:0 (нечасто обращающиеся к врачу) G_2:1 (часто обращающиеся к врачу)
1 2 3
Недавняя госпитализация 0,07947 4,8958
Наличие проблем со здоровьем 1,53755 2,5185
Самооценка здоровья как плохого 0,79906 2,8478
Хроническое заболевание сердца 0,74282 2,1187
Другие хронические заболевания 0,91737 1,8143
Таблица 4. Функции классификации (группирующая переменная — частота обращения за медицинской помощью)
1 2 3
Мужской пол 1,12516 0,5993
Наличие инвалидности 0,77300 1,9602
Наличие высшего образования 2,00123 2,5554
Принадлежность к профессионалам со средним специальным образованием 1,96310 2,6529
Принадлежность к конторским служащим 2,76653 3,8978
Длительность рабочей недели, час 0,27017 0,2568
Самооценка здоровья как очень хорошего 2,09191 3,6652
Хроническое заболевание позвоночника 0,18819 0,7271
Хроническое заболевание печени 0,90471 0,2267
Удовлетворены жизнью 1,79232 2,1235
Константа -7,51889 -11,9817
С помощью найденных функций классификации, каждое наблюдение можно классифицировать в ту группу, для которой вычислен наибольший вес.
Например, используя результаты дис-криминантного анализа, можно рассмотреть процедуру классификации нового наблюдения (индивида). Для этого определим характеристики индивида, значимые для дискриминации, и найдем значения классификационных функций. Предположим для некоторого индивида следующие значения переменных (табл. 6).
Подставляя эти значения в классификационные функции, были получены значения для первой функции — 16,70838, и для второй — 16,8423. Поскольку наибольшее значение имеет вторая функция, то этот индивид должен быть отнесен к группе часто посещающих врача, что потенциально должно
обусловливать его большую заинтересованность в приобретении полиса ДМС, то есть делать его потенциальным потребителем услуг добровольного медицинского страхования.
Таким образом, согласно результатам дискриминации вся совокупность может быть разделена на две группы: часто и не часто обращающиеся за медицинской помощью. Согласно значениям априорных вероятностей, индивид будет часто обращаться к врачу, то есть будет отнесен во вторую группу, с вероятностью 0,06.
На основании проведенного исследования были выделены основные характеристики потребителей, формирующие их поведение на рынке медицинских услуг и, соответственно, позволяющие косвенно определить основные характеристики заинтересованных в услугах добровольного медицинского страхования.
Переменная Условное значение переменной (1-да, 0-нет)
Недавняя госпитализация 0
Наличие проблем со здоровьем 1
Самооценка здоровья как плохого 1
Хроническое заболевание сердца 0
Другие хронические заболевания 1
Мужской пол 0
Наличие инвалидности 0
Наличие высшего образования 1
Принадлежность к профессионалам со средним специальным образованием 0
Принадлежность к конторским служащим 1
Длительность рабочей недели, час 50
Самооценка здоровья как очень хорошего 0
Хроническое заболевание позвоночника 0
Хроническое заболевание печени 1
Удовлетворены жизнью 1
Таблица 6. Условные значения характеристик индивида, классификацию которого необходимо провести
К основным детерминантам спроса на медицинские услуги были отнесены: недавняя госпитализация, самооценка индивидом здоровья как плохого, наличие у него проблем со здоровьем, хронических заболеваний, профессиональная принадлежность к конторским служащим, профессионалам со средним специальным образованием, пол индивида, самооценка здоровья, длительность рабочей недели.
То есть, к основным характеристикам потенциальных потребителей услуг ДМС, которые необходимо учитывать при продвижении этого страхового продукта, могут быть отнесены объективные и субъективные оценки состояния здоровья индивида, его профессиональная принадлежность, занятость, уровень образования.
Таким образом, ориентация страховщиков на выделенные характеристики индивида может служить им основой при продвижении услуг добровольного медицинского страхования среди населения.
Библиографический список
1. Айвазян С.А., Мхитарян B.C. Прикладная статистика и основы эконометрики. Учебник для вузов. — М.:ЮНИТИ, 1998.
2. Ниворожкина Л.И., Арженовский C.B. Многомерные статистические методы в экономике: Учебник. — М.: Издательско-торговая корпорация «Дашков и К0»; Ростов н/Д: Наука-спектр, 2007.