УДК 303.732.4 ББК 65.05 Л 86
Е.В. Луценко, В.Е. Коржаков
Адаптивная семантическая информационная модель прогнозирования рисков совершения ДТП
(Рецензирована)
Аннотация:
т~ч _ _ _ и _ и
В статье описывается синтез и исследование адаптивном семантическом информационной модели, обеспечивающей прогнозирование рисков совершения дорожно-транспортных происшествий на уровне достоверности, достаточном для ее практического применения.
Ключевые слова:
Дорожно-транспортные происшествия, андерайтинг, системно-когнитивный анализ,
прогнозирование рисков совершения семантическая информационная модель
В ряде случаев, таких, например, как приобретение автомобиля, прием на работу водителя, обращение в автостраховую компанию или ГИБДД, возникают вопросы о том какова вероятность совершения дорожнотранспортного происшествия (ДТП) этим водителем на данном автотранспортном средстве, и какова возможная тяжесть этого ДТП, т.е. вероятная сумма страховой выплаты. Эта задача получила в литературе название {{андерайтинг».
Обладание технологией решения задачи андерайтинга, особенно в реальном времени, позволило бы существенно уменьшить риски ДТП, что, как известно, стало уже в России национальной проблемой, т.к. ежегодно в России в ДТП гибнет в два раза больше людей, чем во всей войне в Афганистане. Однако проблема состоит в том, что, несмотря на все очевидные выгоды и преимущества, в реальной практике системы андерайтинга не применяются.
На наш взгляд это обусловлено следующими обстоятельствами:
1. Эти системы недостаточно технологичны для их применения в реальном времени, непосредственно во время обслуживания клиента.
2. Существующие системы разработаны за рубежом или в мегаполисах (в основном в Москве и Санкт-Петербурге) и очень слабо
дорожно-транспортных происшествий,
отражают региональную специфику (т.е. нелокализованы), вернее вообще ее практически не отражают, из-за чего и имеют очень низкую достоверность прогнозирования, близкую и статистически незначимо отличающуюся от вероятности случайного угадывания без использования этих систем или другой априорной информации.
3. Эти системы не обладают адаптивностью и не учитывают динамику предметной области, которая чрезвычайно высока, особенно в Южном Федеральном Округе (ЮФО). В результате даже первоначально хорошо работающие системы очень быстро теряют адекватность модели и качество прогнозов.
4. Стоимость этих систем настолько высока, что их приобретение и использование чаще всего мало или вообще нерентабельно.
Кроме того, науке еще предстоит выработать конкретные практические меры, направленные на уменьшение риска ДТП, которые можно было предпринять, если бы был известен достоверный прогноз.
Целью данной работы является решение поставленной проблемы путем разработки адаптивной методики прогнозирования рисков автострахования и сумм страховых выплат, и, на этой основе, поддержки принятия решений в ГИБДД или автостраховой компании.
Для достижения поставленной цели был выбран метод системно-когнитивного анализа (СК-анализ) [1]. Наличие инструментария СК-анализа: системы «Эйдос», не только позволяет осуществить синтез семантической
информационной модели (СИМ), но и периодически проводить адаптацию и синтез ее новых версий, обеспечивая тем самым отслеживание динамики предметной области и сохраняя высокую адекватность модели в изменяющихся условиях.
В работах [1, 2] приведен перечень этапов системно-когнитивного анализа, которые необходимо выполнить, чтобы осуществить синтез СИМ и ее исследование. Учитывая эти этапы СК-анализа выполним декомпозицию цели работы в последовательность задач, решение которых обеспечит ее поэтапное достижение:
1. Когнитивная структуризация предметной области и формальная постановка задачи, проектирование структуры и состава исходных данных.
2. Получение исходных данных запланированного состава в той форме, в которой они накапливаются в поставляющей их организации (обычно в форме базы данных).
3. Разработка стандартной Ехсе1-формы для представления исходных данных.
4. Преобразование исходных данных из исходных баз данных в стандартную электронную Ехсе1-форму.
5. Контроль достоверности исходных данных и исправление ошибок.
6. Разработка и использование
программного интерфейса для
преобразования исходных данных из стандартной Ехсе1-формы в базы данных, используемые в инструментарии системнокогнитивного анализа (СК-анализ) -универсальной когнитивной аналитической системы «Эйдос» (система «Эйдос»).
7. Синтез семантической информационной модели (СИМ).
8. Оптимизация СИМ.
9. Измерение адекватности СИМ.
10. Задача 1: «Многокритериальная
типизация водителей и автомобилей по типам: «Не совершившие ДТП»,
«Совершившие ДТП» и категориям, отражающим суммы страховых выплат.
11. Задача 2: «Разработка методики
прогнозирования риска совершения ДТП и суммы страховой выплаты на основе
информации о клиенте и его автомобиле».
12. Задача 3: «Разработка методики
поддержки принятия решений по выбору водителей и автомобилей с низким риском ДТП.
Кратко рассмотрим решение этих задач.
1. Когнитивная структуризация предметной области это 1-й этап формальной постановки задачи, на котором решается, какие параметры будут рассматриваться в качестве причин, а какие - следствий. На этом этапе было решено в качестве следствий, т.е. классов, рассматривать: безаварийность, аварийность, сумму страховой выплаты, а в качестве причин: марку и модель автотранспортного средства, его цвет, Российское или иностранное производство автомобиля, водительский стаж владельца.
На этапе формальной постановки задачи, исходя из результатов когнитивной структуризации, было осуществлено проектирование структуры и состава исходных данных.
2. Затем исходные данные запланированного состава были получены в той форме, в которой они накапливаются в поставляющей их организации (обычно в форме базы данных). В нашем случае этой организацией выступила компания ООО Росгосстрах-ЮГ Краснодарского края. Здесь необходимо отметить, что в полученной базе данных представлено 65535 примеров (это максимальное количество строк в листе Excel) застрахованных автотранспортных средств, из которых 540 участвовали в различного рода ДТП и по этим случаям были произведены страховые выплаты. Этого более чем достаточно для целей данной работы, за что авторы благодарны руководству данной автостраховой компании.
3. Была разработана стандартная Excel-форма для представления исходных данных из которой они затем были введены в систему «Эйдос» с помощью стандартного программного интерфейса.
В результате автоматически был сформирован исходный справочник классов распознавания, справочник признаков, а также
обучающая выборка, представляющая собой закодированные в соответствии с этими справочниками страховые случаи. Таким образом данным программным интерфейсом полностью автоматизируется этап СК-анализа, называемый «Формализация предметной области».
7. Затем стандартными средствами системы «Эйдос» (режим: _235) был выполнен синтез семантической информационной модели (СИМ).
8. В системе «Эйдос» реализовано пять различных методов оптимизации модели из которых был применен метод итерационного разделения классов на типичную и нетипичную части.
При этом средняя по всей выборке (объемом 65535 страховых случаев) вероятность правильного отнесения страхового случая к тем классам, к которым он действительно относится, на 2-й итерации составила 88,953% (на 1-й итерации она составляла всего 23,692%). При дальнейших итерациях эта величина стабилизировалась, поэтому этот процесс был остановлен на 2-й итерации. Достигнутая степень адекватности (достоверности) модели оценивается нами как довольно высокая и достаточная для того, чтобы исследование этой модели считать исследованием самой моделируемой предметной области, и выводы, полученные путем исследования модели считать относящимися к самой предметной области.
9. Контрольное измерение адекватности СИМ было проведено на тестовой выборке, в которую вошли 2160 страховых случаев, представляющие все классы, в т.ч. все с совершенными ДТП и по остальным классам не более 540 случаев. При этом были получены результаты, представленные ниже:
- хорошо представленные классы можно использовать при прогнозировании, т.к. достоверность идентификации по этим классам достаточно высокая;
- результаты прогнозирования по слабо представленным классам учитывать в принятии решений нецелесообразно;
- применение модели обеспечивает во много раз более высокую достоверность, чем случайное угадывание или не использование модели;
- общая вероятность достоверной идентификации оказалась несколько ниже, чем по всей выборке, по всей видимости из-за того, что в тестовой выборке не было возможности указать все страховые случаи по которым не было ДТП, из-за огромного количества таких случаев.
10. По сути, задача 1:
{{Многокритериальная типизация
автомобилей клиентов по типам: «Не
совершившие ДТП», «Совершившие ДТП» и категориям, отражающим суммы страховых выплат, была решена при синтезе модели на 7м этапе. Результатом этого этапа и решением 1й задачи является матрица информативностей, которая не приводится в статье из-за большой размерности. В этой матрице столбцы соответствуют классам распознавания, строки -градациям факторов, а в клетках на их пересечении приведено количество
информации в битах, которое содержится в факте обнаружения в страховом случае определенной градации фактора (например, водительского стажа, марки, модели или цвета автомобиля) о том, что этот случай относится к определенному классу. Приведен лишь фрагмент этой матрицы, т.к. в ней 905 строк.
11. Задача 2: «Разработка методики
прогнозирования риска совершения ДТП и суммы страховой выплаты на основе информации о клиенте и его автомобиле», решается по сути автоматически при синтезе модели на 7-м этапе СК-анализа. В системе «Эйдос» есть стандартный режим _42, обеспечивающий подсчет для каждого страхового случая (представленного в распознаваемой выборке) суммарного количества информации, которое содержится в его признаках о принадлежности данного случая к каждому из классов. Все классы сортируются (ранжируются) в порядке убывания суммарного количества информации, содержащегося в описании страхового случая, о принадлежности к ним. Эта информация представляется в виде экранной формы и файла.
12. Для решения задачи 3: «Разработка методики поддержки принятия решений по
выбору контингента клиентов, наиболее предпочтительных и нежелательных для автострахования», необходимо исследовать
модель. Это можно сделать, используя безаварийность (рис. 1) и цвета автомобиля на стандартные возможности системы «Эйдос». безаварийность (рис. 2).
Рассмотрим влияние водительского стажа на
h
U
0
1 Й I h А I CL
0
е-
1 £
CopuRight Сс) Scientific & industrial enterprise AIDOS, Russia, 1981-2001. Russian Patent No 94Q217. All Rights Reserued.
Профиль класса распознавания!
[22]-СУММА СТРАХОВОЙ выплаты: : <0.000,
0.000} 1Т={2> {[1]-стаж владельца)
Пер&ичные признаки Наименования признаков:___________
Признаки: 1-10
[1 ]-СТНІ+: ВЛАДЕЛЬЦА
[і ]-стаж владельца
[11-СТАЖ ВЛАДЕЛЬЦА [Ц-СТАЖ ВЛАДЕЛЬЦА [13-СТАЖ ВЛАДЕЛЬЦА
= [1 ] -CT3J+! владельца:
= [3 ] -стаи влаэельча: = [51-стаж владельца: = [?]-стан{ влаэельча: = [ 9 ] -CT3J+: в л аэе л ьиа:
<1.000, 5.300> <9.600, 13 .900> <18.200, 22 .500> <26 .890 .• 31.100> <35^00, 39 .700>
[11-СТАЖ ВЛАДЕЛЬЦА := [2 ] -СТЗІН влаэелыха: <5.300, 9 .600> [13-СТЙЖ ВЛАДЕЛЬЦА := М ] -стаи владельца: <13.900, 16.200> [11-СТАЖ ВЛАДЕЛЬЦА := [6]-стаж влаэельиа: <22.500, 26 .800> [1 ]-СТАЖ ВЛАДЕЛЬЦА™ [8 ]”СТЭН{ влаэелыха: <31.100, 35 .400> [1]-СТнЖ ВЛАДЕЛЬЦА-[10]-стаж влааелыха: <39.700, чч.000>
Рисунок 1. Влияние водительского стажа на безаварийность.
Рисунок 2. Влияние цвета автомобиля на безаварийность.
Из рис. 1 видно, что обывательское представление о том, что чем больше водительский стаж, тем меньше аварийность, не совсем соответствует действительности. Вернее оно соответствует действительности на интервалах: {1, 22.5} лет и {22.5, 39.7} лет. А вот стаж 22.526 лет как это ни парадоксально, несет информацию о том, что водитель не относится к безаварийному классу (как и очень малый стаж от 1 до 5 лет, но в меньшей степени). Правда дальнейшее увеличение стажа до 39.7 лет также постепенно приводит к меньшей аварийности, но стаж 39.7-44 года опять говорит о склонности к аварийности. Если причины высокой аварийности при очень малом (до 5 лет) и малом (до 9 лет) стаже понятны: это неопытность и лихачество, связанные с молодостью водителя, то причины аварийности опытных водителей с большим (22-26 лет) и очень большим стажем (39-44 года) видимо кроются в состоянии здоровья, связанном с кризисом среднего возраста и с наступлением старости.
Из рисунка 2 следует, что цветами автомобиля, наиболее способствующими безаварийности, являются 902: желтый (оттенки желтого и светло-золотистого), а также 891: голубой, а наиболее «опасными» цветами являются: 905: черный и 893: зеленый. По-видимому, этому можно дать такое объяснение, что автомобили «безопасных цветов» просто лучше заметны на дороге, особенно в условиях сниженной видимости, чем автомобили «:опасных цветов».
Необходимо отметить, что задача выявления фактически имеющихся зависимостей, и задача содержательного объяснения причин существования именно обнаруженных зависимостей, а не каких-либо других, т.е. задача содержательной интерпретации обнаруженных зависимостей, - это совершенно разные задачи. Авторы считают, что задача интерпретации должна решаться специалистами в моделируемой предметной области, в данном случае - специалистами ГИБДД и специалистами в области автострахования.
Получены также функции влияния на аварийность и безаварийность марки и модели автомобиля, но эти формы не приводятся из-за большой размерности (т.е. очень большого количества исследованных моделей и марок автомобилей). Отметим лишь, что из этих форм следует гипотеза о том, чем дороже автомобиль, тем больше (при всех прочих равных условиях) вероятность обращения в автостраховую компанию при участии в ДТП.
Таким образом, на основе исследования созданной адаптивной семантической информационной модели можно сделать выводы о возможности решения задачи андерайтинга методом системно-когнитивного анализа, и о том, что достоверность прогнозирования совершения ДТП с использованием созданной модели достаточно высока для ее применения на практике в различных регионах Российской Федерации.
Примечания:
1. Луценко Е.В. Автоматизированный системно-когнитивный анализ в управлении активными объектами (системная теория информации и ее применение в исследовании экономических, социально-психологических, технологических и организационно-технических систем): монография. Краснодар, 2002. 605 с.
2. Луценко Е.В. Интеллектуальные информационные системы: учеб. пособие. Краснодар. 2004. 633 с.
3. Луценко Е.В., Коржаков В.Е. Интеллектуализация - генеральное направление развития информационных технологий // Вестник Адыгейского государственного университета. Майкоп, 2006. № 1. С. 242-244.
4. Луценко Е.В., Коржаков В.Е. Количественные меры уровня системности и степени детерминированности в рамках СТИ // Вестник Адыгейского государственного университета. Майкоп, 2006. № 4. С. 169-178.