Разработка прогностических моделей развития заболеваемости детей в городском административном районе на основе нейросетевых технологий

Белецкая С.Ю.; Коровин В.Н.; Родионов О.В.

УДК 681.3

РАЗРАБОТКА ПРОГНОСТИЧЕСКИХ МОДЕЛЕЙ РАЗВИТИЯ ЗАБОЛЕВАЕМОСТИ ДЕТЕЙ В ГОРОДСКОМ АДМИНИСТРАТИВНОМ РАЙОНЕ НА ОСНОВЕ НЕЙРОСЕТЕВЫХ ТЕХНОЛОГИЙ

С.Ю. Белецкая, В.Н. Коровин, О.В. Родионов

Представлены результаты прогнозирования развития заболеваемости детей в территориально распределенной системе Железнодорожного района города Воронежа на основе нейросетевых технологий

Ключевые слова: заболеваемость детей, район, нейронные сети

Для прогнозирования уровня заболеваемости детей по врачебным участкам детской поликлиники № 5 Железнодорожного района города Воронежа было выбрано нейросетевое моделирование, т.к. исходный временной ряд (ВР) имеет небольшой временной отрезок - 4 года.

Широкое применение нейронных сетей (НС) в задаче прогнозирования обусловлено наличием в большинстве ВР сложных закономерностей, не обнаруживаемых линейными методами. Одним из самых важных этапов в решении задачи нейросетевого прогнозирования - это формирование обучающей выборки (ОВ). Именно от состава, полноты, качества ОВ существенно зависят время обучения НС и достоверность получаемых моделей. Поэтому наиболее важным этапом является выявление критериев качества проведения предварительных преобразований на этапе построения ОВ.

Временным рядом {а(/)} будем называть множество значений некоторой величины в последовательные моменты времени.

{а(1)} = а(Х); а(12);...а(11 -); а(1г); а(1м)

Прогнозирование временного ряда - вычисление величины его будущих значений либо характеристик, позволяющих определить эту величину, на основании анализа известных значений. Величина, подлежащая прогнозу, называется прогнозируемой величиной (ПВ).

При прогнозировании предполагается, что значение прогнозируемой величины зависит от каких-либо факторов, назовем их определяющими факторами, или признаками. Один из подходов к задаче прогнозирования основан на предположении зависимости ПВ от предыдущих зна-

Белецкая Светлана Юрьевна - ВГТУ, д-р техн. наук, профессор, тел. (4732) 46-76-99

Коровин Владимир Николаевич - ВГТУ, аспирант, тел. (4732) 46-76-99

Родионов Олег Валерьевич - ВГТУ, д-р техн. наук, профессор, тел. (4732) 46-76-99

чений ВР. Теоретическим обоснованием такого подхода является Теорема Такенса [1, 2].

Если временной ряд порождается динамической системой, т.е. значения {а(/)} есть произвольная функция состояния такой системы, существует такое число d (примерно равное эффективному числу степеней свободы данной динамической системы), что d предыдущих значений ВР однозначно определяют следующее значение.

Схему решения задачи прогнозирования можно представить в виде последовательности этапов.

1. Этап предварительных преобразований (ПП).

На практике большинство прогнозируемых ВР порождаются сложными динамическими системами, с множеством степеней свободы, поэтому d для них велико. Кроме того в самом ВР может присутствовать случайная составляющая. Поэтому на данном этапе выполняются предварительные преобразования исходных данных [3, 4] позволяющие уменьшить ошибку прогнозирования.

Предварительным преобразованием будем называть получение для момента времени

' набора из определяющих факторов и соответствующего им значения ПВ (рисунок). Определяющие факторы представляют собой некую функцию от прошлых (по отношению к моменту ) значений ВР. Назовем набор определяющих факторов вектором признаков {X}, или описанием ситуации:

{х }= *1; *2;...; хп,

{х}= ф(а(1г),а(1г)).

Описанию ситуации соответствует ПВ {?} , которая может являться как самими будущими значениями ВР, так и характеристиками, позволяющими их определить с требуемой точностью.

Исходный временной ряд \а(і)}

Множество формируемых наборов (X}, (Г }} Этапы предварительного преобразования

{Г} = У1;^2;-;Ут ,

(Г } = /(а(г,+1), а(їі+2 ),)1...а(їі+к)

После выполнения ПП для различных моментов времени Ї, ВР представляется в виде множества значений функции зависимости ПВ от определяющих факторов (или в виде множества наборов).

Далее из множества полученных наборов выделяются два непересекающихся подмножества (как правило, хронологически следующих одно за другим). Одно из них представляет собой обучающую выборку (ОВ), на которой будет выполняться обучение нейронной сети. Другое подмножество представляет собой контрольную выборку (КВ), которая не предъявляется нейронной сети в процессе обучения и используется для проверки качества прогноза. Таким образом, прогнозирование временного ряда сводится к задаче интерполяции функции многих переменных. Нейронная сеть используется для восстановления этой функции по множеству наборов, входящих в состав ОВ.

2. Этап структурного синтеза НС.

На данном этапе производится выбор архитектуры нейрона и структуры связей между нейронами.

3. Параметрический синтез НС.

Выполняется обучение НС. Как правило,

используются методы градиентного спуска, в частности алгоритм обратного распространения ошибки и его модификации [1, 5]. Следует отметить, что данный этап наиболее требователен

к вычислительным ресурсам и занимает 50-90% времени решения задачи.

4. Проверка ошибки прогноза на КВ.

Если значение ошибки находится в допустимых пределах, то задача считается решенной и обученная НС используется для получения прогноза. В противном случае в зависимости от предполагаемой причины ошибки производится возврат к этапам 1,2 или 3.

К сожалению, в работах большинства авторов основное внимание уделено выбору архитектуру и способа обучения НС, а этап ПП рассматривается лишь в контексте конкретной практической задачи, либо не рассматривается вообще. Как правило, приводится описание определенного типа ПП и результатов, полученных от его использования в той или иной области, а сравнительного анализа с другими типами ПП и критериев, по которым можно было бы их сравнить, не приводится.

Тем не менее ПП влияет на результат решения задачи прогнозирования не менее, чем структура и способ обучения НС, т.к. результат ПП является исходными данными для этих двух этапов. Поэтому целесообразно более подробно остановиться на этапе ПП и попытаться сформулировать и обосновать основные требования к ПП, необходимые для уменьшения ошибки прогноза.

Некоторые требования уже известны, однако они носят эмпирический характер. Авторы, используют ниже перечисленные требова-

ния неявно, выбирая такие типы ПП, которые уже удовлетворяют им [1, 3, 4].

Основное требование в ПВ - это возможность восстановления будущих значений ВР с требуемой точностью.

Использование в качестве предварительного преобразования сверток исходных данных позволяют описать ситуацию меньшим количеством признаков без потери или с допустимой потерей точности. Это приводит к сокращению времени обучения НС.

Взаимозависимость входов может привести к снижению информативности описания ситуации, и, следовательно, к ухудшению качества обучения. Следует отметить, что использование сверток позволяет отчасти решить эту проблему, т.к. большинство методов сжатия информации основано на исключении избыточности.

Ввиду отсутствия формальных критериев оценки качества проведения ПП целесообразно ввести требования, необходимые для уменьшения ошибки прогноза, а также критерии их выполнения.

Как уже было отмечено, на этапе обучения НС восстанавливает целевую функцию по множеству наборов ОВ т.е. решает задачу интерполяции. На этапе использования обученной НС (получении прогноза) сеть будет использовать восстановленную зависимость для прогнозирования ПВ, т.е. решать задачу экстраполяции. Для корректного решения задачи экстраполяции необходимо обеспечить стационарность ряда признаков {X}. Напомним, что стационарным называется временной ряд, распределение значений которого инвариантно относительно момента времени, для которого оно построено. Для характеристики стационарности будем использовать то, что для двух выборок, построенных в разные моменты времени закон распределения должен оставаться тем же. Т.е. величина

ад

S =j mm[pOB ({х }); p ^ ({x })] }

— ад

должна равняться единице.

Но ввиду многомерности {X} и с учетом независимости признаков охарактеризуем стационарность каждого из компонент x .

ад

S. = J min p OB ({xi }); p kb ({xi })]x }

—ад

Кроме того, полагая, что закон распределения равномерен на участке

pni -a.; m. + a. ], где m. - среднее значение, а

<Ji - стандартное отклонение i -го признака, получим

S.. =

уОВ +аКВ — mOB —тКВ

тах(ст°В ;стКВ)

О, если (

а(°В +а1КВ—mOB—mm )<0

,если( оОВ +стКВ -I m°B-mP |)>0

Следует отметить, что предположение о равномерности закона распределения вносит некоторую погрешность в вычисление величины 5,, и для некоторых распределений со значительной ассиметрией может оказаться недопустимым. Однако, как показала практика, такое упрощение вполне подходит в качестве оценки.

Общую характеристику стационарности получим усреднением по всем признакам.

1 п s =1Е 5,

п г=1

Если для ОВ и КВ имеет место £ = 1,

будем считать, что условие стационарности выполняется.

Для корректного восстановления функциональной зависимости необходимо, чтобы наборы, входящие в состав как ОВ, так и КВ, не противоречили друг другу. Т.е. чтобы для двух наборов с одинаковым описанием ситуации значение ПВ не было разным [1]. Однако на практике вероятность того, что у двух наборов описание ситуации {X} будет одинаковым, весьма мала, т.к. количество наборов ограничено, а {X} - многомерная величина с большим или бесконечным множеством принимаемых значений. Поэтому будем считать одинаковыми векторы признаков {х(1)} и {х(2)}, для которых выполняется условие

{х П) Ь 4х’})

Границы окрестности выбираются так, чтобы это условие выполнялось для 50-100% наборов.

4- <1-2) }=

1 m

m .-Ч .=1

,<« - >'2)

если

X (1) Ы1 X (2)

0,иначе

А общая противоречивость будет равна

1 N N ( .

д = “J)}

i =1 j=1

где N - общее количество наборов в ОВ и КВ.

Полученное значение общей противоречивости не должно превышать требуемой точности решения.

С учетом сформулированных требований схема решения задачи прогнозирования примет вид.

1. Выполнение ПП, оценка выполнения требований стационарности и непротиворечивости. Если требования выполняются, то переход к этапу 2, в противном случае - изменение параметров или выбор другого типа ПП.

2. Структурный синтез НС.

3. Обучение НС.

4. Проверка ошибки прогноза на КВ. Если значение ошибки находится в допустимых пределах, то задача считается решенной, и обу-

ченная НС используется для получения прогноза. В противном случае в зависимости от причины ошибки производится возврат к этапам 1,2 или 3.

Это позволит сократить затраты времени на построение прогнозирующей системы, т.к. для проверки качества ПП не обязательно выполнять длительный и ресурсоемкий процесс обучения НС, достаточно проверить выполнение сформулированных требований.

Результаты краткосрочного прогнозирования наиболее распространенных заболеваний детей по врачебным участкам поликлиники № 5 Железнодорожного района города Воронежа на основе нейронных сетей представлены в таблице.

Таблица

Результаты краткосрочного прогнозирования заболеваемости детей

по вр

Номер врачебного участка Инфекционные и паразитарные болезни Болезни глаза и его придаточного аппарата Болезни уха и сосцевидного отростка Болезни органов дыхания

2009 г. 2010 г. 2009 г. 2010 г. 2009 г. 2010 г. 2009 г. 2010 г.

1 29,54 23,70 72,64 73,03 57,72 47,04 551,80 759,27

2 36,27 30,77 73,04 72,88 58,90 38,78 974,35 818,89

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

3 48,32 56,11 72,51 70,73 47,74 58,99 485,14 720,43

4 32,98 33,61 73,15 68,70 58,95 39,03 556,92 545,47

5 23,76 24,35 65,42 72,44 41,94 45,96 639,98 548,67

6 30,23 24,61 71,38 73,03 58,77 41,09 496,25 714,73

7 26,18 24,15 52,41 70,05 38,89 52,52 596,41 560,51

8 24,45 26,66 72,71 58,88 49,03 58,76 507,61 619,67

9 24,82 24,99 70,09 69,34 53,25 38,73 613,16 526,63

10 24,62 23,66 67,31 71,40 45,22 51,81 491,58 527,77

11 26,14 25,39 50,10 67,41 40,02 38,95 557,74 524,44

12 48,64 56,58 72,52 70,18 47,89 58,99 486,18 717,31

13 24,30 23,52 73,05 73,01 55,49 52,26 548,31 642,66

14 27,57 25,08 48,06 61,41 38,89 42,40 542,36 531,34

15 27,65 23,15 63,36 72,94 57,92 38,88 952,79 812,18

1О 32,39 28,59 71,12 72,19 54,55 39,26 684,00 547,05

2О 49,75 53,85 73,09 67,33 53,74 58,99 683,73 657,41

3О 64,33 73,91 71,38 51,52 39,02 58,99 649,66 683,90

4О 48,04 41,96 48,00 60,12 38,75 40,42 530,98 524,83

5О 68,49 68,72 72,92 72,99 58,88 52,06 797,61 796,16

6О 81,27 83,06 54,03 48,31 41,90 58,96 491,25 606,09

7О 74,77 75,55 63,11 70,40 40,23 58,97 606,92 565,74

8О 57,01 51,55 73,15 60,80 58,98 43,11 1121,43 975,88

Продолжение таблицы Результаты краткосрочного прогнозирования заболеваемости детей по врачебным участкам детской поликлиники № 5 Железнодорожного района__________

Номер врачебного участка Болезни органов пищеварения Прочие заболевания Травмы и отравления

2009 г. 2010 г. 2009 г. 2010 г. 2009 г. 2010 г.

1 29,54 23,70 72,64 73,03 57,72 47,04

2 36,27 30,77 73,04 72,88 58,90 38,78

3 48,32 56,11 72,51 70,73 47,74 58,99

4 32,98 33,61 73,15 68,70 58,95 39,03

5 23,76 24,35 65,42 72,44 41,94 45,96

6 30,23 24,61 71,38 73,03 58,77 41,09

7 26,18 24,15 52,41 70,05 38,89 52,52

8 24,45 26,66 72,71 58,88 49,03 58,76

9 24,82 24,99 70,09 69,34 53,25 38,73

10 24,62 23,66 67,31 71,40 45,22 51,81

11 26,14 25,39 50,10 67,41 40,02 38,95

12 48,64 56,58 72,52 70,18 47,89 58,99

13 24,30 23,52 73,05 73,01 55,49 52,26

14 27,57 25,08 48,06 61,41 38,89 42,40

15 27,65 23,15 63,36 72,94 57,92 38,88

1О 32,39 28,59 71,12 72,19 54,55 39,26

2О 49,75 53,85 73,09 67,33 53,74 58,99

3О 64,33 73,91 71,38 51,52 39,02 58,99

4О 48,04 41,96 48,00 60,12 38,75 40,42

5О 68,49 68,72 72,92 72,99 58,88 52,06

6О 81,27 83,06 54,03 48,31 41,90 58,96

7О 74,77 75,55 63,11 70,40 40,23 58,97

8О 57,01 51,55 73,15 60,80 58,98 43,11

Анализ полученных результатов показал, что в среднем ошибка по моделям не превышает 10 %, что свидетельствует о достоверности полученных результатов прогнозирования заболеваемости по различным нозологическим формам.

Литература

1. Крисилов В.А., Чумичкин К.В., Кондратюк А.В. Представление исходных данных в задачах нейросетевого прогнозирования //

http://neuroschol.narod.ru

2. Sauer, T., Yorke, J.A., Casdagli,M.// Jounal of Statistical Physics. Embedology 1991. Vol. 65.

3. Бестенс Д., ванн ден Берг В., Вуд Д. Нейронные сети и финансовые рынки. Принятие решений в торговых операциях. М.: ТВП, 1997.

4. Востров Г.Н., Любченко В.В., Полякова М.В. Моделирование временных рядов с использованием вейвлет-сетей. // Искусственный интеллект. Донецк 2000. Вып. 3.

5. Уоссерман Ф., Нейрокомпьютерная техника: теория и практика. - М.: Мир,1992.

Воронежский государственный технический университет

DEVELOPMENT OF THE PROGNOSTIC MODELS OF DEVELOPMENT DESEASES OF CHILDREN IN CITY ADMINISTRATIVE AREA ON THE BASIS OF

NEURAL NETWORKS TECHNOLOGIES

S.Yu. Beletskaya, V.N. Korovin, O.V. Rodionov

Results of forecasting of development of desease of children in territorially distributed system of Zheleznodo-roznnyi area of city of Voronezh on the basis of neural networks technologies are presented

Keywords: desease of children, area, neural networks

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Белецкая С. Ю., Коровин В. Н., Родионов О. В.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Белецкая С. Ю., Коровин В. Н., Родионов О. В.

DEVELOPMENT OF THE PROGNOSTIC MODELS OF DEVELOPMENT DESEASES OF CHILDREN IN CITY ADMINISTRATIVE AREA ON THE BASIS OF NEURAL NETWORKS TECHNOLOGIES