УДК 519.2
Г. С. Лбов, Г. Л. Полякова МЕТОД ПРОГНОЗИРОВАНИЯ В КЛАССЕ ЛОГИЧЕСКИХ РЕШАЮЩИХ ФУНКЦИЙ*
Рассматривается метод прогнозирования в классе логических решающих функций. Выбор наилучшего разбиения в пространстве переменных осуществляется на основе перебора, использующего идеологию «метода ветвей и границ». Эффективность предложенного метода иллюстрируется результатами решения прикладных задач.
Ключевые слова: анализ эмпирической информации, логические закономерности, прогнозирование.
В статье задача прогнозирования целевой переменной [1-3] решается в классе логических решающих функций. Особенностями указанной задачи являются небольшое число временных отсчетов, необходимость в «наглядности» получаемых результатов. Рассматривается метод прогнозирования в классе логических решающих функций. При этом выбор наилучшего разбиения в многомерном пространстве переменных осуществляется на основе перебора, использующего идеологию «метода ветвей и границ». Предлагаемый метод осуществляет полный перебор различных разбиений многомерного пространства переменных на заданное число прямоугольных областей. Значительное сокращение перебора всевозможных вариантов осуществляется путем выбора только тех вариантов, которые обеспечивают заданную статистическую надежность прогнозирования целевой переменной для любой прямоугольной области.
Отметим, что решение подобного рода задач связано с некоторыми особенностями:
1) отсутствие априорной информации о распределениях в пространстве переменных (характеристик);
2) в трудноформализуемых областях исследователь вынужден включать большое число потенциально полезных переменных (характеристик) из-за сложности изучаемого явления;
3) малое число наблюдений (объектов), как правило, сравнимое с числом переменных;
4) исследователя при изучении сложных объектов нередко интересует не только решение, дающее хорошее качество прогноза, но и сама форма представления такого решения для получения информации о внутренних причинно-следственных связях между характеристиками изучаемых объектов.
При решении статистических задач выявления закономерностей с указанными выше особенностями возникает ряд проблем.
Во-первых, задачи приходится решать в условиях отсутствия априорной информации о виде функций распределения. Любое предположение (например, о нормальности распределения, линейной регрессионной зависимости, независимости переменных, марковости процесса) ставит вопрос о соответствии выбранного предположения истинным ограничениям. Как вводить предположения и какие? В этом состоит первая проблема.
Во-вторых, в условиях малого числа наблюдений и высокой размерности пространства переменных возникает проблема статистической устойчивости получаемых решений. Из теоретических исследований вытекает, что более сложные функциональные зависимости используются для построения решений, больше переменных и меньше число наблюдений (объем выборки), тем больше вероятность получения решения, сильно отличающегося от оптимального. Суть проблемы устойчивости статистических решений заключается в следующем. С одной стороны, сильное ограничение на класс решений ставит вопрос об адекватности наших предположений истинному распределению: чем больше такое несоответствие, тем хуже решение. С другой стороны, чем более сложный класс функций используется при малом объеме выборки, тем выше вероятность получить недостоверное решение. Так, например, может оказаться, что линейная функция, заданная на всем множестве переменных, будет менее информативной по сравнению с линейной функцией, заданной на подмножестве этих переменных. Таким образом, при построении решения необходимо стремиться к максимальной сложности используемого класса решений (для ослабления ограничений на истинное распределение), но при этом сложность класса решений не должна превышать некоторого порога, задаваемого объемом выборки. При малом объеме выборки класс решений должен иметь малую меру сложности. При увеличении объема выборки этот класс должен позволять постепенно увеличивать свою сложность, вплоть до получения оптимального решения при произвольном распределении. Класс решений, обладающий таким свойством, будем называть универсальным классом. Вопрос о соотношении сложности используемого класса решений и объема выборки - наиболее важный и трудный в общих теоретических исследованиях, связанных с построением решений на основе ограниченной эмпирической информации.
По указанным выше причинам, а именно при отсутствии информации о виде распределения, линейной зависимости, наличия малого количества наблюдений (объектов) относительно числа переменных (характеристик), традиционные статистические методы оказываются малоподходящими при решении указанных задач.
* Работа выполнена при финансовой поддержке РФФИ (проект № 10-01 -00113-а), проект № 09-07-12087-офи_м. Интеграционного гранта СО РАН (№ 83).
Как показывают теоретические и экспериментальные исследования [1-3], построение логико-вероятностных моделей изучаемых явлений на основе такой информации оказывается достаточно перспективным направлением. Модели представляют собой список логических закономерностей, обладающих достаточно высокой прогнозирующей способностью. Кроме того, в отличие от классических методов статистического анализа результаты в рамках указанной модели представляются на языке, близком к естественному языку логических суждений, что облегчает интерпретацию результатов.
Постулируется, что изучаемое явление характеризуется лишь небольшим числом закономерностей (несколько десятков). Для решения поставленной задачи был использован как алгоритм ТЕМР [3], так и его модификация. Оба алгоритма обнаруживают все закономерности с заданной прогнозирующей способностью. Ниже приводится описание алгоритма ТЕМР и его модификации.
Алгоритм обнаружения логических закономерностей. Как указывалось выше, при решении каждой из 18 задач выявления закономерностей между природными факторами и заболеваемостью клещевым энцефалитом имеем таблицу данных Т = {х',у'}, где
X = (х1,х12), ' = 1,18. Так как объем выборки (N = 20) является весьма малым, а размерность пространства переменных относительно велика (от 12 до 48), статистически надежные закономерности могут быть получены лишь при огрублении статистического материала.
В данном случае диапазон значений каждой переменной разбивается на ряд интервалов. Интервалы переменной У назовем образами. Из исходной таблицы Т создаем таблицу V = ^', и'}, где z и и - соответствующие интервалы переменных х и у.
Для каждого сочетания переменных z1,..., z12 перебираются все наборы интервалов рассматриваемого подмножества переменных (логические высказывания, в данном случае конъюнкции). Пример конъюнкции интервалов: £ = (z5 = 2) л (z7 = 1) л (z11 = 3).
Естественно, ее можно записать через границы интервалов указанных переменных, что и делается при описании результатов изучения влияния природных факторов на заболеваемость клещевым энцефалитом.
Логические закономерности определяются отдельно для каждого образа-интервала У. Для этого образ с номером 5, 5 = 1,..., k, назовем первым образом, а объединение всех остальных - вторым образом. Обозначим конъюнкцию через £ (а, Е), где а - имя
объекта (номер переменной); Е - некоторая область многомерного пространства переменных. Если набор значений переменных для рассматриваемого объекта принадлежит области Е, то будем говорить, что £ (а, Е) для этого объекта принимает значение «истина», иначе - «ложно». Для любой конъюнкции £ (а, Е) можно определить по таблице данных V чис-
ло объектов первого образа N(1, £) и число объектов второго образа N(2, £), на которых указанная конъюнкция истинна.
Конъюнкцию £ (а, Е) назовем логической закономерностью £*, характеризующего первый образ, если выполняются неравенства
N(1,£) >8 N(2,£)
N(1) , N(2)
где 5 ив - некоторые параметры, 0< р < 8 < 1. Чем больше 5 и меньше в, тем сильнее логическая закономерность. Множество всех закономерностей обозначим через £ *. Конъюнкцию £ (а, Е) называем потенциальной логической закономерностью для первого образа (обозначим ее через £'), если выполняются неравенства
N(1, £)N(1) > 8, N(2, £)N(2) > р.
Множество потенциальных закономерностей обозначим через £' . Очевидно, что из £ ' е £ ' можно, вообще говоря, получить закономерность £* последовательным присоединением предикатов, т. е. £' л J(а, Е^/) л.... Если для некоторой конъюнкции
£ (а, Е) выполняется неравенство N (1, £) / N (1) <8, то конъюнкция £ по определению не является закономерностью и присоединение к ней какого-либо предиката не даст закономерности (множество таких конъюнкций обозначим через £). Таким образом, любая конъюнкция £ (а, Е) может быть трех типов: £ *, £ и £.
Назовем конъюнкцию £(а, Е) = J(a, Ек) л. лJ(a, Е^/ ) конъюнкцией длины т, где Е^/ область значений переменной Zj.
Алгоритм обнаружения логических закономерностей состоит в последовательном выполнении следующих шагов.
Шаг 1. Рассматриваются всевозможные конъюнкции длины 1, т. е. конъюнкции вида £ (а, Е) = 3 (а, Ej),
Ej еЖ^/, j = 1,..., п. Если £ (а, Е) е £ *, то она включается в список закономерностей и соответствующее подмножество Е^/ исключается из дальнейшего перебора; если £ (а, Е) е £ ', то соответствующее подмножество Е^/ оставляется для дальнейшего перебора; если £(а, Е) е £, то соответствующее подмножество Е^/ исключается из дальнейшего перебора. Обозначим через Ж* множество подмножеств Е^/, оставленных
для дальнейшего перебора после выполнения шага 1 алгоритма.
Шаг 2. Рассматриваются всевозможные конъюнкции длины 2, т. е. конъюнкции вида
£ (а, Е) = 3 (а, Ej) л 3 (а, Е,), j ФI; Ej еЖ], Е, еЖ,1.
Если £ е £* или £ е £' , то соответствующие подмно-
жества Е;/ и Е, исключаются из дальнейшего перебора. Если £ е £ *, то соответствующая конъюнкция включается в список закономерностей.
Шаг 3. Рассматриваются всевозможные конъюнкции длины 3, т. е. конъюнкции вида £ (а, Е) = 3 (а, Е^/) л 3 (а, Е1) л 3 (а, Ет), j ФI Ф т,
j Ф т; Ej е Ж2, Е, е 2, Ет е Жт2, где Ж2 содержит
подмножества Е^/, оставленные для перебора после
шага 2 алгоритма. Далее аналогично рассматриваются конъюнкции длины 4, 5 и т. д.
Предполагается, что реальные таблицы данных таковы, что число элементов множества Ж” резко
уменьшается с увеличением числа шагов т, а также, что уже при небольшом числе шагов происходит останов программы. Из схемы алгоритма следует, что с его помощью обнаруживаются все логические закономерности, характеризующие 5-й образ. Последовательно применяя данный алгоритм для каждого из k образов, получаем k списков логических закономерностей: {£1, ., £1 }, ...,{£*, ., £^,к}. Сделаем сквозную
нумерацию полученных закономерностей: £1,..., £ё,
к
где ё = ^ . Заметим, что при малых значениях в
5=1
(в — 0) и больших значениях 5 (5 — 1) логических закономерностей может не быть; при фиксированном малом в (например, в = 0,05) при уменьшении 5 (5 ^ в ) число закономерностей может резко возрастать, а их качество падать. Поэтому при фиксированном значении в необходимо выбрать такую величину 5, чтобы число закономерностей было небольшим (например, десять закономерностей на каждый образ). Этой цели можно достигнуть последовательно уменьшая 5 с некоторым шагом Д5. По критерию F = 5 - в можно упорядочить полученные закономерности по их вероятностной прогнозирующей способности.
Особенность модифицированного алгоритма ТЕМР состояла в переборе всевозможных конъюнкций сразу заданной длины, указанной в параметрах алгоритма, и нового критерия качества дерева решений.
Метод решения задачи прогнозирования. Рассмотрим задачу прогнозирования [3-6] для каждой переменной У,, I = 1, ..., т, отдельно, т. е. определим решающую функцию F набором функций {f,..., /1, ..., fm}, где fI - отображение из В в DY¡. Построение функции /1 осуществляется в два этапа [4-6].
Этап I. На основе временного ряда q для фиксированного номера ё, ё е {1, ..., R}, и фиксированного номера , организуется обучающая выборка в виде таблицы данных vd = {хц-ё,у]}, ц = R +1, ..., N. По таблице данных VII строим логическую решаю-
щую функцию <аё, г(аё)> с разбиением
п
аа = {Её, Её,..., Ем“} множества D = ^ DX на Мё
j=l 1
подмножеств (с помощью алгоритма обнаружения логических закономерностей). Введем новую переменную 2а с множеством значений Dz = {1,..., t,..., Ма}
следующим образом: если предыстория
(хЦ-ё,..., хЦ~ё) е Е‘а, то zd = t. Указанные выше вычисления проводятся для всех номеров предысторий (ё = 1, ..., R). Результатом первого этапа является набор разбиений (а, ..., аё, ..., ай) и соответствующий ему набор переменных (21, ..., 2^). Это позво-
ляет для любого момента времени ^, ц = R + 1, ..., N, п-мерную предысторию длины R, представленную набором (хц-й, ..., хц-ё, ..., хц-1), хц-ё е D, задать в виде одномерной последовательности zц= (zR,..., zЦ,..., z1ц), zЦ е DZd.
Этап II. Временному п-мерному ряду q = {х^}, j = 1, ., п, V = 1, ., N ставится в соответствие таблица данных V = , уЦ}, ц = R + 1, ..., N. По таблице V
строится логическая решающая функция /1, которая позволяет прогнозировать значение переменной У, по предыстории длины R, , = 1, ..., п. Заметим, что задача прогноза для любого набора {у.,..., У } с{Х1,..., Хп}, т = 1, ..., п решается аналогично.
Из-за сложности статистической задачи (многомерность, нестационарность, малое число наблюдений) возникла необходимость в «огрублении» статистической информации (использовалось небольшое число интервалов значений переменных, включая и показатель заболеваемости).
Совместный анализ климатических и астрофизических факторов в природных очагах клещевого энцефалита проводился на основе следующей статистической информации: температура воздуха (ТВ), относительная влажность воздуха (ОВВ) в приземном слое; количество осадков; данные солнечной радиации: прямой радиации на горизонтальную поверхность, прямой радиации на перпендикулярную поверхность, отраженной радиации; заболеваемость людей клещевым энцефалитом. Исследование влияния взаимозависимых природных факторов на заболеваемость людей клещевым энцефалитом заключалось в совместной статистической обработке 12 временных рядов. Каждый временной ряд представлял собой наб ор значений среднемесячных показателей перечисленных 6 природных факторов и годовых значений заболеваемости людей в течение 20 лет (с 1991 по 2010 гг.). Таким образом, каждому природному фактору соответствовала таблица из 12 столбцов (переменные Х1, ..., Х12) и 20 строк (наблюдения или объекты). Для каждой строки указывается количество заболевших за год (переменная У). Требовалось найти статистические закономерности (взаимосвязи) между всеми X!, ..., Х12 и У. В силу того, что природных фак-
торов - 6, а рассматриваемых регионов - 3, возникает 18 задач выявления закономерностей, решение которых и представлено в данной работе.
При решении задачи алгоритмом ТЕМП [4; 5] значения показателя заболеваемости были разделены на 2 диапазона: 1 диапазон соответствовал низкому уровню заболеваемости от 2 до 17 человек на 100 тысяч населения, 2 диапазон - высокому уровню заболеваемости от 17 до 62 заболевших на 100 тысяч населения. Это дало возможность обнаружить логические закономерности, как правило, включая конъюнкции значений не более трех переменных для прогноза уровня заболеваемости. При решении данной задачи модифицированным алгоритмом ТЕМП [6] количество образов (диапазонов значений целевой переменной) задавалось равным к, где к > 2.
Приведем некоторые из полученных закономерностей.
Высокий уровень заболеваемости КЭ возникает при совместном (одновременном) выполнении условий: «ТВ в январе - от -20 до -11°С» и «ТВ в августе -от 15 до 18,7 °С» и «ТВ в октябре - от 2,1 до 5,6 °С».
Высокий уровень заболеваемости КЭ определяется совместным выполнением условий: «ОВВ в феврале -от 72,5 до 83,5 %» и «ОВВ в апреле - от 58 до 73 %» и «ОВВ в декабре - от 79,8 до 85 %».
Полученная нами оценка заболеваемости КЭ в НСО в 2009 г. имела значение 7 человек на 100 тысяч населения, реальная заболеваемость составила 6,5 человек на 100 тысяч населения.
Предложен метод прогнозирования целевой переменной на основе обнаружения логических закономерностей на обучающей выборке, который включает перебор различных разбиений многомерного пространства переменных на заданное число прямоугольных областей. Значительное сокращение перебора всевозможных вариантов осуществляется путем
выбора только тех вариантов, которые обеспечивают заданную статистическую надежность прогнозирования целевой переменной для любой прямоугольной области.
Эффективность предложенного метода иллюстрируется результатами решения прикладной задачи, состоящей в исследовании влияния природных факторов на заболеваемость клещевым энцефалитом населения Новосибирской, Иркутской областей и Республики Г орный Алтай.
Библиографические ссылки
1. Лбов Г. С. Метод анализа многомерных разнотипных временных рядов в классе логических решающих функций // Доклад РАН. 1994. Т. 339. № 6.
2. Лбов Г. С., Методы обработки разнотипных экспериментальных данных. Новосибирск : Наука, 1981.
3. Лбов Г. С., Старцева Н. Г. Логические решающие функции и вопросы статистической устойчивости решений. Новосибирск : Изд-во Ин-та математики, 1999.
4. Исследование влияния природных факторов на заболеваемость клещевым энцефалитом / Г. С. Лбов, Г. Л. Полякова, В. Н. Бахвалова [и др.] // Вестник Но-восиб. гос. ун-та. 2010. № 3. С. 31-37. (Серия: Биология. Клиника Медицина).
5. Лбов Г. С., Полякова Г. Л., Пестунов И. А. Метод прогнозирования на основе анализа коротких временных рядов // АШ-ГГ'10 : тр. Конгресса по интеллектуальным системам и информац. технол. М. : Физматлит, 2010. Т. 1. С. 264-271.
6. Лбов Г. С., Полякова Г. Л. Решение задачи прогнозирования в классе логических решающих функций // Математическая биология и биоинформатика : докл. III Междунар. науч. конф. (10-15 окт. 2010, Пущино). М. С. 226-227.
G. S. Lbov, G. L. Polyakova FORECASTING METHOD IN CLASS CLASS OF LOGICAL DECISION FUNCTIONS
In this paper we suggest a method using the class of logical decision functions. A search of optimal division of variable space is based on sort out similar to branch and bound method. Results of statistical analysis are represented in the form of logical rules reflected cause-effect relations of object under investigation. Effectiveness of the suggested method is shown by solving applied problems in the sphere of ecology.
Keywords: analyses of empirical information, logical rules, forecasting
© Лбов Г. С., Полякова Г. Л., 2010