Научная статья на тему 'Математические методы для интеллектуальных баз данных в биологии. 5. Элементы стохастического подхода к задачам обработки данных. Классические критерии'

Математические методы для интеллектуальных баз данных в биологии. 5. Элементы стохастического подхода к задачам обработки данных. Классические критерии Текст научной статьи по специальности «Математика»

CC BY
247
42
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Тропп Э. А., Егоров В. А., Морозов Ю. Г.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Математические методы для интеллектуальных баз данных в биологии. 5. Элементы стохастического подхода к задачам обработки данных. Классические критерии»

ISSN 0869-4362

Русский орнитологический журнал 2002, Экспресс-выпуск 205: 1083-1100

Математические методы для интеллектуальных баз данных в биологии. 5. Элементы стохастического подхода к задачам обработки данных. Классические критерии

Э.А.Тропп, В.А.Егоров, Ю.Г.Морозов

Физико-технический институт им. А.Ф.Иоффе РАН, Санкт-Петербург, 194021, Россия Поступила в редакцию 31 мая 2002

В биологических задачах, в частности в задачах орнитологии, приходится сталкиваться с большими объёмами достаточно сложно организованных данных. Грамотная современная обработка таких данных является, как правило, совместной работой биологов, математиков и программистов. Это связано с тремя этапами работы: сбор и осмысление данных, создание математической модели наблюдений, выбор или создание алгоритмов обработки и собственно обработка данных на ЭВМ. Следует отметить, что на всех этих этапах желательна совместная работа специалистов. Например, при создании математической модели требуется как знание биологического содержания задачи, так и умение разбираться в соответствующих математических вопросах; выбрать же математическую модель требуется таким образом, чтобы для решения задачи можно было выбрать алгоритм, реализуемый на ЭВМ за разумное время. Кроме того, в настоящее время делать ка-кие-либо обоснованные новые выводы, например в орнитологии, можно только на основе большого числа правильно организованных наблюдений, для которых было бы легко создать соответствующие базы данных.

За последнее время в связи со значительным ростом возможностей ЭВМ и бурным развитием математических статистических методов стало возможным применять новые математические модели и создавать под них новые базы данных. Например, в течение более ста лет считалось, что наблюдения в большинстве случаев подчиняются нормальному закону или, в крайнем случае, являются простейшими функциями от нормально распределённых случайных величин. Такое широкое распространение нормального закона часто обосновывалось: математиками — ссылкой на прикладников, имеющих дело непосредственно с наблюдениями, прикладниками — ссылкой на математиков, которые выводят нормальный закон из теории, например, из асимптотической нормальности усреднённых наблюдений. На самом деле применение методов, основанных на предположении нормальности наблюдений, часто было связано с отсутствием других методов обработки, которые можно было бы реализовать вручную или при помощи примитивных вычислительных средств. В настоящее время появилась реальная возможность вооружить учёных современными методами обработки и анализа материала наблюдений.

Ниже для иллюстрации методов проверки статистических гипотез мы приводим ряд простейших примеров, в которых для вычислений не требуется прибегать к помощи ЭВМ. В реальных условиях приходится этими и

другими методами обрабатывать значительные массивы данных, обладающих специфическими особенностями и образующих сложную структуру данных. Поэтому для решения реальных задач необходимо использование ЭВМ и соответствующих баз данных.

Как отмечалось в наших предыдущих статьях (Тропп и др. 2002а,б,в,г), стохастические математические модели биологических процессов, наряду с детерминированными моделями, имеют широкое распространение. В данной статье мы будем использовать более узкое понятие математической модели исследуемых явлений. Мы будем предполагать, что исследуемый объект (или определённые числовые характеристики объекта) с достаточной степенью адекватности могут быть описаны в виде случайной величины, случайного вектора или случайной функции. Заключения о свойствах объекта мы делаем на основе наблюдений (выборки), которые представляют собой п независимых копий объекта или п независимых траекторий случайного процесса, описывающего изучаемый объект. Число п здесь называется объёмом выборки. Иногда предполагается, что наблюдается одна, но достаточно длинная траектория соответствующего случайного процесса. В этом случае в предположении эргодичности этого процесса необходимую нам информацию об объекте можно извлечь из одной траектории.

Остановимся на некоторых дополнительных особенностях изучаемых нами моделей. Одной из причин появления случайности в моделях исследуемых объектов является наличие стохастических погрешностей в детерминированных уравнениях, описывающих аналитические связи наблюдений с некоторыми известными переменными. Таким образом, считается, что "идеальные наблюдения" при отсутствии нежелательных погрешностей не включали бы в себя случайности.

Даже всем известный закон Ньютона при конкретной опытной проверке имеет погрешности, часто объясняемые отклонениями от идеальных условий проведения эксперимента. Принято считать, что при идеальных условиях этот закон выполняется точно. Исследование явлений, включающих подобного рода случайность, часто проводится методами математической статистики. При этом с точки зрения статистики закономерности, устанавливающие определённые связи между наблюдениями и некоторыми переменными, переходят в закономерности между стохастическими характеристиками наблюдений (например, математическими ожиданиями) и этими переменными.

Наряду с этими иногда рассматриваются модели, в которых случайность играет не только роль нежелательных погрешностей, но присутствует для объяснения причин наблюдаемых явлений. Широко известно, что случайный процесс Винера, или процесс броуновского движения, первоначально был открыт английским ботаником Броуном, наблюдавшим под микроскопом хаотические движения мелких частиц в некотором химическом растворе. Траектории движения этих частиц были столь замысловатыми, что первоначально зародилось предположение о "свободе воли" и, следовательно, о биологическом происхождении этих частиц. Позднее выяснилось, что наблюдавшиеся Броуном траектории являются типичными для траекторий виннеровского процесса, поскольку само движение частиц

вызвано их столкновениями с хаотически движущимися молекулами жидкости. Таким образом, положение частицы определяется суммой большого числа независимых между собой малых случайных сдвигов. Такая сумма, как известно, должна приближаться к виннеровскому процессу. Похожие рассуждения позволили Л.Башалье (Bachelier 1900) использовать винеров -ский процесс для описания модели эволюции стоимостей акций на рынке ценных бумаг. Это была одна из первых моделей в финансовой математике, использующих математическую теорию случайных процессов.

В теории вероятностей имеется много моделей явлений природы, описывающих явления в виде случайных процессов или случайных функций. Часто эти случайные функции являются решениями определённых стохастических дифференциальных, интегральных или интегро-дифференциаль-ных уравнений.

Эти модели принципиально отличаются от моделей с детерминированными дифференциальными уравнениями, поскольку обладают совершенно новыми свойствами. Например, для стандартного винеровского процесса wt

о ^

в то время как для детерминированной функции

г ч;2

\wsdws = Чг • 0 1

Таким образом, для стохастических процессов возникают дифференциальные уравнения, решения которых отличаются от решений уравнений, описывающих детерминированные явления. Различие в приведённых выше формулах вызвано, грубо говоря, тем, что за малое время Аt приращение винеровского процесса пропорционально а не как для детерминированной функции (см.: Вентцель 1996).

Наконец отметим, что стохастические модели иногда применяются и для анализа чисто детерминированных сложных систем, зависящих от большого числа факторов. В этом случае сначала выделяют небольшое количество главных факторов, от которых зависимость выходного значения наибольшая, а суммарное влияние остальных факторов рассматривают как случайную ошибку. К этому подходу примыкает также точка зрения выдающегося советского математика А.Н.Колмогорова (1987), рассматривавшего случайную числовую последовательность как последовательность, имеющую максимальную сложность. Под сложностью он понимал минимальную длину программы для ЭВМ, написанной на специальном алгоритмическом языке, с помощью которой можно было бы воссоздать данную случайную последовательность. Удивительно, но так определённые случайные последовательности обладают многими свойствами обычных случайных последовательностей, построенных на основе теории меры.

Классический подход и общие принципы проверки статистических гипотез

В статистическом анализе обычно рассматриваются аспекты анализа данных, не являющиеся специфическими для какой-либо частной области исследований. Они представляют собой общие идеи и методы, которые после соответствующих видоизменений могли бы применяться в различных областях приложений. Поэтому разработка того или иного статистического анализа начинается с выбора достаточно формализованной математической модели, в рамках которой рассматриваются различные задачи проверки гипотез, классификации наблюдений, оценивания и т.д. Тем не менее, каждая область приложений имеет свои особенности в интерпретации данных и предлагаемых статистических решений. Более того, существует разумная точка зрения, согласно которой статистические процедуры только преобразуют данные в удобную для принятия решений форму. Окончательное же решение (хотя бы на этапе выбора уровня значимости) принимает специалист в конкретной содержательной области науки.

Модели могут быть самые разнообразные, рассчитанные как на чисто статистический, так и на логический анализ данных. Вопрос об адекватности выбранной модели исследуемым данным является трудным, и обычно основывается на большом опыте исследований в конкретной области и на чисто житейском опыте. Выбор модели фиксирует некоторые "априорные" знания об изучаемом объекте, которые, безусловно, всегда имеются у исследователя. Ограничения модели могут иметь разную форму. Например, они могут приводить к предположениям: 1) о форме зависимости данных от некоторых факторов; 2) об ограничениях на теоретические распределения данных; 3) о независимости определённых признаков и т.д.

Например, если мы наблюдаем популяцию птиц одного пола и примерно одного возраста, то скорее всего, их размеры и веса подчиняются нормальному распределению. Если в популяции присутствуют особи разного пола и возраста, то можно ожидать, что распределение данных является смесью нормальных распределений и т.д.

Некоторые предположения можно сделать на основе общетеоретических рассуждений, другие делаются на основе многолетнего опыта работы с конкретным материалом.

Иногда можно предполагать, что наблюдаемые данные представляют собой логические следствия некоторых известных случайных или детерминированных явлений. Такие ограничения приводят к логическому анализу данных или к смешанному логически-статистическому анализу. Например, при исследовании мигрирующих птиц следует учитывать погодные условия на пути их миграции. При этом можно использовать известные связи между погодными условиями и наблюдениями, либо рассматривать погодные условия как часть наших статистически изучаемых данных.

Подчеркнём, что выбор стохастической модели явления является важной, если не самой важной, частью анализа данных. Модель должна быть достаточно простой, хорошо объяснимой с точки зрения области приложения этой модели и не должна содержать большого числа параметров. Следует учитывать, что практически для любых реальных данных стохастическая модель является лишь приближением к действительности. Насколько

хорошее приближение выбрано иследователем, зависит во многом от его знаний и интуиции. К сожалению, неадекватные стохастические модели и неправильная интерпретация данных часто приводят к неверным статистическим выводам, а иногда и просто к парадоксам. Так, например, известный советский математик академик Фоменко провёл сложное сравнительно статистическое исследование правителей древнего мира и средневековья. Сравнивались генеалогические деревья правителей, учитывались длительность правления, причины смерти, число детей и пр. Вывод был парадоксальный — сравниваемые массивы данных идентичны. Это означало, что либо древнего мира, либо средневековья не существовало. Естественно, всё сообщество историков восприняло это исследование как противоречащее фактам, например, фактам археологии. Тем не менее Фоменко в своих исследованиях использовал допущения, приёмы и методы, часто используемые при статистической обработке данных.

Вернёмся к формальной постановке задачи.

Простейшая классическая постановка задачи проверки статистических гипотез такова. Согласно выбранной модели данных, имеются наблюдения, называемые в статистике выборкой, которые представляют собой одномерные или многомерные обычно независимые случайные векторы. Обозначим всю выборку одной буквой X. Имеется основная интересующая исследователя гипотеза Н(0) и совокупность альтернативных гипотез Н, а также набор возможных решений Б, из которых исследователь выбирает своё решение. Для проверки основной гипотезы требуется на основе выборки наиболее оптимальным способом выбрать правило принятия решения, т.е. выбрать функцию с1 = с1(Х) со значениями из Б. Обычно Б = {да, нет}, где "да" означает принятие испытуемой гипотезы, "нет" — её отвержение. Можно использовать и другие наборы Б, например, можно считать, что Б — это числа интервала [0,1] и интерпретировать ё из Б как вероятность, с которой нужно отвергнуть гипотезу Н(0) при получении наблюдений X, т.е. окончательное решение в этом случае принимается с помощью соответствующей процедуры случайного выбора. Можно также к Б добавить значки, означающие недостаточность информации для принятия определённого детерминированного решения, значки, указывающие на противоречивость данных в рамках выбранной модели и т.д. Всё это влияет на логическую структуру процедуры принятия решения и на сам характер принимаемых решений. Например, если в выборке появилось резко выделяющееся наблюдение, не похожее на остальные, то можно поступать по-разному. Согласно одной модели обработки, это наблюдение не следует учитывать вовсе. Согласно другой модели, на основании наших наблюдений следует выбрать распределение данных с "тяжёлыми хвостами", которое допускает такую структуру наблюдений. Наконец, согласно третьей модели, при соответствующем выборе набора возможных решений Б и способа принятия решений следует сигнализировать об определённых противоречиях в данных.

Оптимальность выбора функции от наблюдений й = с1{Х) также можно понимать по-разному. В классической статистике обычно предполагается, что имеется некоторая параметрическая модель наблюдений, т.е. что теоре-

тическая функция распределения данных имеет вид P{t,X), где t — некоторый вектор неизвестных параметров (например, можно предполагать, что теоретическое распределение нормально, считая параметрами математическое ожидание и дисперсию). В этом случае задача принятия решений состоит в выборе истинного значения параметра t или в проверке какой-либо гипотезы о значении этого параметра (например, в случае нормальности наблюдений можно оценить математическое ожидание или проверить гипотезу о том, что это математическое ожидание превосходит заданный порог). В этом случае естественно считать, что функция d(X) принимает значения из области возможных значений параметра t, и равенство d(X) = t означает, что согласно принятому решению, значения параметра модели равно t.

Для формализации задачи принятия решения в случае параметрической модели наблюдений вводят специальную функцию, называемую функцией потерь, L(t,d(X)), которая описывает потери (например, в денежном выражении), если мы приняли значение параметра равным d(X) в то время, как истинное значение параметра равно t. Например, если все неправильные решения неприемлемы в одинаковой степени, то можно считать, что потеря от любого неправильного решения одна и та же и равна, к примеру, единице, а правильное решение ведёт к отсутствию потерь. В этом случае функция L(t,d(X)) = 1, если принято неправильное решение, и L(t,d(X)) = О, если принято правильное решение.

Оптимизация состоит в выборе решения d = d(X), минимизирующего функцию риска R(t,d) = EL(t, d(t)). Здесь буква Е обозначает математическое ожидание, соответствующее теоретической функции распределения P{t,X), т.е. математическое ожидание берётся, грубо говоря, в предположении, что истинное значение параметра есть t.

Стихийно на бытовом уровне такой подход применяется довольно часто, хотя и не осознанно. Например, если мы предпринимаем поездку на поезде, то обычно приходим к нему за 15-20 минут до отправления, если же мы собираемся лететь на самолёте, то оставляем гораздо больший запас времени. Это связано с тем, что мы сознаём, что потери (в том числе и финансовые) при опоздании на самолёт значительно больше. Поэтому мы готовы пойти на дополнительные затраты, связанные с более ранним приездом в аэропорт. В обоих случаях может случиться случайный набор обстоятельств, ведущий к опозданию, но при путешествии на самолёте в силу выбранной нами стратегии поведения вероятность этого стечения обстоятельств меньше, поэтому математическое ожидание потерь от возможности опоздания не велики.

К сожалению, минимизировать функцию двух переменных R{t,d) за счёт выбора решающего правила d одновременно по всем значениям t в большинстве случаев невозможно. Можно, конечно, использовать минимаксный подход, рассчитанный на наихудший случай, т.е. выбирать решение d(X), минимизирующее максимум по t функции R{t,d), но такой подход считается слишком осторожным.

Для иллюстрации рассмотрим следующий пример. Пусть данные представляют собой измерения длины крыла изучаемых птиц. Предположим, что эти наблюдения имеют теоретическое нормальное распределение с ма-

тематическим ожиданием т и дисперсией о2. В этом случае t — (т, а2). Пусть, согласно правилу принятия решений d(X), верны равенства т = то, о2 =оо2, где т0 = mQ(X), <т02 = ctq{X) — известные функции от наблюдний X. В этом случае, например, разумно выбрать функцию потерь вида L = \т - т0| + |<т - сго|. Тогда, конечно, не все неправильные решения равнозначны. Здесь, грубо говоря, чем дальше теоретическое распределение от предполагаемого по правилу принятия решений, тем потери больше.

Функция риска в этом случае равна

R = R(m, <j2,d) = J р(Х)(\т-щ\ + \(г-ст0(Х)\(1Х,

где р(Х) — плотность распределения нашей нормальной выборки с параметрами тис/. Оптимизация в этой задаче сведётся к выбору функций т0 и сг02 от наблюдений X, на которых достигается минимум функции R. Разумеется, минимум для всех значений т и с? одновременно достигается только в исключительных случаях. Минимаксный подход в этом случае сводится к выбору таких функций т0, со2, для которых максимум функции R по всем допустимым значениям переменных т, с? будет наименьшим.

Иногда разумно предполагать, что сам параметр t случаен и имеет некоторое "априорное" распределение. Тогда можно минимизировать средние потери вида Е = E(d) = ER(t,d), поскольку после взятия математического ожидания зависимость от t исчезнет, и Е теперь является функцией только решающего правила d(X). Такой подход к проверке статистических гипотез называется байесовским. Например, если мы наблюдаем некоторую популяцию птиц, и множество значений параметра t состоит из двух значений М и F, где М соответствует мужскому полу особи, a F — женскому, то в качестве априорных вероятностей для М и F можно взять частоты количества самцов и самок в предыдущих аналогичных исследованиях.

Рассмотрим случай, когда имеются только две гипотезы: нулевая Н(0) и альтернативная Н( 1),— и эти гипотезы являются простыми. Это означает, что они однозначно определяют соответствующие теоретические распределения наблюдений, поэтому D = {да,нет}, где "да" соответствует высказыванию в пользу нулевой гипотезы, "нет" — высказыванию против неё. Будем считать, что в этом случае параметр t принимает только два значения: 0 и 1, причём t = 0 означает справедливость гипотезы Н(0), a t = 1 означает справедливость гипотезы Н(\). Тогда можно поступить следующим образом. Сначала ограничиться классом функций d(X), для которых R(0,d) < а, для некоторого достаточно малого числа а (например, а = 0.01), называемого уровнем значимости статистического критерия, затем в этом классе минимизировать функцию R(l,d).

Наиболее просто это правило проверки гипотез выглядит в теории Неймана-Пирсона (см.: Леман 1977), в которой конкретизируется функция потерь L. В теории Неймана-Пирсона предполагается, что L = 1, если согласно выбранному правилу принятия решений, принимается ошибочное решение и L = 0, если решение правильное. При таком выборе функции L задача сводится к условной минимизации вероятности ошибки второго рода при условии, что вероятность ошибки первого рода р(1) — это вероятность отвергнуть Н(0), когда она верна. Вероятность ошибки второго рода

р(2) — это вероятность принять нулевую гипотезу, когда она не верна. В этом случае, согласно теории Неймана-Пирсона, оптимальный критерий состоит в том, что с1{Х) = "нет" (т.е. нулевая гипотеза отвергается), если Т(Х) > С, где Т — отношение правдоподобия: Т = р{\,Х) /рф,Х); р(1,Х) и р((0,Х) — теоретические плотности распределения при справедливости первой и нулевой гипотез, соответственно; С — постоянная, определяемая уровнем значимости а с помощью уравнения Р0(Т > С) = а, где Р0 — условная вероятность при справедливости нулевой гипотезы.

Назовём Я — 1 - р(2) мощностью критерия. Тогда построенный в теории Неймана-Пирсона критерий сводится к условной максимизации Я и называется наиболее мощным. Часто такие критерии являются равномерно наиболее мощными по широкому классу альтернативных гипотез Н{ 1) (Неман 1977).

Для иллюстрации рассмотрим пример из книги Н.Бейли (1962). Предположим, что мы поймали 3 птиц, средняя масса тела которых оказалась 89.33 г. Спрашивается, значимо ли различие между этой величиной и известным теоретическим средним, равным 95.61 г, если среднеквадратичная ошибка известна и равна 4.52 г, и распределение массы предполагается нормальным.

Для решения этой задачи рассмотрим разность выборочного и теоретического средних. Обозначим её буквой т. После вычислений получим, что т — -6.28 < 0. Поэтому в нашем случае можно положить: Н(0) = {т = 0}, Н( 1) = {т — т( 1)}, где т{ 1) < 0 — некоторое число, вообще говоря, нам неизвестное. Квадратичное отклонение от этого распределения равно 4.52. Наблюдённая разность, выраженная в долях квадратичного отклонения, равна 6.28/4.52 = -1.39. Согласно теории Неймана-Пирсона, нулевая гипотеза отвергается, если Т(Х) > С. Последнее неравенство может быть переписано в виде т. / (4.52) < С', где взяв, например, уровень значимости а = 0.05, получим из таблиц нормального распределения С'= -1.7. Это означает, что рекомендуется отвергнуть нулевую гипотезу только если т / 4.52 < -1.7, а вычисленное нами значение этого отношения -1.39 говорит о том, что наблюдения соответствуют предполагаемому распределению. Отметим, что построенный в этом примере критерий является равномерно наиболее мощным для всех альтернатив против т < 0.

Интуитивно на этот критерий можно посмотреть следующим образом. Если Т\Х) > С, то следует признать, что произошло очень маловероятное событие (вероятности, не превосходящей числа а) и нулевая гипотеза верна, или что нулевая гипотеза не верна. Считается, что наблюдатель обычно не доверяет маловероятным событиям и отвергает в этом случае нулевую гипотезу.

Логика построения критериев в этом классическом примере присутствует практически во всех конструкциях критических областей, в том числе и при построении критериев для испытания сложных гипотез. (Здесь под сложной гипотезой мы понимаем гипотезу, не определяющую истинное распределение полностью, а определяющую лишь семейство распределений, к которому истинное распределение принадлежит.) Сначала определяется некоторое зависящее от выборки событие А, вероятность которого

при нулевой гипотезе не превосходит заданного малого уровня значимости, а при нарушении нулевой гипотезы эта вероятность (мощность критерия) должна принимать большие значения. Затем решение о справедливости нулевой гипотезы принимается в зависимости от того, произошло или нет событие А. Конечно, вычисление вероятностей происходит в рамках выбранной вероятностной модели наблюдений. Определение этой модели выходит, как правило, за рамки работы математика и является результатом совместной деятельности математика и специалиста в соответствующей прикладной области исследований.

Таким образом, конструкция множества А определяется как исходными предположениями (выбор вероятностно-математической модели), так и характером решаемой задачи.

Рассмотрим предыдущий пример в ситуации, когда среднеквадратиче-ское отклонение не известно a priori, а вычислено по тем же наблюдениям, на основе которых принимается решение. В этом случае задачу нельзя решить в рамках теории Неймана-Пирсона, поскольку гипотезы зависят от неизвестного среднеквадратического отклонения и, следовательно, перестают быть простыми. Тем не менее, критерий можно построить на основе приведённой выше логики их построения. Действительно, теория показывает, что в данном случае можно пользоваться той же самой критической областью, выбирая постоянную С не из таблиц нормального распределения, а из таблиц распределения Стьюдента с двумя степенями свободы.

Приведённое выше обсуждение касалось, в основном, построения параметрических статистических процедур, поскольку предполагало, что теоретическое распределение наблюдений принадлежит какому-то известному параметрическому семейству наблюдений. Более детальное обсуждение этого вопроса можно найти в книге Э.Немана "Проверка статистических гипотез" (1977).

Дисперсионный анализ

Остановимся на одной широко используемой в приложениях модели организации данных — на дисперсионном анализе. Для простоты рассмотрим случай двухфактороного дисперсионного анализа без взаимодействия факторов. Случай многофакторного дисперсионного анализа рассматривается аналогично. При полном двухфакторном анализе предполагается, что наблюдения имеют следующую форму:

/ J

Xi j = a + at + Pj + £i j, i = 1,2, ...,/, y = l,2,...,/, = 0, = 0.

i=1 7=1

Здесь а называется общим средним, a, — i-м уровнем фактора a, fy — j-м уровнем фактора Д Sjj представляют собой независимые между собой погрешности. (Иногда предполагают погрешности зависимыми с известной ковариационной матрицей.) Проверяются гипотезы об отсутствии влияния фактора а (т.е. все щ равны нулю) или об отсутствии влияния фактора р (т.е. все /3j равны нулю).

Например, Xtj могут обозначать массы пойманных птиц, а — фактор, связанный с полом птицы, р — фактор одного из J мест обитания пойман-

ных птиц. Можно проверять гипотезы о влиянии пола на массу тела птицы или о влиянии на неё условий местообитания.

Конечно, приведённая выше схема дисперсионного анализа проверяет лишь гипотезу о линейной зависимости математических ожиданий наблюдений от определённых факторов. В работе Г.Шеффе (1963) анализируются также некоторые виды нелинейных зависимостей математических ожиданий от соответствующих факторов.

Для решения задач дисперсионного анализа строится определённое выражение, называемое дисперсионным отношением, и решение принимается в зависимости от того, превосходит ли это выражение заданный уровень или нет. Отметим, что для задания зависимости этого уровня от уровня значимости критерия необходимо конкретизировать распределение погрешностей. Обычно эти погрешности предполагаются нормально распределёнными, хотя на качественном уровне предлагаемому критерию можно придать определённый разумный геометрический смысл и без уточнения вида распределения погрешностей.

Описанная общая конструкция построения критериев позволяет строить большое их число. Возникает проблема выбрать среди них наиболее оптимальный, причём оптимальность может пониматься с различных точек зрения. Для параметрического случая эта задача хорошо исследована, и для многих ситуаций приемлемые критерии найдены. Для непараметрических критериев, о которых речь пойдет в следующей части нашей статьи, дело обстоит значительно хуже. Количество разработанных и опубликованных к настоящему времени критериев насчитывает несколько сотен наименований. Некоторые из этих критериев относятся к однотипным статистическим задачам. Поэтому задача эффективного сравнения непараметрических критериев является и сейчас актуальной и для многих случаев нерешённой. С ситуацией по этому вопросу на сегодняшний день можно ознакомиться в монографии Я.Ю.Никитина (1995).

Классификация и оценки максимального правдоподобия

Вернёмся к критерию Неймана-Пирсона проверки простой гипотезы против простой альтернативы. Переформулируем задачу в параметрической постановке.

Имеется выборка X и семейство возможных теоретических плотностей выборки р(Х,0). Простая нулевая гипотеза имеет вид HQ\ 0 = <90, а простая альтернативная гипотеза Н\. 0= 0\. Тогда, согласно приведённой в начале статьи лемме Неймана-Пирсона, мы вибираем гипотезу Щ, если р(Х,0ь) > Ср(Х,0i), и выбираем гипотезу Яь если выполняется противоположное неравенство. Постоянную С мы выбираем в соответствии с выбранным уровнем значимости критерия.

В монографии С.Р.Рао (1968) проведено обобщение критерия Неймана-Пирсона на задачи классификации. В отличие от задачи Неймана-Пирсона, в задаче классификации a priori предполагается справедливость не одной из двух, а одной из к попарно несовместных гипотез:

Hi: 0 = &h / = 1, 2,...,

Задача состоит в оптимальном выборе одной из этих гипотез. Не уточняя понятия оптимального выбора гипотез, приведём решение этой задачи в байесовской постановке. Последнее означает, что при принятии решения мы располагаем априорными вероятностями гипотез, т.е. вероятностями

pi = P(@ = @i), / = 1,2,

вычисленными заранее без учёта наблюдений, на основании которых выбирается гипотеза. В этом случае оптимальное правило выбора, минимизирующее математическое ожидание числа ложных классификаций (при многократном применении этого правила) состоит в выборе той гипотезы, на которой достигается максимум произведения PiP^X), / = 1, 2, ..., к. В том случае, когда априорные вероятности гипотез отсутствуют, разумно предполагать все рассматриваемые гипотезы a priori равновероятными, т.е. предполагать pi = 1 /к, i = 1, 2, ..., к. Тогда мы придём к принципу максимального правдоподобия, согласно которому выбирается та гипотеза, на которой функция правдоподобия р(Х, 0), 0 — 0и i = 1, 2, ..., к, достигает наибольшего значения. В теории классификации функции от выборки, на основании которых производится классификация, называются дискрими-нантными информантами. Монотонные преобразования множества дис-криминантных информантов (т.е. преобразования, при которых большему значению дискриминантного иформанта соответствует большее значение преобразования) дают нам снова дискриминантные информанты.

Например, наблюдатель измеряет т характерных признаков пойманных птиц (масса тела, длина крыла и т.д.) и на основании анализа аналогичных наблюдений за много лет он хочет построить дискриминантную функцию, относящую пойманную птицу к тому или иному виду. Предполагается, что наблюдаемые признаки имеют многомерное нормальное распределение с математическими ожиданиями, зависящими от вида птицы, и с одинаковыми для всех видов ковариационными матрицами. В этом случае, записанные в матричной форме, дискриминантные информанты будут иметь вид

Si = [¿IT1)Х- l2/R-+ logPi,

где R — общая ковариационная матрица наблюдений, juh i = 1, 2, ..., к, векторы математических ожиданий признаков для каждого вида, — априорные вероятности поимки птицы /-го вида. В качестве этих априорных вероятностей можно взять частоты поимки птиц каждого вида за многолетние предшествующие наблюдения, а в качестве ковариационной матрицы и векторов математических ожиданий можно взять стандартные статистические оценки, вычисленные на основе предшествующих наблюдений. Таким образом, для классификации нам достаточно на основе наблюдений вычислить линейные функции -S1, и выбрать гипотезу Hj, на которой достигается максимум S^

Похожие выводы можно сделать и на основе информационного подхода. В этом случае вводится специальное информационное расстояние между распределениями, и выбирается то из гипотетических распределений, которое ближе к выборочному распределению. По этому поводу — см. монографию С.Кульбака (1967).

Полученный выше принцип максимального правдоподобия пригоден и для случая бесконечного множества гипотез 0. В этом случае, естественно, решение представляет собой оценку параметра 0, называемую оценкой максимального правдоподобия. Функция р(Х,0), рассматриваемая как функция параметра 0, называется функцией правдоподобия, а оценка максимального правдоподобия есть то значение 0, на котором достигается максимум функции правдоподобия.

Метод максимального правдоподобия является наиболее распространённым методом оценивания в математической статистике. Он продолжает общие традиции, идущие, вероятно, из физики, сведения многих научных проблем к экстремальных задачам. Этот метод обладает хорошими асимптотическими свойствами. В частности, при определённых условиях оценки максимального правдоподобия асимптотически нормальны. Практически это позволяет для многих распределений при больших объёмах выборки предполагать, что исходные данные имеют нормальное распределение. Однако в последние годы выяснилось, что, казалось, вырожденные ситуации, когда асимптотической нормальности оценок нет, представляют для статистиков также очень большой интерес.

Метод наименьших квадратов

Известно, что в случае нормальности наблюдений метод максимального правдоподобия превращается в другую экстремальную задачу — в метод наименьших квадратов. Мы рассмотрим этот метод на примере одномерных регрессионных задач.

Предположим, что для оценки р неизвестных параметров ^ ис-

пользуется п независимых наблюдений у2, ..., уп, причём эти величины связаны соотношениями

р

Уг = £*//у + е» = 1, 2, Л.

У = 1

где Хц суть известные значения контролируемых наблюдателем переменных, а £[ — независимые нормальные случайные величины с нулевым математическим ожиданием и одинаковой неизвестной дисперсией о2. Отметим, что качественные выводы на основе геометрических свойств метода наименьших квадратов можно делать и без предположения нормальности погрешностей.

Оценки наименьших квадратов г), у = 1, 2, ..., р,— это те значения параметров на которых достигается минимум выражения

<2

Г п р ^

Ни- I*/,//

Ч/ = 1 у = 1 У

Таким образом, методом наименьших квадратов мы определяем приближённую линейную зависимость между контролируемыми переменными и нашими наблюдениями.

Приравнивая производные функции 0 по переменным г) к нулю, легко получим систему линейных уравнений, из которой определяются оценки

наименьших квадратов. Эти уравнения, называемые нормальными уравнениями, просто записываются в матричном виде. Действительно, введём: вектор-столбец у, состоящий из всех наблюдений у^ у = 1, 2, ..., п, вектор-столбец состоящий из параметров /' = 1, 2, ..., р, матрицу X, имеющую п строк и р столбцов, состоящую из величин Тогда система нормальных уравнений будет иметь вид

ХтХг = Хту.

Здесь X7 — транспонированная матрица для матрицы X.

Известно, что если матрица ХТХ не вырождена, то оценки наименьших квадратов определяются однозначно по формуле:

/ = (ХГХ)-1^

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

В случае вырожденности матрицы ХТХ система нормальных уравнений имеет бесконечное множество решений, каждое из которых доставляет минимум функции 0.

Приведённая схема метода наименьших квадратов носит общий характер. Остановимся на некоторых более частных схемах.

Пусть наблюдения линейно с точностью до случайных погрешностей е зависят от некоторой детерминированной переменной г, которая может быть временем, температурой, высотой местности над уровнем моря или какой-нибудь другой содержательной характеристикой условий, при которых получено соответствующее наблюдение. Это можно записать в форме обычной линейной зависимости

у = А) + +

или в форме представления выборки

Уг = + ' = 1,2,..., П.

Таким образом, в рассмотренной выше схеме мы взяли А = Д, /2 = А, х/д = 1, х/2 = 1и г = 1, 2, ..., п. Вычисления показывают, что решая нормальные уравнения для этого случая, мы получаем следующие оценки:

п

I (г,- - - у)

Кг/-г)2

1=1

2 п \ п

Здесь у = - 1 = ~ Е*/-

«/=1 «1 = 1

Нетрудно понять, что подобные вычисления можно проводить для квадратичной зависимости наблюдений от известной детерминированной переменной. Более того, можно рассматривать полиномиальную зависимость любой степени. Конкретные вычислительные формулы для оценки коэффициентов будут различны, но все они, конечно, будут решениями соответствующих нормальных уравнений.

Тем не менее, предаваться эйфории по поводу простоты использования метода наименьших квадратов преждевременно. Трудности часто появляются на этапе выбора модели. Например, возникает вопрос, какую зависи-

Тем не менее, предаваться эйфории по поводу простоты использования метода наименьших квадратов преждевременно. Трудности часто появляются на этапе выбора модели. Например, возникает вопрос, какую зависимость выбрать, линейную или квадратичную. С одной стороны, чем выше степень многочлена, тем точнее можно этим многочленом приблизить наши наблюдения. С другой стороны, чем выше степень многочлена, тем больше параметров нужно оценивать. Это влияет на надёжность соответствующих статистических выводов.

Один из способов убедиться в правильности выбранной модели заключается в следующем. Выберем, например, квадратичную зависимость. Затем проверим методами дисперсионного анализа гипотезу о равенстве нулю коэффициента при квадратичном члене. Если эта гипотеза принимается, то можно остановиться на линейной зависимости, а если отвергается, то следует таким же образом сравнить квадратичную зависимость с зависимостью, описываемой многочленом третьей степени.

Можно качество выбранной модели оценивать величиной остаточной дисперсии, равной

п ( р ^2

Оо = I У/ - I

/ = 1Ч у = 1 У

В случае адекватности модели эта величина, делённая на дисперсию наблюдений, должна иметь ^-распределение с (п-р) степенями свободы. Поэтому большие значения этой статистики говорят либо о большой исходной дисперсии наблюдений, либо о неадекватности модели.

В рассмотренных выше примерах мы использовали полиномиальную зависимость данных от детерминированной переменной. Но бывают случаи, когда такое предположение только усложняет нахождение истинной зависимости. Например, наблюдения могут зависеть от переменной периодически. Это часто происходит, когда на наблюдаемую переменную влияет температура окружающего воздуха, время дня, время года и т.д. В этом случае разумная модель имеет вид

у = а со^{Ьг) + с 8И1(й^) + е,

где постоянные Ь, ё известны.

Полиномиальная модель в этом случае даст хорошее приближение только при высокой степени аппроксимирующего полинома. Это приведёт к сложностям и, в конечном счёте, к не очень надёжным выводам. Поэтому выбор аппроксимирующей функции требует глубокого знания изучаемого материала.

Робастная регрессия

Другая сложность, связанная с методом наименьших квадратов, состоит в наличии в выборке аномальных элементов. Присутствие таких элементов может быть обусловлено как природой наблюдаемого явления (например, не нормальными распределениями ошибок или сложным видом регрессионной зависимости), так и редкими грубыми отклонениями от методики проведения наблюдений. Последнее приводит к тому, что теоретическое

рактеристиками. Борьбу с такими аномальностями осуществляют так называемые робастные оценки.

Термин "робастность", введённый впервые П.Хьюбером в 70-х годах прошлого века, означает устойчивость статистических выводов по отношению к отклонениям от "идеальных" априорных предположений. Так, например, обычно наблюдения предполагаются распределёнными по нормальному закону. Тем не менее наблюдатель никогда не может иметь полной уверенности в справедливости этого предположения. Оценки же наименьших квадратов очень чувствительны к отклонениям от нормальности. Например, присутствие в выборке небольшого числа аномальных наблюдений (которые ошибочно попали в выборку и имеют характеристики, резко отличающиеся от характеристик основной массы наблюдений) может сделать непригодными оценки наименьших квадратов. Если же применять описываемый ниже метод наименьших модулей, то полученные согласно этому методу оценки испортятся значительно меньше. В этом случае оценки метода наименьших модулей считаются более робастными, чем оценки наименьших квадратов.

Первоначально Хьюбер термину "робастность" придал чёткий математический смысл, который, конечно, соответствует тому описанию робаст-ности, которое мы привели выше. Позднее Хампель использовал этот термин в несколько более общем математическом смысле. В более поздних, особенно прикладных, публикациях термин "робастность" стал широко применяться не как математический термин, а как синоним слова "устойчивость".

Часто одной из рекомендаций при обработке наблюдений является требование визуального контроля качества выборки. Следование этой рекомендации приводит, в частности, к тому, что выявленные аномальные наблюдения изымаются их выборки, и обработке подвергаются оставшиеся наблюдения. В итоге мы получаем стихийные робастные оценки, в которых резко выделяющиеся наблюдения не учитываются, так сказать, волюнтаристски, поскольку наблюдатель на глазок решает, какие наблюдения аномальны, а какие нет. При таком подходе наблюдатель имеет возможность получать желаемые выводы, например, отбрасывая данные, находящиеся в противоречии с выбранной им формой зависимости. Особенно это относится к ситуации, когда обрабатывается сравнительно небольшое число однородных данных.

Рассмотрим пример из работы П.Хьюбера (1984). Пусть данные зависимости у от х соответствуют таблице:

Номер точки 1 2 3 4 5 6

X -4 -3 -2 -1 0 10

У 2.48 0.73 -0.04 -1.44 -1.32 0

Предполагая линейную зависимость у от х, легко получим из метода наименьших квадратов

у = 0.41 - 0.077*.

Если относится к этому выводу формально, то его вполне можно принять, поскольку остаточная дисперсия небольшая, да и дисперсионный

Если относится к этому выводу формально, то его вполне можно принять, поскольку остаточная дисперсия небольшая, да и дисперсионный анализ даёт приемлемые результаты. Мы можем в целях повышения точности попытаться найти приближение с помощью квадратичной функции, что приведёт нас к параболе. Эта парабола уже при не очень больших положительных х даёт значения, сильно отличающиеся от значений на прямой. Наконец, мы можем обнаружить, что шестое наблюдение сильно отличается от остальных и отбросить его. Тогда мы получим прямую, близкую к прямой у = - 2-х, которая даёт очень маленькую остаточную дисперсию. Отметим, что данные этого примера получены моделированием. Первые 5 точек взяты на прямой у = -2 - х и изменены добавлением случайных нормальных погрешностей (со средним 0 и стандартным отклонением 0.6), а шестая точка взята сознательно аномальной. Этот пример показывает, насколько путает карты исследователю даже одно аномальное наблюдение.

Теперь обсудим кратко подход Хьюбера (1984) к робастному оцениванию. Предположим сначала, что выборка имеет представление

yi = £h i = 1, 2, ..., п,

где погрешности st независимы и имеют функцию распределения вида

Fix) = (1 - 8)Н(х) + 8G{x).

Здесь Н{х) — функция распределения известного (например, нормального) распределения; G(x) — функция распределения аномального распределения, которое может быть полностью или частично известным, параметр загрязнения выборки 8 считается известным малым числом. Таким образом, в выборке присутствует в среднем 8п аномальных наблюдений. Предполагается, что распределения Н, G симметричны. Требуется найти оценку параметра Д на точность которой не влияют "плохие" свойства аномальных наблюдений.

В первой части нашей работы было сформулировано одно необходимое требование к математической модели — её корректность. Это требование состояло в том, что малые изменения модели должны мало влиять на получаемые из неё выводы. В нашей модели разумно считать, что присутствие малой доли аномальных наблюдений является малым изменением модели. Поэтому свойство робастности оценок является крайне желательным.

Простейший подход к получению приемлемой оценки состоит в том, что в качестве оценки берут выборочную медиану т. Она для нечётных п определяется следующим образом. Все наблюдения упорядочиваются по возрастанию, и в качестве т берётся элемент с номером (п +1)/2 среди всех этих упорядоченных элементов выборки. Для чётных п берётся среднее арифметическое элементов с номерами п/2 и я/2 + 1. Поскольку элементы выборки вблизи выборочной медианы концентрируются достаточно тесно, то легко видеть, что наличие небольшого числа аномальных наблюдений мало влияют на значение выборочной медианы.

Это означает, что выборочная медиана обладает хорошими робастными свойствами. Хорошо известно, что при слабых предположениях выборочная медиана является асимптотически нормальной. Выражение для её

вычислять асимптотическую эффективность оценивания с помощью приведённого метода. Отметим, что она достаточно высока.

Известно, что точно так же, как на среднем арифметическом элементов выборки достигает минимума функция

е<*)= -¿о2, /=1

на выборочной медиане достигает минимума функция

т= Ъу1-а I-

1 = 1

Поэтому можно ожидать, что в задаче о линейной регрессии мы получим более робастную оценку, если вместо метода наименьших квадратов будем использовать метод наименьших модулей. Это означает, что в качестве оценки мы выбираем те допустимые значения параметров /), на которых достигает минимума выражение

01 = £\Уг~

1=1 7=1

В отличие от метода наименьших квадратов, получить простые аналитические формулы для оценок г) в этом случае не удаётся, но оценки нетрудно получить численно с помощью ЭВМ.

По аналогии с методом наименьших квадратов и методом наименьших модулей Хьюбер рассмотрел выражение вида

0г = Тр

1=1

' р Л

Л" X */,/./

V 7 = 1

Здесь р — некоторая известная выпуклая функция. Для метода наименьших квадратов р = х2, а для метода наименьших модулей р = |х|. В качестве оценок параметров он предложил рассматривать те их значения, на которых достигает минимума выражение 02- Такие оценки Хьюберт назвал М-оценками, поскольку они являются оценками максимального правдоподобия в случае, когда погрешности £ имеют плотность распределения вида

р{у) = А- ехр{-До(у)},

где А, В — положительные постоянные. В монографиях П.Хьюберта (1984) и Ф.Хампеля с соавторами (1989) исследованы асимптотические свойства М-оценок, доказана их асимптотическая нормальность, найдены выражения для асимптотических дисперсий. Это позволяет сравнивать М-оценки между собой, добиться выбора наиболее робастной оценки. Отметим, что функцию р можно, в частности, подобрать таким образом, что аномальные элементы выборки практически не участвуют в формировании соответствующей М-оценки.

Литература

Бейли Н. 1962. Статистические методы в биологии. М.: 1-260. Вентцель А.Д. 1996. Курс теории случайных процессов. М.: 1-399.

Колмогоров A.H. 1987. Таблица случайных чиселЦТеория информации

и теория алгоритмов. М.: 204-213. Кульбак С. 1967. Теория информации и статистика. М.: 1-408. Леман Э. 1977. Проверка статистических гипотез. М.: 1-498.

Никитин Я.Ю. 1995. Асимптотическая эффективность непараметрических критериев. М.: 1-238.

Pao С.Р. 1968. Линейные статистические методы и их приложения. М.: 1-547. Тропп Э.А., Егоров В.А., Морозов Ю.Г. 2002а. Математические методы для интеллектуальных баз данных в биологии. 1. Математические методы в биологии. Общий анализ //Рус. орнитол. журн. Экспресс-вып. 177: 163-171. Тропп Э.А., Егоров В.А., Морозов Ю.Г. 20026. Математические методы для интеллектуальных баз данных в биологии. 2. Уровни организации живого, математические языки их описания и корректность постановки задач математического моделирования //Рус. орнитол. журн. Экспресс-вып. 190: 631-642. Тропп Э.А., Егоров В.А., Морозов Ю.Г. 2002в. Математические методы для интеллектуальных баз данных в биологии. 3. Математические модели экологических систем //Рус. орнитол. журн. Экспресс-вып. 193: 723-735. Тропп Э.А., Егоров В.А., Морозов Ю.Г. 2002г. Математические методы для интеллектуальных баз данных в биологии. 4. Математические модели экологических систем //Рус. орнитол. журн. Экспресс-вып. 201: 951-966. Хампель Ф., Рончетти Э., Рауссеу П., Штаэль В. 1989. Робастностъ

в статистике. М.: 1-512. Хьюбер П. 1984. Робастностъ в статистике. М.: 1-303. Шеффе Г. 1963. Дисперсионный анализ. М.: 1-625.

Bachelier L. 1900. Theorie de la speculation//Annals scientifiques de l'Ecole Normale Supérieure 17: 21-86.

Ю OS

ISSN 0869-4362

Русский орнитологический журнал 2002, Экспресс-выпуск 205: 1100-1102

О Riparia riparia dolgushini Gavrilov et Savchenko, 1991

Э.И.Гаврилов

Центр мечения животных, Институт зоологии МОиН PK, Казахстан Поступила в редакцию 9 декабря 2002

Проведя ревизию азиатских береговых ласточек Riparia riparia (Linnaeus, 1758) и Riparia diluía (Scharp et Wyatt, 1893), B.M.JIockot и Э.Диккинсон (Loskot, Dickinson 2001) свели R. riparia dolgushini Gavrilov et Savchenko, 1991 в синоним R. riparia innominata Zarudny, 1916. Это заключение я считаю глубоко ошибочным, поскольку авторы не обратили внимания на происхождение коллекционных материалов Н.А.Зарудного (1916) и приводимые им размеры птиц.

В своей работе Н.А.Зарудный анализирует три формы береговых ласточек из Русского Туркестана.

1. Riparia riparia riparia, "которая обыкновенна на пролётах и на гнездовье (Аральское море, низовые части Сыр-дарьи и Аму-дарьи)" (с. 30). В

i Надоели баннеры? Вы всегда можете отключить рекламу.