Научная статья на тему 'Математические методы для интеллектуальных баз данных в биологии. 6. Элементы стохастического подхода к задачам обработки данных. Непараметрические критерии'

Математические методы для интеллектуальных баз данных в биологии. 6. Элементы стохастического подхода к задачам обработки данных. Непараметрические критерии Текст научной статьи по специальности «Математика»

CC BY
109
34
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Математические методы для интеллектуальных баз данных в биологии. 6. Элементы стохастического подхода к задачам обработки данных. Непараметрические критерии»

ISSN 0869-4362

Русский орнитологический журнал 2002, Экспресс-выпуск 207: 1147-1158

Математические методы для интеллектуальных баз данных в биологии. 6. Элементы стохастического подхода к задачам обработки данных. Непараметрические критерии

Э.А.Тропп, В.А.Егоров, Ю.Г.Морозов

Физико-технический институт им. А.Ф.Иоффе РАН, Санкт-Петербург, 194021, Россия Поступила в редакцию 31 мая 2002

Непараметрические критерии

Хорошо известно, что статистические процедуры более всего исследованы для нормальных выборок. Для этого случая за многие годы выросла обширная и развитая система статистической обработки регрессионных и факторных экспериментов, в частности, дисперсионный анализ.

Подчас исследователи предполагали нормальность выборки лишь по причине наличия только для этого случая разработанных соответствующих статистических процедур. Казалось, небольшое отклонение от нормального закона незначительно скажется на статистических выводах. Детальное изучение этого вопроса, однако, показало обратное. Поэтому, так же как и при оценивании параметров, при проверке статистических гипотез появились статистические процедуры, называемые робастными (см.: Хьюбер 1984; Хампель и др. 1989), рассчитанные на распределения, являющиеся смесью известных и хорошо изученных распределений (например, нормальных) и неизвестных аномальных распределений. Аномальные распределения по своим свойствам могут резко отличаться от основных распределений, причём доля аномальной составляющей предполагалась малой.

Результаты применения робастных статистических процедур малочувствительны к небольшим отступлениям от предпосылок основной модели. При значительном отличии генерального распределения от нормального или другого хорошо изученного распределения проверка корректности многих выводов нормальной теории перерастает в сложную проблему. В этом случае рекомендуется применять непараметрические методы, которые, как правило, обладают хорошими робастными свойствами. Эти методы обычно не предназначены специально для какого-нибудь параметрического семейства распределений. Они имеют значительно более обширную область приложений. Непараметрические критерии полезны ещё и тем, что не требуют многочисленных таблиц, различных для разных параметрических семейств. Для их использования достаточно иметь одну таблицу процентных точек, пригодную для всей обширной области применения критерия. В то же время непараметрические критерии, естественно, проигрывают в эффективности параметрическим критериям, специально построенным для выбранных параметрических семейств, в том случае, когда эти семейства адекватны наблюдаемым данным. Впрочем, как мы говорили в предыдущей части статьи (Тропп и др. 2002), рассчитывать на полную адекват-

ность рассматриваемых семейств распределений реальным наблюдениям приходится крайне редко.

Предположим, например, что в нашей выборке небольшая группа наблюдений сильно отличается от остальных. Это может быть вызвано как присутствием в выборке чужеродных наблюдений, так и особенностями распределения исследуемой популяции. Эта группа наблюдений может сильно влиять на выборочное среднее, но мало влиять на выборочную медиану (поскольку аномальных наблюдений в выборке присутствует незначительное число). Поэтому для таких выборок выводы разумнее делать на основе выборочной медианы, а не выборочного среднего.

Понятие "непараметрических методов", как и понятие "робастности" проверки статистических гипотез довольно размыто. В основном название "непараметрические" противопоставляет их традиционным параметрическим методам, предполагающим знание функционального вида теоретического распределения с точностью до параметра. В настоящее время многие задачи, разрешимые ранее только для узкого класса известных параметрических семейств, оказались в сфере действия непараметрических методов. В частности, это касается дисперсионного анализа, хотя в непараметрическом случае этот анализ уже не имеет дела с дисперсиями.

Перейдём к краткому описанию некоторых непараметрических критериев и задач, решаемых с их помощью. Для простоты мы рассматриваем здесь только одномерные данные. Мы используем здесь только критерии, основанные на знаковых и ранговых статистиках. Отметим, что рангом наблюдения мы называем его номер в упорядоченном ряду всех наблюдений выборки.

Задача о параметре сдвига

Пусть X— случайная величина с функцией распределения F(x,6). Мы говорим, что в является параметром сдвига семейства распределений F(x,0), если для любой постоянной с функция F(x, в + с) является функцией распределения случайной величины X + с. Параметрами сдвига являются математическое ожидание, медиана (т.е. такое число в, что F(x,0) = 1/2), мода (т.е. наибольшее значение плотности распределения) и т.д. Для некоторых распределений многие параметры сдвига могут совпадать. Так, например, для нормального распределения все три приведённые характеристики сдвига совпадают.

Пусть теперь для симметричной повторной выборки (т.е. для выборки, у которой плотность распределения симметрична относительно некоторого неизвестного центра симметрии а) проверяется гипотеза Н0\ а = 0. Параметр а в этом случае является параметром сдвига.

К этой же задаче легко сводится задача сравнения двух признаков при парных повторных наблюдениях. Статистикой критерия, т.е. функцией от выборки, на основании которой формируется критерий, является сумма положительных знаковых рангов, которая получается следующим образом. Абсолютные величины наблюдений ранжируются по возрастанию и суммируются те их ранги, для которых исходные наблюдения положительны. Если какие-либо наблюдения совпадают, то им соотносят одинаковые сред-

ние ранги (которые могут быть и дробными). Нулевая гипотеза (о равенстве признака нулю) отвергается, если значение вычисленной статистики меньше табличного значения. Таблицы для процентных точек этой статистики можно найти в соответсвующих справочниках (Wilcoxon et al 1973; Холлендер, Вульф 1983). Для больших выборок эта статистика после нормализации распределена приблизительно нормально, что позволяет пользоваться таблицами нормального распределения. Эта же задача решается и с помощью знаковой статистики, которая представляет собой сумму положительных наблюдений. С точки зрения простоты счёта последний критерий намного проще рангового, но он также является и менее эффективным. Подробнее с этими ранговыми и знаковыми критериями можно ознакомиться в работе Купмана (Koopman 1979). Обсуждение эффективности и состоятельности этих критериев приведено в статье Гапта (Gupta 1967). Ходжес и Леман (Hodges, Leman 1956) показали, что относительная асимптотическая эффективность приведённых критериев по сравнению с критериями, основанными на нормальном распределении выборки, во всех случаях не ниже 0.864. Для нормального распределения она равна 0.955, для равномерного — 1, для двойного экпоненциального — 1.5. Для некоторых распределений эта эффективность равна бесконечности. Таким образом, в зависимости от истинного теоретического распределения эти критерии могут быть как более, так и менее эффективными по сравнению с соответствующими критериями, основанными на нормальном распределении.

Отметим, что относительная эффективность двух сравниваемых критериев — это, грубо говоря, отношение объёмов выборок, необходимых для каждого из них для получения одинаково статистически надёжных выводов.

Обратим внимание на то, что при применении этих критериев мы не делаем предположений о нормальности (или каком-либо другом конкретном характере) распределений наблюдений, что очень важно для приложений в области орнитологии, где отклонения от нормальности данных иногда рассматриваются с позиций недостаточной чистоты проведения наблюдений. Кроме того, предложенный критерий обладает робастными свойствами, т.е. он устойчив по отношению к присутствии в выборке небольшой доли аномальных наблюдений.

Для иллюстрации соответствующего рангового критерия рассмотрим пример. Приведённые в таблице на стр. 1150 данные представляют собой значения "фактора состояния" для 9 пойманных птиц. Y обозначает значение этого фактора в день поимки птицы, X— значение фактора перед её выпуском на волю. Следует сделать вывод о влиянии на птицу времени пребывания её в неволе. Таким образом, Но состоит в равенстве Y и!и означает, что пребывание в неволе не действует на птиц. Отметим, что чем меньше значение фактора, тем лучше состояние птицы.

В таблице R¡ — ранг /-го наблюдения разности Y¡ - X¡, т.е. порядковый номер этой разности среди всех таких разностей, расположенных в порядке возрастания. Величина r¡ = 1, если Y¡ - X¡ > 0, r¡ = 0, если Y¿ - X¿ < 0. Из таблицы видно, что статистика критерия равна 3 + 2 = 5. Табличное значение для уровня значимости 0.49 равно 8. Поэтому гипотеза об отсутствии влияния пребывания птиц в неволе на "фактор состояния" птицы на этом уровне значимости отвергается.

№ особи Xj

У, Zj = I У/ - X/1 Rj r, rrRi

1 1.83 0.878 0.952 8 0 0

2 0.50 0.647 0.147 3 1 3

3 1.62 0.598 1.022 9 0 0

4 2.48 2.05 0.430 4 0 0

5 1.68 1.06 0.620 7 0 0

6 1.88 1.29 0.590 6 0 0

7 1.55 1.06 0.490 5 0 0

8 3.06 3.14 0.080 2 1 2

9 1.30 1.29 0.010 1 0 0

Задача о сравнении двух выборок по параметру сдвига

Решается следующая задача. Имеется две выборки разных объёмов, с распределениями, отличающимися только параметром сдвига. Проверяется гипотеза об идентичности этих выборок. Статистикой критерия (т.е. функцией от наблюдений, на основании значений которой делают выводы) выбирается сумма Ж рангов элементов первой выборки в объединённой выборке. Эта статистика называется статистикой Уилкоксона и широко используется в приложениях. Нулевая гипотеза отвергается в пользу альтернативы "сдвиг положителен (отрицателен)", если W < (>) п(п + т + 1) -w(a,m,ri), где постоянная w(a,m,n) определяется равенством (при справедливости Но) вероятности события {W > w(a,m,n)} уровню значимости а и находится из таблиц. Статистика W асимптотически нормальна с асимптотическим средним, равным п(п + т + 1) и асимптотической дисперсией, равной тп{т + п + 1)/12. Поэтому при больших объёмах выборок можно поступать следующим образом: отклонять Но, если W* > z{a), где а — уровень значимости, W* = {W - [п(п + т + 1)/2 ]}/[тп(т + п + 1)/12]1/2. Число z(a) находится по таблицам нормального распределения.

Статистике W эквивалентна другая непераметрическая статистика, называемая статистикой Манна-Уитни. Она равна числу пар (X,, Y), для которых X < У, где X — элемент первой, a Y — элемент второй выборки. С этими статистиками можно подробно познакомиться в соответствующих работах (Wilcoxon 1945; Mann, Whitney 1947; Kruskal 1957). Для больших объёмов выборок здесь также можно пользоваться нормальной аппроксимацией (см. Stoker 1954). Эффективность и состоятельность этих критериев исследованы в работах Манна, Уитни и Питмана (Mann, Whitney 1947; Pitman 1948).

Дли иллюстрации возьмём рассмотренный выше пример с 9 птицами (см. таблицу), считая чисто формально, что 1и Yявляются независимыми выборками. Тогда п = т = 9. Упорядоченная объединённая выборка (звёздочка означает принадлежность ко второй выборке): 0.5*, 0.598, 0.647, 0.878, 1.06, 1.06, 1.29, 1.29, 1.30*, 1.55*, 1.62*, 1.68*, 1.83*, 1.88*, 2.05, 2.48*, 3.06*, 3.14. W= 1 + 9 + 10 + 11 + 12 + 13 + 14 + 16 + 17 = 103. Вычисляем: W* = (103 - 85.5)/10.43 = 1.61. Большее влияние на птицу пребывания в неволе соответствует большему значению статистики W*. При а = 0.05 из таблиц находим, что z(a) = 1.7. Поэтому при такой обработке данных нулевая гипотеза не отклоняется, и влияние пребывания птиц в неволе на

исследуемый фактор считается незначительным, хотя теоретическое и выборочное значения IV* достаточно близки. При другом выборе уровня значимости а мы, возможно, отклонили бы нулевую гипотезу. В какой-то мере полученный вывод связан с предположением о независимости X и 7, что в данной задаче вряд ли оправдано.

Тем не менее, отметим, что при одинаковых уровнях значимости один критерий может отвергать гипотезу, а другой её не отвергать, причём оба критерия в принципе могут быть в одинаковой мере обоснованы. Такая ситуация возникает достаточно часто, особенно, если значения статистик близки к своим граничным для заданного уровня значимости значениям. Если мы встречаемся с таким явлением, то гипотезу следует отвергать, т.е. гипотеза отвергается, если хотя бы по одному из рассматриваемых критериев рекомендуется её отвергнуть.

Сравнение параметров масштаба

Параметр масштаба соответствует разбросу значений наблюдений. Такими параметрами, например, являются дисперсия, размах (т.е. разность между наибольшим и наименьшим из возможных значений наблюдений). Обычно параметр масштаба характеризуется тем, что при умножении его на некоторое число и при делении наблюдений на это же число или на некоторую фиксированную степень этого числа распределение наблюдений не изменится. В определённом смысле, изменение этого параметра соответствует изменению масштаба, т.е. системы мер, в которых производятся измерения наблюдаемых величин.

Пусть имеется две выборки различных объёмов типе распределениями, отличающимися только параметрами масштаба и имеющими равные медианы. Проверяется гипотеза об идентичности этих распределений. Статистика критерия строится следующим образом. В объединённой выборке максимальному и минимальному наблюдениям присваивается ранг 1, следующим крайним наблюдениям присваивается ранг 2 и т.д. Статистика равна сумме рангов, соответствующих элементам первой выборки. Большим значениям статистики соответствуют меньшие значения параметра масштаба первой выборки по сравнению с его значениями для второй. Соответствующий критерий носит название критерия Ансари-Брэдли. Для больших объёмов выборок приведённая статистика тоже асимптотически нормальна, что позволяет в этом случае использовать таблицы нормального распределения. Асимптотическое математическое ожидание равно т (т + п + 2)/4, а асимптотическая дисперсия тп(т + п + 1)/48.

В качестве иллюстрации рассмотрим следующий пример. Предположим, что два наблюдателя определяют какой-либо параметр размеров птицы с помощью разных методик. Известно, что методики измерения являются несмещёнными, т.е. что математическое ожидание оценок по каждой из методик совпадает с математическим ожиданием параметра птицы. Возможно, методика второго наблюдателя даёт больший разброс. Следует проверить эту гипотезу. Предположим, что объёмы обоих выборок равны по 6, а данные приведены в следующей таблице (в условных единицах).

Первый наблюдатель Второй наблюдатель

111 107 101 114 102 106

96 108 103 98 115 107

Объединённая упорядоченная выборка имеет вид: 115, 114*, 111*, 108, 107*, 107, 106*, 101* 103, 102*, 98, 96. Значение статистики равно 2 + 3 + 5 + + 7 + 5 + 6 = 28, асимптотическое среднее равно 21, асимптотическая дисперсия равна 9.7. Таким образом, нормализованное значение статистики равно (28 - 21)/3.1 = 2.3. Оно больше её теоретического значения 1.7, соответствующего уровню значимости 0.05. Поэтому нулевую гипотезу о равенстве разбросов следует отбросить в пользу большего разброса при обработке данных в соответствии с методикой второго наблюдателя.

Состоятельность и эффективность этого критерия исследована в следующих работах (Ansari, Bradley 1960; Moses 1963). В случае, когда медианы в рассматриваемых выборках не равны и неизвестны, используют критерии, основанные на более сложных непараметрических статистиках, например, на статистике "складного ножа". Метод "складного ножа" предназначен для уменьшения смещения используемых оценок. По этому поводу см. работы (Turkey 1962; Miller 1968).

Однофакторный дисперсионный анализ. Критерий Краскела-Уоллиса

Рассматривается стандартная схема однофакторного дисперсионного анализа без каких-либо предположений о распределении погрешностей, кроме их независимости, одинаковой распределённости и непрерывности функций распределения. Для нормально распределённых погрешностей мы эту схему рассматривали ранее. Проверяется стандартная нулевая гипотеза об отсутствии влияния фактора группы. Для построения статистики критерия ранжируют от меньшего к большему объединённую выборку, суммируют ранги по каждой группе и затем вычисляют взвешенную в соответствии с объёмами групп выборочную дисперсию этих сумм, равную

Н = Т777Г-ТТ £nj(RJ ~ Д.)2

Ri

N(N + 1) ; = i

Здесь я,-, у = 1, 2, ..., к — объёмы групп, . = — — средний ранг группы с

п]

п] N = 1

номером у, Щ - X П р К =-, Гц — ранг /-го наблюдения в у'-й группе,

N — общее число наблюдений.

Полученное выражение и является статистикой критерия, с помощью которой и проверяются гипотезы о значимости фактора группы. Для больших выборок распределение этой статистики имеет приближённо х2-рас-

пределение с к - 1 степенями свободы, где к — число количество сравниваемых групп наблюдений. Нулевая гипотеза соответствует отсутствию влияния номера группы на наблюдения. Этот критерий был предложен Крускалом (Kruskal 1952). Близкие задачи решаются с помощью критерия ранговой суммы Уилкоксона (Rijkoort 1952) и медианного критерия Брауна-Муда (Mood 1950). Отметим, что если нельзя пользоваться асимптотикой, то для использования предложенных критериев следует иметь много таблиц — по одной на каждую комбинацию объёмов выборок в группах. Для некоторых таких комбинаций в литературе имеются соответствующие таблицы. Вместо таблиц можно иметь программу, вычисляющую процентные точки распределений этих статистик.

Для иллюстрации рассмотрим следующий пример. Анализируются три группы птиц, отловленных в 3 разные года. Проверяется гипотеза о влиянии фактора года на их массу, вычисленную в условных единицах. Данные приведены в следующей таблице, где в скобках указаны ранги наблюдений в объединённой выборке.

1-й год

29 (8)

30 (9)

25 (4)

26 (5) 32(10) /?1 = 36

2-й год

38 (13) 27 (6) 40 (14) 24 (3)

Я2 = 36

3-й год

28 (7) 34(11) 37 (12) 22 (2) 20(1) Яз = 33

тт 12 { 362 362 ЗЗ2

Н =- -+-+ —

210, 5 4 5

45 = 0.771.

Поскольку таблица -распределения с 2 степенями свободы на уровне значимости 0.05 даёт большее значение, равное 6, то мы на основании анализа данных принимаем гипотезу об отсутствии влияния фактора года на наши наблюдения.

Другой близкий по смыслу критерий, предложенный этими же авторами, состоит в следующем. Для каждой пары сравниваемых групп рассматривается модуль разности описанных выше сумм рангов (по группам). В качестве статистики критерия берётся максимум из этих модулей. Этот подход применяется для групп равных объёмов. Преимущество этого метода состоит в том, что на его основании сразу же видно, за счёт какой пары групп отклоняется нулевая гипотеза.

Двухфакторный дисперсионный анализ

Рассматривается стандартная схема двухфакторного дисперсионного анализа (см., например: Шеффе 1963) с одним наблюдением в каждой ячейке и с теми же ограничениями на погрешности, что и в рассмотренной выше схеме однофакторного дисперсионного анализа. Один фактор назовём условно блоком, а другой — обработкой. Чтобы проверить нулевую гипотезу об отсутствии влияния обработки, статистику критерия выбирают

следующим образом. Наблюдения ранжируют внутри каждого блока. Затем для каждой фиксированной обработки вычисляют средние арифметические этих рангов. Статистика критерия является выборочной дисперсией этих средних арифметических. Она равна

12«

к{к = 1) где п — число блоков, к

К / \2 I " Д.) =

12

пк(к

к

— 1^/2 1)Д 7.

3 п(к = 1),

число обработок, ^ = Е > ^ у

/=1

5/

п

Я =

к = 1

, Гд — ранг (и)-то элемента в /-м блоке.

Нулевая гипотеза об отсутствии влияния обработки на данные отвергается при больших значениях б*.

Асимптотически при больших объёмах выборки распределение этой

л

статистики приближается к распределению % с к - 1 степенью свободы, где к — число обработок. Как и в случае однофакторного дисперсионного анализа, здесь можно строить критерий на основе максимума модулей разностей средних арифметических рангов, описанных выше.

Для иллюстрации рассмотрим следующий простой пример. Пусть к = 3, п = 2, т.е. имеется 3 обработки и 2 блока. Например, пусть блоком будет пол изучаемых птиц, а обработкой — их рацион. Наблюдениями являются массы тела птиц, заданных в условных единицах из следующей таблицы

| Самцы Самки

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Рацион № 1 5(2) 6(3)

Рацион № 2 7(3) 3(1)

Рацион № 3 4(1) 5(2)

Д, = 2 + 3 = 5; Д2 = 3 + 1 = 4; Я.з = 1 + 2 = 3; Д. = 2. Поэтому £ = ^ • (9+ 4 + 1) = 28.

Табличное значение, соответствующее 5-процентному уровню значимости, равно приблизительно 6. Поэтому гипотезу от отсутствии влияния состава корма на массу птиц на основании наших данных мы отбрасываем.

Задача о коэффициенте линейной регрессии. Критерий Тейла

Проверяется гипотеза о значении коэффициента при линейном члене одномерной линейной регрессии. Предположения о погрешностях такие же, как в задачах дисперсионного анализа. Очевидно, задача сводится к проверке гипотезы о равенстве нулю коэффициента регрессии, которую мы и рассмотрим. Более того, не умаляя общности, можно считать, что свободный член равен нулю, поскольку он не влияет на упорядочение наблюдений. Статистика критерия строится следующим образом. Для каждой пары чисел / < у вычисляется знак разности у-го и /-го наблюдений. Статистика критерия равна разности положительных и отрицательных знаков.

Для больших выборок эта статистика, соответствующим образом нормализованная, является асимптотически нормальной, так что в этом случае можно пользоваться таблицами нормального распределения. Математическое ожидание статистики равно нулю, дисперсия равна

п(п - 1)(2п + 5) 18

Относительная асимптотическая эффективность этого критерия исследована Сеном (Sen 1968).

Пусть, например, мы наблюдаем в течение 5 лет за некоторой характеристикой отловленных птиц. Считая, что a priori эта характеристика линейно зависит от номера года наблюдений, проверим гипотезу о том, что коэффициент этой линейной регрессии равен нулю, т.е. что на самом деле изучаемая характеристика не зависит от года наблюдений. Данные приведены в таблице.

Год Наблюдаемая характеристика

1 1.26

2 1.27

3 1.12

4 1.16

5 1.03

Далее,

('.Л Разности Знак разности

(1,2) 9.01 +

(1,3) -0.14 -

(1-4) -0.10 -

(1,5) -0.23 -

(2, 3) -0.15 -

(2,4) -0.11 -

(2, 5) -0.24 -

(3, 4) 0.04 +

(3, 5) -0.09 -

(4, 5) -0.13 -

Значение статистики равно -6, значение нормированной на корень из дисперсии статистики равно -6/(300/18)1/2 = -1.47. Для 5-процентного уровня значимости гипотеза отвергается, если значение статистики меньше -1.7. Поэтому для этого уровня значимости мы гипотезу не отвергаем, т.е. можно считать, что коэффициент регрессии равен нулю.

Приведённые примеры ранговых критериев показывают пути построения аналогичных критериев и для более сложных задач. Так, например, совсем не трудно обобщить приведённые выше схемы дисперсионного анализа на многофакторный случай. Задачи, связанные с выбором наиболее

эффективных непараметрических критериев остаются весьма важными и в значительной степени нерешёнными на сегодняшний день.

Логический подход к задаче выдвижения и проверки гипотез

До сих пор предполагалось, что выдвижение конкретных статистических гипотез является делом исследователя, изучающего данную конкретную область, т.е. является результатом творческого поиска учёного. Мы следили только за выбором достаточно эффективных статистических способов проверки этих гипотез. Между тем, специалисты в области математической логики, программирования и искусственного интеллекта пытались проанализировать саму логику выдвижения и проверки гипотез с тем, чтобы в простейших случаях иметь возможность автоматизировать эту работу.

Поле деятельности в этом направлении необозримо. Для выработки правильной стратегии автоматического выдвижения статистических гипотез приходится обращаться к помощи важного раздела математики — математической логике. Грубо говоря, процесс выдвижения гипотез может рассматриваться как процесс индукции, когда по наблюдениям за отдельными конкретными явлениями делается попытка делать выводы относительно целого класса явлений. Отметим, что индукционные заключения используются в естественных науках, в математики, в педагогике, в самой логической конструкции нашего мышления. Этими вопросами интересовались великие учёные и философы прошлого (см., например: Декарт 1950).

Различия в логических индукционных выводах при детерминированном и стохастическом подходах легко проследить на примерах следующих логических высказываний.

1) Первая пойманная птица — зяблик, вторая пойманная птица — заб-лик, третья пойманная птица — заблик. Значит, все пойманные птицы — зяблики.

2) Первая пойманая птица — зяблик, вторая пойманная птица — зяблик, среди первых 20 пойманных птиц 19 зябликов. Значит в основном (с подавляюще большой вероятностью) ловятся зяблики.

К сожалению, требующийся для формализации задачи автоматического построения статистических гипотез симбиоз математической статистики и математической логики оказался достаточно трудно осуществимым.

Одной из относительно успешных разработок в этом направлении является создание т.н. ОиНА-метода (см.: Гаек, Гавренек 1984). В самых общих чертах — это метод построения всех важных эмпирических утверждений, базирующихся на имеющихся данных. Для формализации этого процесса строятся эмпирический и теоретический языки, определяются т.н. рациональные правила вывода, формально определяются решаемые проблемы и их решения.

Не вдаваясь в подробности описания этих построений, поясним только понятия рациональных правил вывода.

Пусть для некоторой предметной области имеется некоторая теория Т. Эта теория не является полной, т.е. не может быть положена в качестве основы некоторой дедуктивной логической системы, описывающей все явления данной предметной области. Пусть К есть совокупность наблюдае-

мых фактов (или просто новых, ранее не известных сведений). Пусть Г и К описываются наборами предложений, написанных на "теоретическом" и "эмпирическом" языках, соответственно. Через 0 и Я обозначим, соответственно, предложения из Г и К. Тогда правило вывода "из 0 и Я следует Ь", вообще говоря, невыводимое в Т, называется рациональным, если выполняются условия:

1) если заключение Ь является ложным, а теоретические посылки <2 выполнены, то вероятность вывода Ь из наблюдаемых посылок Я является малой;

2) если заключение Ь является истинным и теоретические посылки (2 выполнены, то вероятность вывода Ь из наблюдаемых посылок Я является большой.

ОиНА-метод имеет практическую направленность и для простейших задач может быть реализован на ЭВМ.

Отметим, что ОИНА-метод есть удобная формальная модель выдвижения гипотез учёным. Он является практически реализуемым, но может потребовать в конкретной ситуации большой дополнительной логической и программистской работы. К применению ОиНА-метода следует подходить с эвристических позиций. Следует признать, что в настоящее время математические и логические построения не решают содержательных практических задач, а только помогают специалистам в конкретных областях посмотреть на данные таким образом, чтобы постановка вопроса и подходы к его решению стали более прозрачными.

Конечно, ОиНА-методы не могут заменить работу статистика при обработке данных, но они могут помочь найти адекватные и надёжные статистические утверждения о данных и помочь ориентироваться в громадном объёме эмпирических данных.

Отметим, что в статистике часто используются процедуры, инвариантные относительно некоторых преобразований. Например, ранговые статистики инвариантны относительно монотонных преобразований данных. ОиНА-методы позволяют строить соответствующие логические конструкции, также инвариантные относительно этих преобразований. Некоторые другие модели формализации индуктивно-статистических выводов приведены в следующих работах (Загоруйко 1979; Ершов 1980; Финн 1983).

Конечно, СиНА-методы и им подобные разработки сейчас находятся только на начальной стадии развития, и их практическую полезность следует рассматривать только в перспективе.

Настоящая статья завершает цикл наших публикаций по теме "Математические методы для интеллектуальных баз данных в биологии ". Предудыщие части работы опубликованы в выпусках "Русского орнитологического журнала" №№ 177, 190, 193, 201 и 206.

Работа выполнена при поддержке РФФИ в рамках гранта № 00-07-90181.

Литература

Гаек П., Гавренек Т. 1984. Автоматическое образование гипотез. М.: 1-277. Декарт Р. 1950. Правила для руководства умаЦИзбранные произведения / Р.Декарт. М. Ершов Ю.П. 1980. Проблемы разрешимости и конструктивные модели. М.: 1-265.

Загоруйко Н.Г. 1979. Эмпирическое предсказание. Новосибирск: 1-304.

Тропп Э.А., Егоров В.А., Морозов Ю.Г. 2002. Математические методы для интеллектуальных баз данных в биологии. 5. Элементы стохастического подхода к задачам обработки данных. Классические критерии ¡¡Рус. орнитол. журн. Экспресс-вып. 205: 1083-1100.

Финн В.К. 1983. О машинно-ориентированной формализации правдоподобных рассуждений в стиле Бэкона-Д.С.Милля/¡Семантика и информатика 20: 34-48.

Хампель Ф., Рончетти Э., Рауссеу П., Штаэль В. 1989. Робастностъ в статистике. М.: 1-512.

Холлендер М., Вульф Д.А. 1983. Непараметрические методы статистики. М.: 1-518.

Хьюбер П. 1984. Робастностъ в статистике. М.: 1-303.

Шеффе Г. 1963. Дисперсионный анализ. М.: 1-625.

Ansari A.R., Bradley R.A. 1960. Rank-sum tests for dispersion ¡¡Ann. Math. Statistics 31: 1174-1189.

Gupta M.K. 1967. An assymptotically nonparametric test of symmetry IIAnn. Math. Statistics 38: 849-866.

Hodges J.L., Leman E.L. 1956. The effeciency of some nonparametric competitors of the t-test //Ann. Math. Statistics 27: 324-335.

Koopman P.A.R. 1979. Testing symmetry with a procedure, combining the sign test and signed rank test //SN 33: 137-142.

Kruskal W. 1952. A non-parametric test for the several sample problem //Ann. Math. Statistics 23: 525-540.

Kruskal W.H. 1957. Historical notes on the Wilcoxon unpaired two-sample test //J. Amer. Statist. Ass. 52: 356-360.

Mann H.B., Whitney D.R. 1947. On a test of whether one of two random variables is stochastically larger then the other //Ann. Math. Statistics 18: 56-60.

Miller R.G. 1968. Jackknifing variations//Лил. Math. Statistics 39: 567-582.

Mood A.M. 1950. Introduction to the Theory of Statistics. New-York: 1-432.

Moses L.E. 1963. Rank test of dispersion //Ann. Math. Statistics 34: 973-983.

Pitman E.J. 1948. Notes on non-parametric statistical inference. Columbia Univ.

Rijkoort P.J. 1952. A generalization of Wilcoxon test //Indag. Math. 14: 394-403.

Sen P.K. 1968. Estimates of the regression coefficient based on Kendall's tau //J. Amer. Statist. Ass. 63: 1379-1389.

Stoker D.J. 1954. An upper bound for the deviation between the distribution of Wilcoxon's test statistic for two-sample problem and its limiting normal distribution for finite samples //Indag. Math. 16: 599-606.

Tukey J.W. 1962. Data analysis and behavioral science/^л. Math. Statistics 33: 1-67.

Wilcoxon F. 1945. Individual comparisons by ranking methods//Biometrics Bull. 1: 1-80.

Wilcoxon F., Katti S., Wilcox R.A. 1973. Critical values and probability levels for the Wilcoxon rank test //Selected Tables in Mathematical Statistics. Vol. 1. Amer. Math. Soc.: 171-235.

i Надоели баннеры? Вы всегда можете отключить рекламу.