Самарская Лука. 2007. - Т. 16, № 3(21). - С. 585-587.
Э.Х. Симпсон** ИЗМЕРЕНИЕ РАЗНООБРАЗИЯ*
«Характеристика», определенная Юлом1 и «индекс разнообразия», определенный Фишером , - две меры степени концентрации или достигнутого разнообразия, когда особи популяции разбиты на группы. Оба [эти показателя] определены как статистики, которые вычисляются на основе выборочных данных, а не в терминах популяционных констант. Прежний индекс разнообразия основан на логарифмическом распределении. Это не общее допущение, поскольку не всегда дает значения, которые независимы от объема выборки; такой индекс нельзя использовать, например, применительно к бесконечному числу особей популяции, разбитых на конечное число групп. Уильямс3 указал на зависимость между «характеристикой» и «индексом разнообразия», когда оба используют логарифмическое распределение. Цель настоящего сообщения состоит в том, чтобы определить и исследовать меру концентрации в терминах популяционных констант.
Пусть бесконечная популяция такова, что каждая особь принадлежит одной из Z групп, и пусть л... пг (Ел = 1) - доли особей в различных группах. Тогда Я, определяемая как Ел , - мера концентрации классификации. Эта величина [Я] может принимать любое значение между 1/г и 1, старое представление наименьшей концентрации или наибольшего разнообразия, возможного с г группами, и последней полной концентрацией, когда все особи, находятся в одной группе. Показатель Я может быть просто интерпретирован как вероятность того, что две особи, выбранные случайно и независимо из популяции, будут принадлежать одной и той же группе.
Теперь предположим, что имеем выборку из Л особей, случайно отобранных из популяции и п1, я2,..., пг (Еп = Л) - это число особей в разных группах. Легко показать, что L = (Еп(п-1)) / (Л(Л-1)) - несмещенная оценка Я; это почти очевидно, если принять во внимание, что 0,5Л(Л-1) - число пар в выборке и 0,5п(п-1) - число пар, с учетом разбиения на группы.
L - также является несмещенной оценкой Я для переменного объема выборки, если отсутствуют выборки объема 0 или 1 и вероятность получения выборки (п1, п2,..., пг) раскладывается в эти два фактора:
** Симпсон Эдуард (EdwardHugh Simpson; г.р. 1927) - математик, статистик; член
Британского королевского статистического общества.
* Simpson E.H. Measurement of diversity // Nature. - 1949. - V. 163, № 688. - P. 688. (перевод
Г.С. Розенберга).
Pfa,n2,..,nz) = P(N) (ж1)П1(ж2)"1... ,
где P(N) задает распределение вероятности объема выборки, 2 < N < <х>. Это тем более верно, когда выборки получены методом «постоянных (стационарных) воздействий» (fixed-exposure), традиционным в биологических исследованиях; N тогда имеет распределение Пуассона, пригодное для описания выборок с отсутствием первых двух [выборок объема 0 и 1].
Если повторная выборка объема N получена из той же самой популяции, вычисленное значение L будет распределено как Л с дисперсией
4N(N -1)(N - 2)^3 + 2N(N -1)^2 - 2N(N -1)(2N - 3)(^2)2 .
[N(N -1)]2 '
или, если N очень велико, приблизительно
-Ь^3 - (Z^2)2 ] .
N
Третьи и четвертые кумулянты [накопленные частоты. - Г.Р.] распределения L также были точно определены. Они показывают, что при росте N распределение стремится к нормальному, кроме того случая, когда X = 1/^ в этом случае распределение LNZ стремится к распределению с ^-1) степенью свободы, но со средней смещенной от Z-1 к N.
1 2 «Характеристика», определенная Юлом , - 1000 (Хя(я-1)) / N , что
отличается от L, оценивающей X, только наличием N вместо N-1 в знаменателе и коэффициентом масштаба 1000.
Теперь, позвольте показать, что значение X, взятое для популяции, состоящей из Ъ групп, частоты которых п\ = wi/Zw, где Wi выбраны случайно и независимо, соответствует распределению Ш-го типа:
dF = —1— , 0 < < ад .
(к -1)! '
Это можно назвать «отрицательной биномиальной популяцией», так как выборки, полученные методом «постоянных (стационарных) воздействий», будут подчиняться отрицательному биномиальному распределению. Можно вычислить соответствующее этому значение X, со средним значением 2 2
Xwi /(^0 по всем наборам (^1, ^), которое может быть получено
по популяционным значениям ж Таким образом,
я-j ...j
(k -1)!
^ w [w1...wZ ]k 1 dw1...dwZ = k +1
Z Zk +1
Распределение Пуассона - специальный случай отрицательного биномиального распределения, в котором k стремится к бесконечности. При этом условии, Я = 1/г. Это именно то, что мы и ожидали, так как распределение Пуассона соответствует популяции, в которой все группы представлены одинаково, и, таким образом, вероятность, что две случайно выбранные особи будут принадлежать одной группе, должна быть 1/г.
Другой особый случай отрицательного биномиального распределения - «логарифмическая популяция», которая получается, если одновременно г стремится к бесконечности, а k - к нулю так, что произведение Zk остается конечным и стремится к величине а. (Это - не совсем то же самое предположение, которое использует Фишер , но количественно а и есть его «индекс разнообразия»). Полученное значение для Я, снизу ограничено 1/(а+1).
Заметим, что это последнее значение не совместимо с уравнением,
31
приводимым Уильямсом , а именно, «характеристика» Юла имеет вид 1000/а, для логарифмического распределения. Этот результат был получен с использованием формулы Юла к рядам вероятных значений, тогда как предлагаемая процедура эквивалентна применению формулы сначала и затем усреднения результата. Некоторая поддержка новому уравнению найдена при рассмотрении рангов связанных переменных. Так как «характеристика» не может превысить 1000, более раннее уравнение [1000/а. -Г.Р.] отрицало бы все значения а меньше чем 1; но предлагаемое уравнение задает диапазон 0 < а < <х>, в то время как 1 > Я > 0.
1
e
3 West End Avenue, Pinner (пригород в северо-западном Лондоне. - Г.Р.).
Jan. 29.
1 Yule, "Statistical Study of Literary Vocabulary" (Cambridge, 1944).
2 Fisher, Corbet and Williams, J. Animal Ecol, 12, 42 (1948).
3 Williams, Nature, 157, 482 (1946).