Научная статья на тему 'Возрастная детерминация размерного состава улова на основе разделения смеси вероятностных распределений'

Возрастная детерминация размерного состава улова на основе разделения смеси вероятностных распределений Текст научной статьи по специальности «Математика»

CC BY
203
41
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по математике, автор научной работы — Михеев À. À.

Представлен новый метод распознавания возрастных классов в улове по его размерному составу. В основе метода лежат: модель смеси вероятностных распределений (СВР), SEM-подобный алгоритм разделения смеси и эволюционный стохастический оптимизатор решений. Модель СВР построена на стохастическом законе роста Берталанффи. В качестве объекта приложения метода были использованы размерные ряды из уловов морских гребешков-хламисов о. Онекотан, Северные Курилы, и синего краба восточного шельфа о. Сахалин, полученных за ряд лет. На сгенерированных данных показано, что разделение смеси существует и может быть выделено из множества конкурирующих решений в среднеквадратичном приближении. Установлено, что на успех сепарации рассматриваемых смесей влияет классовый интервал вариационного размерного ряда. Полученные результаты доказывают возможность построения устойчивого размерно-возрастного ключа без прямого определения возраста.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

AGE RECOGNITION IN CATCH-AT-SIZE COMPOSITION BASE ON MIXTURE SEPARATION OF PROBABILITY DISTRIBUTIONS

A new method for recognizing age classes in a catch by its size composition is presented. The method is based on the model of mixture of probability distributions (MPD) and the SEM-similar algorithm of mixture separation and evolutionary stochastic decision optimizer. The MPD model is built based on the Bertalanffy's stochastic law of growth. The size series of sea scallops of the genus Chlamys catches near Onekotan Island (northern Kuril Islands) and blue king crab catches from the eastern shelf of Sakhalin Island obtained for some years were used as an object of the method application. The generated data show that mixture separation exists and can be isolated from the numerous competitive decisions in the mean-square approximation. A class interval of the variation size series is ascertained to affect a success of separation of the mixtures considered. The obtained results prove the possibility of building a stable size-age key without the direct age determination.

Текст научной работы на тему «Возрастная детерминация размерного состава улова на основе разделения смеси вероятностных распределений»

УДК 573.22.087.1.001.57

ВОЗРАСТНАЯ ДЕТЕРМИНАЦИЯ РАЗМЕРНОГО СОСТАВА УЛОВА НА ОСНОВЕ РАЗДЕЛЕНИЯ СМЕСИ ВЕРОЯТНОСТНЫХ РАСПРЕДЕЛЕНИЙ

А. А. Михеев

Нач. отд., Сахалинский научно-исследовательский институт рыбного хозяйства и океанографии 693023 Южно-Сахалинск, Комсомольская, 196 Тел., факс: (4242) 45-67-93, (4242) 45-67-78 E-mail: alex_mikheyev@sakhniro. ru

РАЗМЕРНЫЙ РЯД, ВОЗРАСТНАЯ СТРУКТУРА УЛОВА, РОСТ, СМЕСЬ ВЕРОЯТНОСТНЫХ РАСПРЕДЕЛЕНИЙ, МОДЕЛИРОВАНИЕ

Представлен новый метод распознавания возрастных классов в улове по его размерному составу. В основе метода лежат: модель смеси вероятностных распределений (СВР), SEM-подобный алгоритм разделения смеси и эволюционный стохастический оптимизатор решений. Модель СВР построена на стохастическом законе роста Берталанффи. В качестве объекта приложения метода были использованы размерные ряды из уловов морских гребешков-хламисов о. Онекотан, Северные Курилы, и синего краба восточного шельфа о. Сахалин, полученных за ряд лет. На сгенерированных данных показано, что разделение смеси существует и может быть выделено из множества конкурирующих решений в среднеквадратичном приближении. Установлено, что на успех сепарации рассматриваемых смесей влияет классовый интервал вариационного размерного ряда. Полученные результаты доказывают возможность построения устойчивого размерно-возрастного ключа без прямого определения возраста.

AGE RECOGNITION IN CATCH-AT-SIZE COMPOSITION BASE ON MIXTURE SEPARATION OF PROBABILITY DISTRIBUTIONS

A. A. Mikheyev

Chief of Department, Sakhalin Research Institute of Fisheries and Oceanography 693023 Yuzhno-Sakhalinsk, Komsomolskaya st., 196 Tel., fax: (4242) 45-67-93, (4242) 45-67-78 E-mail: alex_mikheyev@sakhniro. ru

SIZE SERIES, CATCH-AT-AGE STRUCTURE, GROWTH, MIXTURE OF PROBABILITY DISTRIBUTIONS, MODELING

A new method for recognizing age classes in a catch by its size composition is presented. The method is based on the model of mixture of probability distributions (MPD) and the SEM-similar algorithm of mixture separation and evolutionary stochastic decision optimizer. The MPD model is built based on the Bertalanffy’s stochastic law of growth. The size series of sea scallops of the genus Chlamys catches near Onekotan Island (northern Kuril Islands) and blue king crab catches from the eastern shelf of Sakhalin Island obtained for some years were used as an object of the method application. The generated data show that mixture separation exists and can be isolated from the numerous competitive decisions in the mean-square approximation. A class interval of the variation size series is ascertained to affect a success of separation of the mixtures considered. The obtained results prove the possibility of building a stable size-age key without the direct age determination.

Трудности прямого инструментального определения возраста у многих видов гидробионтов побуждают исследователей к поиску альтернативных подходов к данной задаче. Много говорить о важности изучения возрастной структуры эксплуатируемой популяции, пожалуй, излишне. Достаточно отметить, что анализ динамики численности популяций и промысловой нагрузки на них напрямую связан с оценкой урожайности и убыли поколений. О сложности указанной проблемы свидетельствует более чем вековая история попыток найти ее приемлемое решение (Оа11исс1 et а1., 1996). Одной из главных причин неудач в разработке универсального метода разделения смеси вероятностных распределений (СВР) применительно к размер-

ным рядам из научных уловов является сильная зашумленность данных.

Основным эндогенным источником стохастического шума в данных, содержащих информацию о связи размеров тела особей с возрастом, является индивидуальная, свойственная организму, вариабельность темпа роста, а экзогенным — изменчивость внешних условий, при которых этот рост происходит. В пионерской работе Петерсена (Petersen, 1891), по всей видимости, впервые была высказана идея о вероятностном характере вариации размеров в каждой возрастной когорте. Тем самым было положено начало размерночастотному анализу — важному направлению в рыбохозяйственных исследованиях (Gallucci et al., 1996).

Идентификация возрастных классов в размерном ряде сугубо формальными статистическими методами требует сбора поистине недостижимых объемов репрезентативного материала. Вместе с тем, разделить смесь на компоненты — это полдела, поскольку еще требуется сопоставить каждой компоненте конкретный возраст. Тем не менее, следует получить разбиение на возрастные классы, не противоречащее общим закономерностям роста. Привлечение дополнительной информации

о закономерностях роста и смертности позволяет решать рассматриваемую задачу. Именно в этом направлении происходит развитие современных средств размерно-частотного анализа (Schnute, Fournier, 1980; SkuladYttir, 1981; Pauly, 1987; Fournier et al., 1990). Однако использование информации о смертности подразумевает наличие многолетнего ряда сравнимых между собой выборок, репрезентативных в отношении размерной структуры популяции (Ivanov, Stolyarenko, 1995). Подобная информация доступна далеко не всегда. Кроме того, традиционные алгоритмы оптимизации, применяемые в современном размерно-частотном анализе, не гарантируют наилучшего или хотя бы приемлемого решения и, как правило, не обеспечивают быстрого поиска. Наконец, известные в рыбохозяйственной науке методы разделения СВР страдают от неоднозначности получаемых результатов, известной как проблема конкурирующих решений (Gallucci et al., 1996).

Для решения перечисленных проблем автором был разработан новый метод распознавания возрастных классов в улове по его размерному составу. В основе метода лежат: модель СВР, построенная на стохастическом законе роста Берталанф-фи (Tanaka, Tanaka, 1990); SEM-подобный алгоритм разделения смеси (Celeux, Diebolt, 1984; Айвазян и др., 1989); эволюционный стохастический оптимизатор решений, известный как генетический алгоритм (Рутковская и др., 2004).

В этой связи представлялось актуальным исследовать следующие вопросы:

- можно ли с помощью нового метода разделить смесь априорно известных возрастных компонент, представленную размерным рядом, и что для этого необходимо;

- как отклонения в росте от закона Берталанф-фи влияют на результат разделения смеси;

- определим ли закон роста по размерным рядам с помощью нового метода, и является ли он устойчивым для эксплуатируемой популяции.

Решение названных задач и явилось целью данной работы.

МАТЕРИАЛ И МЕТОДИКА

При проведении исследований было использовано три массива данных. Первый массив состоял из размерного ряда, сгенерированного на компьютере. Для этого произвольно составили вариационный ряд для 20 возрастных классов со следующими частотами (в экз.): 5; 0; 8; 12; 2; 0; 8; 10; 3; 16; 20; 5; 24; 15; 30; 25; 23; 5; 7; 10. Деля частоты на объем всей выборки, получали соответствующие веса Р„ для каждой возрастной компоненты а в смеси. Размеры тела Ь в компоненте а моделировали как случайные числа из нормального распределения со средним Ьа и стандартным отклонением его. Количество испытаний при этом для каждой возрастной компоненты было равно ее частоте в выборке. Параметры Ьа и сга для каждого возраста а вычисляли в соответствии со стохастическим законом роста Берталанффи. Уравнение Берталанф-фи применяли с параметрами: а0=-0,12; ^=0,18; [,х =20. Параметр а0 для вычисления переменной <г, устанавливали в значении 0,1.

Второй массив данных был извлечен из улова морских гребешков-хламисов на ст. № 22 при проведении драгировочной съемки у о. Онекотан, Северные Курилы, в 1999 г. Объем анализируемой выборки составил 43 экз. Линейные размеры (длину, высоту и толщину раковины) измеряли штангенциркулем с точностью до 0,05 см. Возрастной состав уловов гребешков был определен, согласно общепринятым методикам, по микроскульптуре раковин, предварительно очищенных щеткой от обрастаний. Высота раковины в том или ином возрасте была измерена от ее макушки до соответствующей метки. За годовые метки была принята середина сгущения чешуек, образующихся в зимний период. Кривые группового линейного роста были построены на основании усредненных значений высоты раковины в возрасте 0+, 1+, 2+ и т. д. Указанные данные были собраны и обработаны сотрудником СахНИРО Ю Р. Кочневым, за что автор выражает ему благодарность.

Третий массив данных представлял собой средние за год размерные ряды из уловов синего краба, полученных в промысловом режиме порядками из 100-150 стандартных японских конических ловушек. Данные были собраны на восточном шельфе о. Сахалин сотрудниками СахНИРО в пяти рейсах в 1998, 1999, 2007, 2008, 2010 гг. соответственно. На промер были взяты следующие количества крабов, как самцов, так и самок: в 1998 г. — 955 экз.; в 1999 г. — 1440 экз.; в 2007 г. — 209 экз.; в 2008 г. — 2199 экз.; в 2010 г. — 250 экз. Линей-

ный размер тела измеряли штангенциркулем по максимальной ширине карапакса с точностью до

1 мм.

Каждый из использованных массивов данных предназначался для решения одной из поставленных задач. Первый массив, сформированный при точном знании возрастного состава в смеси и закона роста, был использован для тестирования модели СВР и ее компьютерной реализации, а также для проверки самой возможности существования решения. Второй массив, содержащий реальные данные измерений возраста и эмпирически установленный закон роста логистического типа, позволял не только проверить качество определения возрастного состава, но и установить степень влияния отклонений в росте от закона Берталанф-фи на результат этого определения. Наконец, третий массив представлял собой типичный случай для применения рассматриваемого метода. Этот массив состоял из размерных рядов гидробион-тов с неизвестным возрастом и, являясь многолетним, состоял из плохо сравнимых размерных рядов. Предназначение указанного массива состояло в том, чтобы проверить способность нового метода определять закон роста на несравнимых и зашумленных выборках. Попутно на данном массиве выяснялась устойчивость закона роста для эксплуатируемой популяции в многолетнем аспекте.

Возрастной состав размерного ряда определяли на основе SEM-подобного алгоритма разделения СВР. Название алгоритма вытекает из последовательности выполняемых им действий: “Stochastique - Estimation - Maximization” (Celeux, Diebolt, 1984; Айвазян и др., 1989). Данная последовательность отражает интеративную трехшаговую процедуру, состоящую из стохастического моделирования компонент смеси, оценивания их весов и определения параметров компонент, доставляющих максимум целевой функции. Однако в компьютерной программе СВР стохастическое моделирование выполняется не на всех итерациях, как предусмотрено алгоритмом SEM, а только на завершающей, что и обусловило применение в отношении использованного в данной программе алгоритма названия «SEM-подобный».

Выполнение указанного алгоритма начинается с разнесения выборочных значений размеров тела в вариационный ряд. Пусть Li — размер тела /той особи в выборке, i=1,2...,N, где N — объем выборки из улова; f/ — частота размерного класса /, l=1,2,...,n, где n — число классов вариационного ряда. При разнесении выборочных значений в ва-

риационный ряд было использовано правило: «правая граница классового интервала замкнута, левая — открыта». Это означает, например, что классовый интервал со значением 1 см и шагом 1 см содержит размеры 0,5 см < Li <1,5 см. Значение класса соответствует середине интервала. Исходные частоты преобразовывались в доли f = fi /N: очевидно, что X/” I / = 1.

При разделении смеси предполагалось, что изучаемые гидробионты обладают ростом, подчиняющимся закону Берталанффи:

где La — средний размер в возрасте a; Lx — асимптотический размер; K — коэффициент Броуди, определяющий скорость достижения асимптотического размера; a0 — параметр, определяющий средний размер при рождении.

Для стохастического уравнения Берталанффи стандартное отклонение для размеров в возрасте a вычисляется по формуле (Tanaka, Tanaka, 1990):

Jl + —[l-e 2А“]

V 2 Kl J

(2),

где cr0 — стандартное отклонение для среднего размера при рождении.

Также предполагалось, что размеры особей для заданного возраста являются случайной величиной, имеющей нормальный закон распределения. В силу этого, вероятность для особи размера L быть в возрасте a равна

1 (Т.-ТЛ2

(3).

Отсюда следует, что вероятность особи из размерного класса /, имеющего среднее значение £/, быть в возрасте а равна Фи!=Ф^Еи. Если обозначить через ра долю всех особей возраста a, которую также будем называть весом a-той компоненты смеси, то оцениваемая доля особей возраста a, попадающих в размерный класс l, будет равна

fat = РаФиI. Наконец, оцениваемая доля всех особей в размерном классе / будет равна // "Иа/ы.

Пусть ak — это мажорирующее (покрывающее) значение предельного возраста. Тогда для расчета вариационного размерного ряда необходимо оценить три параметра — Lx, К, а() из уравнения роста (1), один параметр сг0 из уравнения (2) и ak весов компонент смеси р р2, чим вектор параметров длины ak+4 как

р . Обозна-

Vak

Крышечки над величинами \р а } °а=^ в уравнении (4) указывают на то, что это оценки весов компонент. Критерием качества (целевой функцией) разделения смеси выберем среднеквадратическую ошибку в оценке долей размерного вариационного ряда, единственно доступных для измерения данных. Указанная функция будет иметь вид:

/с.

л((ЯГ.,|§) = £ (Л-/,(§))'

1=1

(5).

Щ

я

/=\

данном размерном вариационном ряде

обеспечивает минимум целевой функции или, говоря иначе, среднеквадратической ошибки. Для нормальных распределений при поиске оптимального решения минимум среднеквадратической ошибки совпадает по положению в пространстве параметров с максимумом правдоподобия. В связи с этим, задача (6) эквивалентна задаче метода максимального правдоподобия (ММП).

Следующим шагом в работе алгоритма после ввода данных является определение границ для допустимых значений параметров из вектора, заданного формулой (4). Указанные границы образуют гиперкуб в параметрическом пространстве, в котором осуществляется поиск наилучшего, в смысле критерия качества, набора параметров. В этой работе был применен эволюционный стохастический поиск, известный как генетический алгоритм (ГА) (Рутковская и др., 2004). Поиск решения в ГА осуществляется с помощью ряда операторов: мутации, скрещивания и некоторых других. Данный алгоритм реализован в составе оптимизирующего программного комплекса (Михеев и др., 2006), и использован в компьютерной программе СВР для поиска параметров в соответствии с задачей (6). Основными опциями поиска в ГА являются число стартовых наборов параметров 0*, количество поисковых итераций и точность представления параметров.

Завершив поиск параметров, алгоритм модели СВР осуществляет распределение данных о размерах по возрастным компонентам с помощью стохастического моделирования. На этом шаге первоначально строятся усеченные нормальные распределения для вероятности особи размера Ь находиться в возрасте а. Формула для усеченной плотности вероятности в указанном случае имеет вид:

Обозначение, введенное в левой части уравнения (5), указывает на то, что целевая функция зависит как от входного размерного вариационного ряда, так и от оценки вектора параметров. Согласно выбранному критерию качества процедура оценки параметров модели СВР сводится к следующей оптимизационной задаче метода наименьших квадратов (МНК):

лСЮ?,^-) = пУп[л({/(}?=11®)] = л- (6).

0

Согласно формуле (6), решением считается такой набор оценок параметров 0* , который при за-

После усечения плотностей определяются статистические веса:

Ла(1) =

Фа(^)Ра

ЕаФаШРа'

Завершает шаг стохастического моделирования возрастных компонент процедура вероятностной рулетки. Она заключается в том, что для каждого значения Ь из исходного ряда данных о размерах отрезок от 0 до 1 разбивается на сектора, пропорциональные весам Поскольку сумма этих весов равна единице, такое разбиение выполняется точно. Затем генерируется случайное число, распределенное равномерно на указанном отрезке. Если указанное число попадает в сектор с весом ка(Ь), то взятое наблюдение размера Ь относится к компоненте, соответствующей возрасту а. На этом шаге действие алгоритма модели СВР заканчивается.

В алгоритме предусмотрена возможность устанавливать порог для весов Ьа(Ь). Если вес меньше заданного порога, то соответствующая компонента отбрасывается (обнуляется), а оставшиеся веса нормируются таким образом, чтобы их сумма по-прежнему равнялась единице.

РЕЗУЛЬТАТЫ И ОБСУЖДЕНИЕ

Предваряя представление и обсуждение полученных результатов, хотелось бы вкратце осветить несколько важных этапов в развитии размерночастотного анализа, имеющих прямое отношение к данной работе.

Использование оптимизационных процедур в задаче разделения смеси с известным числом компонент берет начало с ЕМ-алгоритма (Шлезингер, 1965). Хассельблад (На88е1Ыа^ 1966), следуя за М.И. Шлезингером, построил вариационный (оп-

тимизирующий) подход с применением, как и в нашем случае, среднеквадратичного приближения для оценки смеси нормальных распределений. МакДональд (MacDonald, 1969) разработал первую компьютерную программу для оценки параметров компонент смеси нормальных распределений по указанному критерию. Анализ Хассель-блада был впоследствии расширен за счет использования, наряду со среднеквадратичным приближением, информационной статистики Кульба-ка в качестве критерия качества получаемого решения (MacDonald, Pitcher, 1979). Главным недостатком работ рассмотренного периода было то, что в них число компонент смеси предполагалось известным.

Начиная с 1980 г., можно говорить о новом толчке в развитии методов размерно-частотного анализа, сопровождающемся отказом от априорного задания числа компонент смеси (Schnute, Fournier,

1980). Это было вторым, после работы М.И. Шлезингера (1965), прорывом в данной области исследований. В своей новаторской работе Шнюте и Форнье достигли ряда важных результатов. Во-первых, они развили статистический подход МакДональда и Питчера, распространив его на смеси логнормальных, гамма и экспоненциальных распределений. Во-вторых, названные авторы впервые ввели в анализ дополнительное ограничение на компоненты смеси в виде закона роста. Кроме того, они увеличили число критериев качества метода, добавив к уже упомянутому критерию Кульбака статистику «хи-квадрат», и разработали компьютерную программу MIX. Усложнение статистических и оптимизирующих процедур для оценивания числа компонент смеси и их параметров и привлечение дополнительной информации позволили повысить объективность и точность результатов, но и породили проблему конкурирующих решений.

Из вышесказанного следует, что используемые в модели СВР оптимизация по среднеквадратичному функционалу, ограничение по закону роста, накладываемое на параметры возрастных компонент, стохастический закон роста Берталанффи, не являются чем-то новым для рыбохозяйственной науки. Новизна модели СВР состоит в применении SEM-подобного алгоритма к размерным рядам гидробионтов и генетического алгоритма как эффективного оптимизатора для многопараметрических задач, что и позволило, как будет продемонстрировано далее, справиться с проблемой конкурирующих решений.

Применение нового метода, очевидно, требует определенной проверки на работоспособность. Как уже упоминалось, с этой целью модель СВР планировалось применить к смоделированным данным с известными возрастной структурой и законом роста. При тестировании разделение смеси на возрастные компоненты осуществляли многократно, постепенно увеличивая поисковые возможности с помощью опций ГА и сокращая поисковое пространство в окрестности истинных значений весов компонент р Три решения из числа полученных представлены на рис. 1.

В первых двух испытаниях величины ра включали все допустимые значения от 0 до 1, тогда как в третьем диапазоны их варьирования были сильно сужены. Целью этого последнего испытания было проверить, сможет ли модель СВР восстановить исходную смесь при почти истинных значениях параметров, и идентифицирует ли она это решение как лучшее.

Значения целевой функции, представленные в табл. 1, показывают, что в среднеквадратичном приближении решение задачи разделения смеси возрастных компонент, подчиненных закону роста Берталанффи, существует. Уточним, что когда идет речь о существовании решения, подразумевается, что существует глобальный минимум целевой функции из уравнения (6), и этот минимум может быть найден.

С другой стороны, испытания № 1 и № 2 дали решения, заметно отличающиеся друг от друга по возрастному составу (рис. 1), но сильно конкурирующие по целевой функции (табл. 1). Вместе с тем, если сравнить возрастные составы, полученные в испытаниях № 1 и № 2 с истинным возрастным составом, то можно видеть, что применяемая модель по используемому критерию качества выделила лучшее решение из двух конкурирующих.

Таблица 1. Заданные и оптимизированные с помощью модели СВР параметры роста по Берталанффи в трех испытаниях при различных опциях ГА.

Параметры роста Заданные значения Оптимизированные значения

Испытание № і Испытание № 2 Испытание № 3

K 0,18 0,18022 0,179б4 0,18100

L* 20 19,7299б 19,80030 20,020б5

°0 -0,12 -0,10500 -0,12445 -0,12043

°0 0,1 0,14947 0,14957 0,10997

Целевая функция, 0,00513 0,00494 0,00125

Примечание: номер испытания соответствует рис. і

Рис. 1. Размерные и возрастные ряды, сгенерированные (факт) и по результатам модели СВР (модель), в трех испытаниях при различных опциях ГА

Нужно упомянуть о том, что однозначная идентифицируемость смеси нормальных распределений в общем случае строго доказана, при условии, что число компонент известно (Teacher, 1961, 1963).

Генерируя смеси при различных значениях параметра обнаружили, что при увеличении параметра я о сепарировать смеси становилось сложнее. Как и следовало ожидать, большая вариабельность размеров внутри возрастного класса при асимптотическом росте ведет к перекрытию этих классов в размерном ряде, тем самым затрудняя их разделение. В отдельных случаях отрицатель-

но влияло на качество сепарации и уменьшение параметра <т0. Однако указанный эффект в данной статье не изучался и объяснения не нашел.

Завершая работу по тестированию модели СВР, сравнивали возрастные структуры, полученные на шаге «оценивание» с помощью ГА и шаге «стохастическое моделирование», с помощью вероятностной рулетки (глава 1). Указанные возрастные структуры для испытания № 3 представлены на рис. 2.

Отметим их незначительные и, в целом, случайные расхождения. Таким образом, в рамках модели СВР шаг «стохастического моделирования»

Рис. 2. Сравнение результатов шагов оценивания и стохастического моделирования в испытании 3 при тестировании модели СВР

демонстрирует стабильность получаемого решения и может быть использован на каждой итерации. Отсюда следует вывод о корректности использованной процедуры стохастического моделирования.

Как известно, прикладным задачам по разделению СВР в их традиционном исполнении с применением ЕМ-алгоритмов свойственны нарушения устойчивости и сходимости решений, и наличие конкурирующих решений (Айвазян и др., 1989; ОаПисС й а1., 1996). Попытки разрешить указанные проблемы на основе адаптивного вероятностного обучения, сочетающего байесовскую идеологию и стохастическое моделирование Монте-Карло (метод вероятностной рулетки), завершились созданием 8БМ-алгоритма (Се1еих, Б1еЪо11, 1984). На сегодня это самый эффективный метод в рассматриваемой области. Полученные результаты говорят о целесообразности применения полноценного 8БМ-алгоритма в рамках модели СВР, что позволит снизить неоднозначность решений за счет их сходимости.

Убедившись на искусственных данных в том, что модель СВР способна в принципе решать поставленную задачу, перешли к ее применению к реальным размерным рядам. Используя в модели СВР возрастной и размерный составы улова гребешков — хламисов, получили два представляющих интерес результата. Во-первых, качество решения зависит от группировки размерного ряда. Это видно по рис. 3, где показаны два таких решения, соответствующие группировке с классовым интервалом 0,5 и 1,0 см.

Не вызывает сомнений, что для вариационного ряда с последним интервалом смоделированный возрастной состав ближе к фактически измеренному. Напомним, что целевая функция определя-

ется по размерному ряду, и, в этой связи, по ней нельзя сравнить качество решений, найденных при различных группировках. Мы делаем такое сравнение визуально, поскольку имеем в своем распоряжении фактический возрастной состав. На основании изложенного была постулирована связь между классовым интервалом вариационного размерного ряда и успехом в определении возрастного состава.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Закономерно возникает вопрос: каким образом рассматриваемая связь реализуется? Допустим, что классовый интервал вариационного размерного ряда равен годовому инкременту роста и начальный класс совпадает с каким-либо возрастом. Тогда размеры каждой последующей возрастной когорты будут попадать в отдельный класс, и полученный размерный ряд с некоторыми возможными отклонениями совпадет с рядом возрастным. Отсюда следует, что чем ближе классовый интервал вариационного размерного ряда к годовому инкременту роста, тем точнее определяется возрастной состав. В данной статье оставляем выдвинутую гипотезу открытой.

Второй результат касается закона роста, который для некоторых гребешков — хламисов — а здесь рассматривается светлый гребешок — хорошо аппроксимируется логистической кривой. На рис. 4 можно видеть указанную аппроксимацию, помеченную как «факт», на фоне модельной кривой Берталанффи.

Как следует из указанного рисунка, более качественное решение, полученное при группировке размерного ряда с интервалом в 1 см, соответствует лучшей подгонке модельной кривой роста к фактической. Отсюда же вытекает, что незначительные отклонения в законе роста, а в рассматриваемом случае они недостоверны при 5%-м уровне значимости (рис. 4), не становятся серьезной помехой при разделении в размерном ряду смеси из возрастных компонент. Таким образом, если закон роста не меняется в течение длительного ряда лет, то имеется возможность построения устойчивого размерно-возрастного ключа без прямого определения возраста.

Для проверки стабильности закона роста в многолетнем аспекте использовали размерные ряды синего краба за ряд лет. Упомянутые данные являются типичными: они собраны в промысловом режиме и методически разнородны. Согласно Б.Г. Иванову и Д.А. Столяренко (Ivanov, Stolyarenko, 1995), такие данные классифицируются как «плохо обусловленные» и не могут быть использованы в методах с выделением последо-

Рис. 3. Возрастной и размерный составы улова гребешков — хламисов — на станции № 22, о. Онекотан, Северные Курилы, 1999 г.; по результатам измерений и работы модели СВР при группировке размерного ряда с интервалом 0,5 см (вверху) и 1,0 см (внизу)

вательности модальных классов. Коль скоро здесь зашла речь о методах, объединенных идеей анализа прогрессии мод MPA (Modal Progression Analysis), стоит рассмотреть их место в размерно-частотном анализе чуть подробнее.

Концепция MPA восходит к Скуладоттиру, который использовал ее в своем эвристическом методе отклонений (Deviation method) для разделения смеси возрастных распределений (Skuladottir,

1981). Помимо однородности данных, указанный метод требовал, чтобы зашумление размерных рядов было слабым и в них присутствовало «выдающееся» поколение. Помимо этих довольно сильных ограничений, подход Скуладоттира обладал низкой способностью к выделению верного решения из множества конкурирующих. Развивая указанный подход, Б.Г. Иванов и Д.А. Столяренко использовали аппарат статистической проверки гипотез для устранения конкурирующих решений при вычислении годового инкремента последующих мод (Иванов, Столяренко, 1982). Спустя 4 года эти

авторы усовершенствовали свой метод, основанный на концепции преемственности силы поколений (Иванов, Столяренко, 1986).

Широкое применение для получения оценок запасов концепция MPA приобрела в связи с разработкой компьютерных программ серии ELEFAN (Pauly, David, 1981). Актуальность, особенно в развивающихся странах, оценок запасов, полученных по данным размерных составов уловов, в свою очередь, создала почву для широкого обсуждения указанной методологии. Результатом растущей дискуссии по данному вопросу стали специальная конференция в г. Маззара дел Валло (Mazzara del Vallo) на Филлипинах, прошедшая под эгидой ICLARM (International Center for Living Aquatic Resources Management), и том научных трудов под редакцией Поли и Моргана (Length-based methods in fisheries ..., 1987). В ряде статей из названных трудов надёжность и применимость MPA были подвергнуты серьезной критике. По мнению оппонентов, основной недостаток

5

о

d.

ф

5

п

я

о.

-----Модель

----Верхняя и нижняя 95%-е

----Доверительные фаницы модели

• Факт

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

Возраст, лет

-----Модель

----Верхняя и нижняя 95%-е

----Доверительные фаницы модели

• Факт

5

о

6-

0)

5

<0

CL

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

Возраст, лет

Рис. 4. Кривые роста для гребешков — хламисов — из улова на станции № 22, о. Онекотан, Северные Курилы, 1999 г.; по результатам измерений и работы модели СВР при группировке размерного ряда с интервалом 0,5 см (вверху) и 1,0 см (внизу)

рассматриваемой методологии заключается в присущем ей сильном субъективизме, проявляющемся при построении последовательности модальных классов. В последней из программ рассматриваемого семейства — Complete ELEFAN — была сделана попытка ограничить субъективность MPA (Pauly, 1987). В 1996 г. было начато создание комплекса программ, включающего как Complete ELEFAN, так и известный во всем мире пакет программ FiSAT серии FAO (Gallucci et al., 1996).

На рис. 5 сведены вместе для сравнения размерные ряды из уловов синего краба за отдельные годы и соответствующие возрастные составы, найденные с помощью модели СВР. Можно отметить почти идеальную подгонку модельных размерных рядов к фактическим. Это говорит о достаточно высоком качестве решений согласно используемой целевой функции. Сопоставление демонстрирует заметное сходство по размерным рядам между 1998, 1999 и 2008 годами, тогда как годы 2007 и 2010 выделяются на их фоне (рис. 5). В 2007 г. наблюдалось больше обычного молоди, тогда как в 2010 г. было больше обычного крупных

особей. Из рисунка видно, что в уловах 1998, 1999 и 2008 гг. также имелось заметное количество промысловых крабов.

Пополнение, т. е. животные 10 лет, присутствовало во всех случаях, кроме 2007 г., и составляло от 10% до 17% от всей облавливаемой части запаса. Обращает на себя внимание то, что промысел по рассматриваемому запасу базируется преимущественно на возрастных классах 10+-11+. В 1998 и 1999 гг. пререкрутов практически не было, особенно в 1998 году. В этой связи заметим, что в промысловых уловах из рассматриваемого запаса, начиная с 2000 г., наступило заметное снижение, которое продлилось примерно до 2005-2007 гг. В размерных рядах в 2007 г. наблюдалось много молоди, и к 2010 г. взрослая часть популяции существенно пополнилась (рис. 5). Таким образом, и в исходных размерных рядах и в смоделированных возрастных составах уловов просматривается некоторая закономерность, связанная с динамикой запаса.

С другой стороны, в ряде случаев отсутствуют те возрастные группы, которые появляются

Рис. 5. Возрастной и размерный составы в уловах синего краба на восточном шельфе о. Сахалин в отдельные годы в период 1998-2010 гг.; по результатам промеров и модели СВР

затем в уловах. Например, когорта 9-леток (пре-рекруты первого порядка) в улове 1998 г. вообще не проявилась, а 10-летки в улове 1999 г. составили около 9%. Указанное обстоятельство говорит о том, что размерные ряды могут содержать значительный шум. Из-за различий в условиях сбора данных, осуществляемого в промысловом режиме, уловы не отражают возрастную структуру облавливаемого запаса. Как следствие, идентифицировать поколения по указанным рядам, а тем более использовать эти ряды для выявления закона убыли, не представляется возможным. Работа с сильно зашумленными данными требует каких-то специальных процедур их обработки, таких, например, как фильтрация. Здесь имеется обширная область для совершенствования методологии MPA.

На основе рассмотренных выше результатов был сделан вывод о том, что ориентация модели СВР на обработку отдельных рядов представляется оправданной. Тем более, что для анализа многолетнего массива однородных размерных рядов ранее была разработана размерно-ориентированная когортная модель (Михеев, 2003). Указанная модель, наряду с оцениванием популяционных параметров жизненного цикла и анализом динамики обилия, строит размерно-возрастные ключи. Однако реконструируемая данной моделью возрастная структура популяции является существенно сглаженной и может не отражать особенностей отдельных лет. Таким образом, две рассмотренные выше модели в значительной мере дополняют друг друга, решая при этом собственный круг задач эффективней.

20 18 16 14 Ь 12

I 10

2010 : 1 1 1 1 1 1 1 ■ 1 1 1 1 ■ 1 1 1 ■ 1 1 1 1 1 1 1 1 1 1

2007 —» 2008 -А--1999 —э— 1998 1 1 1 1 1 1 1 1 I 1 1 і г 1 і

... 1

&

1 1

1 1 1 1

/

і і і

а Ш і т 1 1 — — — — — \ і

Завершили анализ возрастной структуры уловов синего краба сопоставлением кривых роста Берталанффи по годам. Для простоты визуального сравнения поместили указанные кривые вместе на рис. 6.

Данный рисунок демонстрирует явное разделение исследуемых кривых на две группы. В первую группу входят кривые, построенные на основе данных 1998, 1999 и 2008 гг., а во вторую — 2007, 2010 гг. Заметим, что сходным образом были поделены и размерные ряды на рис. 5. Одной из причин такой группировки могли стать различия в условиях сбора данных, описанных в табл. 2.

Из указанной таблицы можно видеть, что выборки за 2007 и 2010 гг. не превышали 300 экз. и были существенно меньше по объему, чем выборки 1998, 1999 и 2008 годов. Последние варьировались примерно от 1,0 до 2,2 тыс. экз. При этом работы обычно проводились с конца сентября по третью декаду декабря, и длились 47, 53, 25 и 71 суток, соответственно рассматриваемым годам в порядке их возрастания. И только в 2010 году они были выполнены в мае и заняли по продолжительности почти всю его вторую половину. Как следствие, средние размеры синего краба в 2007 и 2010 гг. заметно отличались от аналогичных величин в другие исследуемые годы. Так, если в 1998, 1999 и 2008 гг. они варьировались в пределах от 11,81±0,039 см до 12,51±0,049 см, то в 2007 и 2010 гг составили 8,60±0,135 см и 14,42±0,097 см соответственно. Таким образом, данные, собранные в 1998, 1999 и 2008 гг., и полученные по ним результаты являются типичными и отражают структуру рассматриваемого запаса, тогда как остальные данные и результаты к таковым отнесены быть не могут.

Параметры кривых роста Берталанффи по отдельным годам, по всему массиву данных и с разделением на две перечисленные выше группы лет показаны в табл. 3.

Таблица 2. Основные характеристики размерных рядов из уловов синего краба на восточном шельфе о. Сахалин в отдельные годы в период 1998-2010 гг.

0 2 4 6 8 10 12 14 16 18 20

Возрастает

Рис. 6. Кривые роста синего краба на восточном шельфе о. Сахалин в отдельные годы в период 1998-2010 гг.; по результатам работы модели СВР

Годы 1998 1999 2007 2008 2010

Период работ 26.09- 31.10- 07.10- 12.10- 16-

29.11 22.12 01.11 22.12 28.05

Среднее, см 12,42 12,51 8,60 11,81 14,42

Ст. ошиб-

ка, см 0,068 0,049 0,135 0,039 0,097

Объем

выборки, экз. 955 1440 209 2199 250

Таблица 3. Параметры кривых роста Берталанффи для синего краба на восточном шельфе о. Сахалин в отдельные годы в период 1998-2010 гг.

Годы Коэффициент роста Броуди, K (1/год) Асимптотический размер, Zx(cm) Условный возраст нулевого размера, а0 (лет) Ст. отклонение размера тела в личиночной стадии. О;, (см)

1998 0,122263185 18,33304775 -0,14774013 0,304760897

1999 0,123275974 18,06232512 -0,14809538 0,300010622

2007 0,141019703 18,56250012 -0,14829706 0,300683987

2008 0,12342011 18,28390694 -0,13639672 0,416174507

2010 0,140445199 18,30361903 -0,14983086 0,247078502

Среднее, 98, 99, 08 0,122986423 18,2264266 -0,14407741 0,340315342

Ст. отклонение 0,000630475 0,144224398 0,00665404 0,065738885

Среднее, 07, 10 0,140732451 18,43305957 -0,14906396 0,273881245

Ст. отклонение 0,000406236 0,183056576 0,00108456 0,037904802

Среднее, 98-10 0,130084834 18,30907979 -0,14607203 0,313741703

Ст. отклонение 0,009732238 0,177727098 0,00546735 0,062000329

Самым консервативным из представленных параметров оказался асимптотический размер, не покидающий диапазона 18,06-18,56 см. Значения коэффициента Броуди проявили себя иначе: четко распались на все те же две выделенные выше группы. Для первой группы лет упомянутый коэффициент изменялся от 0,122 до 0,123 год-1, тогда как для второй группы — от 0,140 до 0,141 год-1. Параметр а0 находился в пределах от -0,1477 до -0,1498 года, и только для 2008 года его значение равнялось -0,1364 года. Параметр сг0 для первых трех рассматриваемых лет равнялся 0,30 см, а для 2008 и 2010 гг. изменялся на значения 0,42 см и 0,25 см соответственно.

Важным результатом моделирования стало то, что в пределах типичной группы, т. е. при соблюдении методических требований к сбору данных, кривые роста демонстрируют явную устойчивость по годам (рис. 6). К месту сказать, нетипичная группа также показала себя устойчивой. Проверка сходства между параметрами этих кривых по критерию Стьюдента показала, что для двух указанных групп при высоком уровне статистической значимости (P<0,01) различие имеется только для одного параметра — коэффициента Броуди. Его значения по группам были равны 0,12±0,0006 и 0,14±0,0004 соответственно. Напомним, что вторая из рассматриваемых групп — с более высоким темпом роста — относится к 2007 и 2010 гг. с малочисленными данными. Кроме того, размерные ряды синего краба в 2010 г. были получены из уловов на нерестовых скоплениях, отличающихся наличием большого числа крупных особей (табл. 2). Данные 2007 г., на наш взгляд, также не являются репрезентативными для промыслового запаса. Отсюда делаем заклю-

чение, что кривые роста для 1998, 1999 и 2008 гг. являются истинными и могут использоваться далее как для построения размерно-возрастного ключа, так и при разделении размерных рядов на возрастные классы. Стратегия поиска решения с помощью ГА в этом случае может состоять в следующем. Первоначально область поиска для параметров кривой Берталанффи зажимается в узкие границы, а затем на единичном гиперкубе ищутся веса компонент при достаточных вычислительных затратах.

Опираясь на кривые, соответствующие 1998, 1999 и 2008 гг., как на достаточно репрезентативные, оценили годовой инкремент роста для синего краба в рассматриваемом районе. Так, для молоди до 10 лет включительно рассматриваемая характеристика варьировалась от 2 до 1 см, а для особей старше 10 лет — от 1,0 до 0,7 см. Для сравнения приведем аналогичный показатель для взрослых самцов синего краба, обитающего у о. Прибылова, Аляска, который по оценкам американских исследователей равен 1,41 см (Otto, Cummiskey, 1990). Отсюда можно сделать вывод о том, что синий краб у о. Сахалин растет заметно медленнее.

ЗАКЛЮЧЕНИЕ

Резюмируя данную статью, вкратце перечислим ее основные результаты. Было показано, что решение задачи разделения размерного ряда из улова как смеси возрастных компонент, подчиненных закону роста Берталанффи, в среднеквадратичном приближении существует. Применяемая модель способна выделить лучшее решение из числа конкурирующих по используемому критерию качества. Установлено,

что на успех сепарации рассматриваемых смесей влияет классовый интервал вариационного размерного ряда.

Моделирование показало, что на реальных данных можно определить с хорошей точностью кривую Берталанффи, аппроксимирующую истинный закон роста. Незначительные отклонения закона роста от указанной кривой не оказывают существенного влияния на определение возрастного состава. Это доказывает возможность построения устойчивого размерно-возрастного ключа без прямого определения возраста. В рассматриваемом случае остается найти оценки весов возрастных компонент, что является лишь вопросом времени, затрачиваемого на работу генетического алгоритма в роли оптимизатора.

Полученные результаты, касающиеся шага стохастического моделирования, говорят о целесообразности применения полноценного 8ЕМ-ал-горитма в рамках модели СВР, что позволит снизить неоднозначность решений за счет их сходимости.

СПИСОК ЛИТЕРАТУРЫ

Айвазян С.А., Бухштабер В.М., Енюков И.С., Мешалкин Л.Д. 1989. Прикладная статистика: Классификация и снижение размерности // Справ. изд. под ред. С.А. Айвазяна. М.: Финансы и статистика, 607 с.

Иванов Б.Г., Столяренко Д.А. 1982. Методы определения возрастного состава углохвостой креветки (Pandalus goniurus) в Беринговом море // Тез. докл. III Всес. конф. «Проблемы рационального использования промысловых беспозвоночных». Калининград. С. 26-28.

Иванов Б.Г., Столяренко Д.А. 1986. Изучение роста углохвостой креветки (Pandalus goniurus) в Беринговом море // Тез. докл. IV Всес. конф. (Севастополь, апрель 1986 г.). М: ВНИРО. Ч. 1. С.47-48.

Михеев А.А. 2003. Стохастическая когортная модель для беспозвоночных с прерывистым ростом \\ Тр. Сах. НИИ рыб. хоз-ва и океанографии. Т. 5,

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

С.216-242.

Михеев Ф.А., Дмитревич Г.Д., Павлушин В.А., МарковМ.В. 2006. Свидетельство об официальной регистрации программ для ЭВМ № 2006612785. Реестр программ для ЭВМ // Официальный бюл. ФС по ИСПТЗ. Сер.: Программы для ЭВМ. Базы данных. Топология интегральных микросхем. ЯИ ОБПБТ № 3 (56), ФИПС г. Москва, 04.08.2006.

Pymкoвcкaя Д., Пuлuнъcкuй M., Pymкoвcкuй Л. 2004. Нейронные сети, генетические алгоритмы и нечеткие системы. М.: Горячая линия — Телеком, 452 с.

Шлeзuнгep M..И. 1965. О самопроизвольном различении образов // Читающие автоматы, Киев: Наукова думка. С. 38-45.

Celeux Q., Diebolt J. 19S4. Reconnaissance de melange de densite et classification. Un algorithme d“apprentissage probabiliste: l“algorithme SEM // Rapports de Recherche de L“INRIA Centr de Rocquencort.

Fournier D.A., Silbert J.A., Majkowski J.M., Hampton J. 1990. MULTIFAN: A likelihood-based method for estimating growth parameters and age composition from multiple length frequency data sets illustrated using data for southern bluefin tuna (Thunnus maccoyii) // Can. J. Fish. Aquat. Sci. V. 47. P. 301-317.

Gallucci V.F., Amjoun B., Hedgepeth J., Lai H.L. 1996. Size-based methods of stock assessment of small-scale fisheries // V.F. Gallucci, S.B. Saila,

D.J. Gustafson, B.J. Rothschild [Eds.]. Stock assessment: Quantitative methods and applications for small-scale fisheries, NY: Lewis Publ. P. 9-S1.

Hasselblad V. 1966. Estimation of parameters for a mixture of normal distributions // Technometrics. V. S. P. 431-444.

Ivanov B.G., Stolyarenko D.A. 1995. Humpy shrimp (Pandalus goniurus) from the western Bering Sea: a method of estimating the annual increment // ICES mar. Sci. Symp. V. 199. P. 310-319.

Length-based methods in fisheries research. International Center for Living Aquatic Resources Management (ICLARM). 19S7. D. Pauly, J. R. Morgan [Eds.] // Conf. proc., Makati Metro, Manila, Philippines and KISR, Safat, Kuwait. V. 13. 46S pp.

MacDonald P.D.M. 1969. FORTRAN programs for statistical estimation of distribution mixtures: some techniques for statistical analysis of length-frequency data // Fish. Res. Board Can. Tech. Rep. V. 129. 45 p.

MacDonaldP.D.M., Pitcher T.J. 1979. Age groups from size frequency data: a versatile and efficient method of analyzing distribution mixture // J. Fish. Res. Board Can. V. 36. P. 9S7-1001.

Otto R.S., Cummiskey P.A. 1990. Growth of adult male blue crab (Paralithodes platypus) // Proc. Int. Symp. on King and Tanner crabs. Alaska Sea Grant Rep. AK-SG-90-04, Fairbanks: P. 245-258.

Pauly D., David N. 1981. ELEFAN I, a BASIC program for the objective extraction of growth parameters from length-frequency data // Meeresforschung, V. 28. P. 205-211.

Pauly D. 1987. A review of the ELEFAN system for analysis of length-frequency data in fish and aquatic invertebrates // D. Pauly, J.R. Morgan [Eds.]. Length-based methods in fisheries research. International Center for Living Aquatic Resources Management (ICLARM), Conf. proc., Makati Metro, Manila, Philippines and KISR, Safat, Kuwait: V. 13. P. 53-74.

Schnute J., Fournier D. 1980. A new approach to length-frequency analysis: growth structure // Can. J. Fish. Aquat. Sci., V. 37. N. 9. P. 1337-1351.

Skuladottir U. 1981. The deviation method: a simple method for detecting year-classes of a population of

Pandalus borealis from length distributions // Proc. Int. Pandalid Shrimp Symp., February 1315 1979, Alaska, Kodiak Sea Grant Rep. 81-3, P. 283-307.

Tanaka E., Tanaka S. 1990. A method for estimating age composition from length-frequency by using stochastic growth equation // Nippon Suissan Gakkaishi, V. 56, P. 1204-1218. (Танака Е., Танака С. Метод определения возрастного состава по размерному распределению с использованием стохастического уравнения роста. Науч. пер. с англ. и ред. А.А. Михеев, 1991).

Teacher H. 1961. Identifiability of mixtures // Ann. Math. Statist., V. 31. N. 1. P. 244-248.

Teacher H. 1963. Identifiability of finite mixtures // Ann. Math. Statist. V. 34. N. 4. P. 1265-1269.

i Надоели баннеры? Вы всегда можете отключить рекламу.