ПОЧВЕННАЯ ИНФОРМАТИКА
Библиографический список
1. Пфанцагль, И. Теория измерений / И. Пфанцагль. - М.: Мир, 1976. - 249 с.
2. Высокос, Г.Н. Шкалы почвенных признаков и выбор мер сходства объектов / Г.Н. Высокос, В.А. Рожков. - Труды Почвенного ин-
ститута им. В.В. Докучаева. - М., 1981. -
С. 30-39.
3. Котов, В.Н. Применение теории измерений в биологических исследованиях / В.Н. Котов. - Киев: Наукова думка, 1985. - 100 с.
4. Рожков, В.А. Почвенная информатика / В.А. Рожков. - М: Агропромиздат, 1989. - 222 с.
МЕТОДЫ ЧИСЛЕННОЙ КЛАССИФИКАЦИИ В ПОЧВЕННЫХ
ИССЛЕДОВАНИЯХ
В.Н. КАРМИНОВ,
О.В. МАРТЫНЕНКО
Организация и анализ данных на основе методов численной классификации представляют собой новое направление в почвоведении, возникшее на стыке почвоведения, математики, теории информационных систем и программирования [3, 4].
Методы численной классификации направлены прежде всего на полное извлечение информации и представление ее в наглядном виде. Согласно определению численной классификации, ее центральной проблемой является построение таксонов (классов) почв, или структуризация множества заданных почвенных объектов. Для решения этой проблемы необходимо ввести понятие сходства и различия объектов и их совокупностей, а также способы формирования классов. Это может быть выполнено несколькими методами и алгоритмами. Наиболее распространены иерархические агломеративные группировки, в которых происходит объединение объектов сначала в мелкие, а затем во все более крупные классы. Объединяются сначала наиболее сходные объекты, а затем эти группы объединяют с наиболее сходными с ними объектами или другими группами и т.д., пока они не образуют единое множество.
Результаты отображаются в виде дендрограммы (рисунок). Дендрограммой называют график, на котором по вертикальной оси откладывают значение сходства, а по горизонтальной - номера объектов с равными интервалами [1]. Построение дендрограммы необходимо для свертки информации и выдвижении гипотез о возможном числе классов на множестве объектов.
От проблемы структуризации неотделима проблема оценки информативности признаков, сокращения размерности их пространства. Информативность признаков означает относительный вклад каждого из них в разделение классов. Чем в большей мере данный признак отличается от другого, тем он более информативен.
Вообще целью оценки информативности признаков является выбор такого минимального их числа из полного набора, который обеспечил бы диагностику с достаточной точностью. Информативность признака в численной классификации выражается количественным показателем его относительного вклада в разделение объектов или классов. Она важна также для решения вопроса нахождения системы информативных признаков (СИП), т.е. меньшего, по сравнению с исходным, набора признаков, который, по крайней мере, не хуже обеспечивает разделение объектов и классов [4].
Основная сложность в применении методов численной классификации связана с вертикальной анизотропностью почв. Состав и мощность генетических горизонтов могут сильно варьировать в пределах одного таксономического уровня почв. Само определение горизонтов в значительной мере условно, поскольку включает гипотезы о его генезисе, которые могут не совпадать у разных исследователей. В силу различных причин (эрозия, вспашка и др.) отдельные горизонты могут выпадать из профиля, не меняя таксономического ранга почвы. Чаще всего глубины залегания горизонтов также значительно
76
ЛЕСНОЙ ВЕСТНИК 7/2007
ПОЧВЕННАЯ ИНФОРМАТИКА
варьируют, в результате чего описания почв становятся неоднородными.
Для устранения или уменьшения такой неоднородности существуют различные подходы. Один из них состоит в описании почв по фиксированным для разных почв глубинам. Однако стандартные глубины, хотя и обеспечивают унифицированную матрицу наблюдений, не всегда допустимы с точки зрения почвоведа: при любой степени детальности есть вероятность нарушения соответствия горизонтов между профилями.
Другой подход заключается том, что все образцы принимаются за самостоятельные объекты. Преимуществом метода является возможность сравнения профилей с разным числом горизонтов.
Еще один подход состоит в аппроксимации распределений по профилю значений признаков, что осуществляется построением уравнения регрессии, которое с достаточной точностью воспроизводило бы характерные
точки профиля и позволяло интерполировать промежуточные данные.
Однако все это не снимает полностью вопросов соответствия глубины и горизонтов разных профилей. Поэтому всегда следует учитывать эти особенности при интерпретации результатов статистической обработки.
Библиографический список
1. Боровиков, В.П. STATISTICA. Искусство анализа данных на компьютере: Для профессионалов / В.П. Боровиков. - 2-е изд. (+CD) - СПб.: Питер, 2003. - 688 с.
2. Боровиков, В.П. STATISTICA - Статистический анализ и обработка данных в среде Windows / В.П. Боровиков, И.П. Боровиков. - М.: Информационно-издательский дом «Филинъ», 1998.
3. Рожков, В.А. Новые информационные технологии в почвоведении: прогресс и заблуждения / В.А. Рожков // Вестник с.-х. науки. - 1991. - № 12. - С. 31-38.
4. Рожков, В.А. Почвенная информатика / В.А. Рожков; ВАСХНИЛ. - М.: Агропромиздат, 1989. -221 с.
ЛЕСНОЙ ВЕСТНИК 7/2007
77