Научная статья на тему 'Модели данных для формирования биологических коллекций'

Модели данных для формирования биологических коллекций Текст научной статьи по специальности «Математика»

CC BY
108
49
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Ермаков Н. Б., Столяров С. В., Федотов А. М.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Модели данных для формирования биологических коллекций»

УДК 004

Н. Б. Ермаков 1, с. в. столяров 2, А. М. Федотов 3

1 Центральный сибирский ботанический сад СО РАН ул. Золотодолинская, 101, Новосибирск, 630090, Россия

E-mail: brunnera@mail.ru

2 Институт вычислительных технологий СО РАН пр. Акад. Лаврентьева, 6, Новосибирск, 630090, Россия

3 Новосибирский государственный университет ул. Пирогова, 2, Новосибирск, 630090, Россия

E-mail: fedotov@nsu.ru

МОДЕЛИ ДАННЫХ ДЛЯ ФОРМИРОВАНИЯ БИОЛОГИЧЕСКИХ КОЛЛЕКЦИЙ 1

Введение

Развитие любой науки изучающей закономерности окружающего нас мира и формулирующей те или иные законы природы основано, как правило, на анализе большого объема информации (наблюдений или экспериментов) и построения на его основе теоретических умозаключений. Биология здесь не является исключением. Это одна из тех областей естествознания, которая, накопив большой экспериментальный материал, переходит к построению теории. Этот переходный период продолжается уже достаточно долго и характерен тем, что в фактическом отсутствии стройной теории, здесь легко запутаться в обилии фактов, легко уйти в сторону от главной дороги (что уже неоднократно наблюдалось). Как было отмечено А. А. Ляпуновым [1963], очень важно в это время внести ясность в основные понятия и концепции, «навести порядок в доме». Особенно остро эта проблема понятна в связи с широким использованием в биологии современных информационных технологий.

Специфика изучения биологических объектов (в том числе и экосистем) заключается в том, что они в силу высокой степени сложности организации, многочисленности элементов и многообразия проявления признаков не описываются как целостный объект со всеми характеристиками в природе. Представление об биологических объектах складывается из обобщения данных, получаемое при описании (наблюдений или экспериментов) отдельных его элементов. Поэтому важнейшей задачей в изучении биологических объектов является построение его информационной модели, которая связывает разнообразные данные, превращая их в информацию. Здесь необходима разработка иерархической системы понятий (онтологий, словарей, классификаторов), определения отношений общих и частных понятий, характера связей между ними, разработка стандартов описания понятий и форматов данных.

Современные вычислительная техника и информационные технологии предоставляют исследователю мощный аппарат для «манипулирования данными», а не информацией. Данные, переведенные в электронную форму, приобретают новое качество, обеспечивая им более широкое распространение и эффективное использование. Однако применение информационных технологий для обработки и интерпретации (анализа) данных различных биологических наблюдений и экспериментов должно основываться на использовании различных моделей (феноменологических, информационных, математических и др.). Как неоднократно отмечал А. А. Ляпунов: «нет модели - нет информации».

1 Работа выполнена при финансовой поддержке РФФИ (проекты № 06-07-89060, 06-07-89038, 06-04-48971,

07-07-00271), президентской программы «Ведущие научные школы РФ» (грант № НШ-9886.2006.9) и интеграционных проектов СО РАН.

1818-7900. Вестник НГУ. Серия: Информационные технологии. 2007. Том 5, выпуск 2 © Н. Б. Ермаков, С. В. Столяров, А. М. Федотов, 2007

Биология является хорошим примером предметной области, в которой существуют разнообразные и часто сложные типы информационных объектов, на примере которых можно проводить исследования методов построения информационных систем. Отметим, что главные проблемы при создании информационной системы - это проблема целостности и проблема избыточности информации [Барахнин, Федотов, 2007]. Под целостностью понимается согласованность, непротиворечивость и корректность всего массива информационных объектов. Все эти понятия неразрывно связаны с отношениями между информационными объектами, что по сути они характеризуют три свойства системы связей объектов: согласованность -способность многих объектов эффективно существовать и действовать в целях достижения единого результата, непротиворечивость - возможность логической интерпретации системы объектов, корректность - соответствие набора объектов некоторому набору формальных правил или описаний. Избыточность - это дублирование информационных объектов, часто именно избыточность становится причиной рассогласования всей информационной системы. Существуют два подхода к решению этой проблемы - создание алгоритмов для поддержания согласованности, даже в случае дублирования информации, и отказ от самой идеи существования семантически идентичных информационных объектов.

Для исследования проблемы совокупного функционирования системы информационных объектов следует абстрагироваться от структуры самих объектов и рассматривать исключительно их семантические свойства. Например, для объекта «гербарный лист» его семантическим эквивалентом будет информационный объект, который содержит всю информацию о реальном гербарном листе и нам совершенно не важно, каким именно образом, важно лишь, что все свойства, выделяющие оба этих объекта из ряда других объектов, совпадают. Это такие свойства, как род и вид растения, название гербария, сборщик гербария, дата создания и т. п. Подобный подход позволяет исследовать главные логические проблемы создания сложных информационных систем, выработать подходы, независимые от конкретной технической реализации. Соображения, изложенные в данной статье, являются результатом анализа работы по созданию «Электронного атласа биоразнообразия животного и растительного мира Сибири» [Байков, Ермаков, 2000; Коропачинский и др., 1999], которая ведется в Сибирском отделении РАН при участии Новосибирского государственного университета на протяжении последних лет (начиная с 1998 года).

Модели данных реализованные в Атласе

«Электронный атлас биоразнообразия животного и растительного мира Сибири» (далее -«Атлас») является информационной системой 2, представляющей собой набор взаимосвязанных электронных коллекций. Каждая коллекция описывается набором элементарных информационных объектов, из значений которых формируются электронные документы. К настоящему моменту в системе существует более двадцати актуальных информационных коллекций. Ниже приводятся краткие описания самых типичных коллекций «Атласа» и их схем данных.

«Электронный каталог сосудистых растений Сибири» - виртуальный путеводитель по флоре Сибири и Дальнего Востока России [Байков и др., 2006]. В качестве основного объекта в данной электронной библиотеке выступает биологический вид. В настоящее время библиотека насчитывает около 4 000 объектов - видов растений. Описание коллекции включает в себя набор полей, описывающих основные свойства вида растений как базовой таксономической единицы: Род, Вид, Подвид, Автор описания вида, Семейство, Синонимы, Фотография особи, а также поля, описывающие географический ареал распространения вида, и ссылку на гербарные образцы особей данного вида из дочерней коллекции. Основным классификатором выступает электронный таксономический список Флоры Сибири с реализованными возможностями поисковой системы. В результате построения простых и сложных запросов, реализованных в электронной библиотеке, можно получить информацию о распространении отдельных родов и видов в разных регионах Сибири и Дальнего Востока, в каких местообитаниях они чаще всего встречаются, посмотреть фотографии и рисунки, познакомиться с общим распространением видов. Реализованная связь данной коллекции с коллекцией гербарных

2 Ы1р: sbras.ru/win/elbib/atlas/.

этикеток позволяет осуществить выборку и просмотр существующих гербарных материалов конкретной таксономической группы и получить детальную экологическую и фитоценоти-ческую информацию о локальных географических местонахождениях конкретных экземпляров растений.

«Зеленая книга Сибири» - электронная коллекция, созданная на основе материалов монографии «Зеленая книга Сибири» [1996], содержит описания редких и нуждающихся в охране растительных сообществ Сибири. Описание коллекции включает в себя следующие поля -Название сообщества, Место конкретного описания, Географический ареал, Основные дестабилизирующие факторы, Мотивы охраны, Фитоценотическая характеристика, Источники информации и др.

«База данных по медведицам (Insecta, Lepidoptera, Arctiidae) Палеарктики» - содержит паспорта описаний видов медведиц Палеарктики. Описание коллекции включает поля, описывающие вид: Род, Вид, Семейство и т. п., фотографии особей вида, ареалы обитания вида и подвида, синонимы латинского названия.

«Амарант» - каталог видов амарантов, содержит формализованное описание видов амарантов. Описание коллекции включает в себя индексы соответствующих гербарных листов из гербариев Института цитологии и генетики (Новосибирск) и Всероссийского института растениеводства им. Н. И. Вавилова (Москва), Происхождение, Название вида, Фотографии, описания различных частей растения, химический состав зерна, хозяйственные признаки и т. п.

«Коллекция мутантов и мутантно-сортовых гибридов озимой пшеницы» - коллекция зимостойких мутантов и мутантно-сортовых гибридов озимой пшеницы. Описание включает в себя поля: индекс сорта, описание комбинации скрещивания, вегетационный период, урожайность зерна, различные хозяйственные признаки.

«Chironomidae: виды, популяции, генетическая изменчивость» - содержит формализованную информацию по кариологии и морфологии хирономид. Основным объектом базы данных является вид. Информация по каждому виду разделена на 4 основных блока: описание кариотипа, кариотипической вариабельности, морфологии на всех стадиях развития и карио-типического полиморфизма в отдельных природных популяциях вида. Описание коллекций включает в себя поля: Код вида, Род, Вид, Автор описания, Кариотип, Морфология, Литература и др.

Проблемы разработки единой схемы данных

Использованная при создании «Атласа» иерархическая модель информационных объектов «Документ-Коллекция-Объект» позволила создать набор относительно формализованных коллекций. Однако при их наполнении обнаружилось, что все эти коллекции оказались фактически отрезаны друг от друга. Причиной этому оказалось отсутствие единой схемы данных в рамках всей системы и словарей-тезаурусов; несогласованность терминов и понятий, использовавшихся в качестве элементов описания; различные подходы к описанию семантически одинаковых свойств (например, морфологического описания). Проблема создания единой схемы данных стала особо актуальной при разработке «Распределенного портала экологических исследований» [Fedotov et al., 2006; Федотов и др., 2006], составной часть которого является «Атлас». Данный портал ориентирован на разностороннее представление эколого-биологической информации в единой среде и организацию доступа к вычислительным ресурсам. Значительная часть портала посвящена информационным ресурсам по биоразнообразию, накопленным при создании «Атласа». Помимо этого экосистемная ориентация портала подразумевает организацию большого блока информации об экологических и географических факторах, во многом определяющих пространственно-временную организацию экосистем. Большое количество тематически разнородной информации может быть рационально организовано только на основе создания единой схемы данных.

Примером реализации системы информационных связей и единой схемы данных выступает информационный тематический модуль по разнообразию растительного мира. Методологической основой при создании данного модуля выступает система связанных терминов и понятий, описывающих экосистемный уровень организации биосферы. Трудности созда-

ния единой информационной системы по разнообразию растительного мира заключаются в том, что эта область знания принадлежит нескольким научным направлениям, имеющим свои методологии, объекты, специфические связи с соседними областями знаний. Базовым представлением об информационной структуре знаний о разнообразии растительного мира выступает понятие иерархической организации [Ермаков и др., 2006]. Здесь наблюдается следующая иерархия: организм (отдельный индивид растения) - популяция и вид (совокупности индивидов по признаками единства территориального произрастания или систематического единства) - растительное сообщество (совокупность популяций видов) - растительный покров (совокупность растительных сообществ на определенной территории). В настоящее время каждый из уровней обслуживается самостоятельными базами данных: «Гербарий», «Популяции растений», «Каталог растений Сибири», «Геоботанические описания», «Гео-ботанические карты» и др. На каждом из уровней имеется свой основной объект: индивид растения, популяция растений и вид растений, фитоценоз, фитохора, которые описываются в рамках самостоятельных направлений в ботанической науке. При этом базовым элементарным ключевым объектом при описании растительного мира всех уровней выступает индивид растения, а базовым его свойством выступает систематическая (видовая) принадлежность. Поэтому описание любого объекта растительного мира (формирование документа) от гер-барной этикетки до описания фитоценоза в природе исследователь начинает с идентификации признаков отдельных растений и, прежде всего - их таксономической принадлежности. Таксономическая принадлежность особи (особей) растений становится главным ключевым признаком и связующим понятием для документов, описывающих все объекты различных уровней организации растительного мира. Одновременно эталонный список видов растений выступает основным классификатором для документов всех тематических информационных модулей.

Вторым важнейшим общим свойством всех объектов растительного мира выступает их географическая определенность и возможность ее отражения в виде географических координат. Отдельные локализации и ареалы особей растений, популяций, видов, фитоценозов и фитохорий формализуются как объекты в виде стандартных понятий географических информационных систем: точка и полигон. Посредством географических координат объекты разнообразия растительного мира связываются (с различной степенью точности) с объектами абиотической среды (климат, геология, геоморфология, гидрология), а также с абстрактными географическими объектами (например, объектами, выявляемыми на космических снимках). По сути, географический признак выступает универсальным признаком всех живущих на Земле организмов и объектов неживой природы. Поэтому создаваемый функционирующий портал эколого-биологических информационных ресурсов базируется на географической информационной системе.

Другим универсальным связующим признаком различных объектов живой и неживой природы выступает категория времени (дата и время выполнения описания объекта в природе). Эта категория определяет динамические свойства растительного мира, которые представляют собой направленные изменения признаков растений, популяций и фитоценозов, зафиксированные серией разновременных документальных описаний объекта в одной географической точке. На таких временных рядах натурных описаний объектов растительного мира основаны все информационные системы, ориентированные на мониторинг за его состоянием.

Многообразие и вариабильность признаков у объектов растительного мира обусловливает сложности их типизации и как следствие - трудности при составлении классификаторов. Имеющиеся в настоящее время классификации признаков растений (биоморфологических, экологических, эколого-физиологических, систематических и др.) существенно различаются у разных исследователей. Еще более сложная ситуация наблюдается в классификации типов растительных сообществ, где имеется несколько равноценных подходов. Во всех этих ситуациях реализуется несколько классификаторов на одну группу признаков, что существенно усложняет функционирование информационной системы. В настоящее время для Распределенного портала экологических исследований реализовано несколько классификаторов, представляющих признаки растительного покрова: «Жизненная форма растений по Сереб-

рякову», «Жизненная форма растений по Раункиеру», «Тип продолжительности жизни растений», «Кратность плодоношения», «Классификация популяций», «Типы онтогенетических спектров», «Демографические индексы», «Жизненность особей», «Жизненность популяций», «Тип эндемизма», «Тип реликта», «Единицы растительности в системе Браун-Бланке», «Единицы растительности в эколого-фитоценотической классификации», «Синтаксономическая номенклатура», «Типы растительности», «Единицы геоботанического районирования».

Важная роль принадлежит классификаторам внешних факторов, воздействующих на растительный покров, а также его природоохранной значимости. Данные классификаторы имеют более универсальный характер, чем классификаторы биологических свойств объектов растительного мира. Среди них есть признанные международные стандарты, такие, например, как «Категории редкости растений», созданные Международным союзом охраны природы [IUCN Red List..., 1994]. Среди других классификаторов в создаваемом Распределенном портале экологических исследований реализованы следующие: «Биоклиматические секторы», «Градации сторон света», «Естественные экзогенные факторы сукцессий», «Антропогенные факторы», «Список особо охраняемых природных территорий», «Критерии природоохранной значимости растительных сообществ», «Современная обеспеченность охраной».

Большая часть коллекций в «Атласе» имеет относительно несложную структуру - типа «Атрибут-Значение», поэтому для описания таких коллекций могут быть использованы единые для всей системы наборы элементов описания. Так как все документы по сути являются коллекциями электронных ресурсов, было принято решение использовать в качестве базового набора Dublin Core, который содержит основные семантические элементы, описывающие свойства электронных документов. А для описания специфичных для предметной области свойств (например, биологических или экологических) - соответствующие расширения Dublin Core, как уже существующие (например, Darwin Core 3), так и новые.

Наборы элементов Dublin Core и его расширения хорошо подходят только лишь для некоторых простых описательных характеристик, однако существуют коллекции (например, Chironomidae), которые содержат в себе помимо слабоформализованной описательной части (Род, Вид, Описание) еще и сильноформализованную часть - численные результаты наблюдений, экспериментов, для описания которой плоские наборы свойств уже не подходят. Таким образом, для построения информационной модели биологических объектов необходимо в первую очередь выработать такой подход для формализации первичных данных, который бы позволил максимально полно формализовать принципиально различные по структуре коллекции документов.

Плоскими наборами элементов типа Dublin Core или Darwin Core могут быть описаны только простые коллекции, например гербарии. Однако более сложные, построенные, например, на основе системы Брауна-Бланке, требуют расширения понятия «свойство». В информационной системе «Атлас» вся информация хранится в виде ресурсов, следовательно, конкретным значением свойства некоторого ресурса может быть только другой ресурс. Таким образом, свойства являются связующими элементами между ресурсами и, значит, могут быть представлены в виде набора узлов-ресурсов, соединенных связями-свойствами.

Модели отношений

В информационной системе важнейшим элементом являются связи (или отношения) между информационными объектами. Определим информационный объект как цельный, связный электронный объект, который моделирует некоторую сущность реального мира, считаем, что моделируются не абсолютно все свойства объекта, а лишь существенные в границах рассматриваемой предметной области. Тогда информационную систему можно рассматривать как информационную модель предметной области с выделением ключевых, значимых свойств.

Как и в реальном мире, в информационной системе важнейшую роль играют связи (отношения) между объектами, однако если в реальном мире отношения могут быть нечеткими и неформализованными, то в информационной системе все связи должны быть классифицированы и формализованы, поэтому основной проблемой в построении системы становится

3 http: //darwincore .calacademy. org.

выделение и формализация логических отношений между реальными объектами и перенос их в эквивалентные им отношения между электронными объектами.

Изучение биоразнообразия строится прежде всего на наблюдениях, поэтому в качестве главных объектов выбраны именно данные наблюдений. Одним из примеров таких объектов является особь - индивидуальный представитель некоторой популяции некоторого вида растений, животных или микроорганизмов. Будем рассматривать электронный объект Specimen как модель некоторой реальной особи, данный объект имеет уникальный идентификатор (неважно, какой природы), который однозначно отличает его от других объектов. Здесь важно отметить, что упомянутый идентификатор, вообще говоря, никак не привязан к каким-либо свойствам или характеристикам особи - это всего лишь некоторое значение, отличающее данный объект от всех других электронных объектов. Особь обладает некоторым набором характеристик, существенных для исследователя - название рода, вида, географические координаты и др. Именно эти характеристики являются целью моделирования электронными объектами.

В используемой в «Атласе» модели отношений всем характеристикам электронных объектов (например, особи) также соответствуют некоторые электронные объекты, которые связаны с изначальным объектом [Барахнин, Леонова, 2005]. Существующие модели построения информационных систем предоставляют пользователям исключительно функции хранения и презентации данных. Однако данные сами по себе не являются целью научного исследования, гораздо более важны сделанные на основе их анализа выводы. В случае, когда информационная система выступает только в роли хранилища информации для нескольких пользователей, возникает очень серьезная проблема - разделенность данных и описаний методов получения этих данных. Она не позволяет воспользоваться внутри системы некоторыми главными особенностями компьютерной техники, в частности - способностью к анализу численных данных. Чтобы наделить информационную систему способностями к анализу содержащейся в ней информации, необходимо поставлять вместе с данными также и алгоритмы их обработки или даже не алгоритмы, а математические, физические и другие модели обработки информации. В связи с этим в проект «Атласа» заложены механизмы, обеспечивающие полный жизненный цикл электронного документа: модель данных + модель обработки.

Каждая модель обработки является своеобразным фильтром на пути данных и содержит в себе два компонента - алгоритм обработки (или ссылку на алгоритм из некоторого унифицированного хранилища) и блок преобразования данных во входной формат алгоритма. Причем блок преобразования данных может собирать информацию из произвольных ресурсов электронной библиотеки, а алгоритм может работать.

Система, построенная по такому принципу, предоставляет унифицированный интерфейс доступа к данным для всех пользователей. Все вопросы, связанные с обработкой данных с использованием заданных моделей, решаются внутри системы, а пользователю выдается уже готовый результат. В отличие от классического варианта информационной системы в «Атласе» нет необходимости в согласовании форматов потоков данных и программных средств - нужно лишь описать модель обработки с использованием единого для всей системы языка описания.

Список литературы

Байков К. С., Ермаков Н. Б., Коропачинский И. Ю. и др. К вопросу создания электронной библиотеки «Биоразнообразие растительного мира Сибири» // Выч. технологии. 2000. Т. 5. № 2. C. 134-147.

Байков К. С., Ковтонюк Н. К., Красников А. А. и др. Электронный каталог сосудистых растений Сибири как справочно-информационная система в Интернет // Биоразнообразие и динамика экосистем: информационные технологии и моделирование. Новосибирск: Изд-во СО РАН. 2006. С. 125-132.

Барахнин В. Б., Леонова Ю. В. Информационная модель отношений между документами в информационной системе // Выч. технологии. 2005. Т. 10. Спец. вып. С. 129-137.

Барахнин В. Б., Федотов А. М. Информационная система: взгляд на понятие // Вестн. Ново-сиб. гос. ун-та. Серия: Информационные технологии. 2007. Т. 5, вып. 2.

Ермаков Н. Б., Дитц Л. Ю., Равкин Ю. С. и др. Экспертно-аналитическая географическая информационная система (ГИС) «Пространственно-временная динамика экосистем Урала и Сибири» // Биоразнообразие и динамика экосистем: информационные технологии и моделирование. Новосибирск: Изд-во СО РАН. 2006. С. 207-257.

Зеленая книга Сибири (редкие и нуждающиеся в охране растительные сообщества). Новосибирск: Наука. 1996. 396 с.

Ляпунов А. А. Об управляющих системах живой природы и общем понимании жизненных процессов // Проблемы кибернетики. 1963. Вып. 10. С. 179-193. Коропачинский И. Ю., Шокин Ю. И., Шумный В. К. и др. Электронный атлас «Биоразнообразие животного и растительного мира Сибири» // Тр. Первой всерос. конф. «Электронные библиотеки: перспективные методы и технологии, электронные коллекции». РФФИ; СПбГУ; РАН. 1999. С. 187-192.

Федотов А. М., Барахнин В. Б., Гуськов А. Е. и др. Распределенная информационно-аналитическая среда для исследований экологических систем // Выч. технологии. 2006. Т. 11. Спец. вып. Ч. I.

Fedotov A., Gordov E., Kolchanov N. Distributed information-computational environment for ecological systems investigations // Enviromis-2006 Internat^^! ^nfere^e. Tams^ Russia. July 1-8. 2006. P. 42.

IUCNRed List Categories. IUSN Species Survival Comission. Gland. Switzerland. 1994. 21 p.

Материал поступил в редколлегию 10.09.2007

i Надоели баннеры? Вы всегда можете отключить рекламу.