Ж.В. СОКОЛОВА ОСОБЕННОСТИ ИНДЕКСИРОВАНИЯ ДОКУМЕНТОВ ПО ЗАЩИТЕ РАСТЕНИЙ
Рассматривается процесс индексирования документов по защите растений с использованием информационно-поисковых языков в ЦНСХБ: Информационно-поискового тезауруса и Отраслевого рубрикатора по сельскому хозяйству и продовольствию. Описываются основные этапы анализа документа и создания поискового образа документа. Показана роль индексирования в обеспечении релевантности поиска в автоматизированных информационных системах.
Ключевые слова: защита растений; обработка информации; индексирование; информационно-поисковый образ документа; информационно-поисковые языки; информационно-поисковый тезаурус; базы данных; автоматизированные системы; ЦНСХБ
J.V. Sokolova
Peculiarities of indexing documents on crop protection
Considered are the indexing process of documents on crop protection using information retrieval languages in the CSAL: the Information Retrieval Thesaurus and the Branch Rubricator of Agriculture and Food. Described are the main stages of analyzing a document and building a search image of document. Shown is the role of indexing in providing the search relevance in automated information systems.
Key words: crop protection; information processing; indexing; information-retrieval image of document; information-retrieval languages; information-retrieval thesaurus; databases; automated systems; CSAL
Ж.В. СОКОЛОВА ОСОБЕННОСТИ ИНДЕКСИРОВАНИЯ ДОКУМЕНТОВ ПО ЗАЩИТЕ РАСТЕНИЙ
Введение. Защита растений - комплексная отрасль науки, изучающая вредные для растений организмы в их связи с экологической системой биоценозов сельскохозяйственных угодий и природных ландшафтов и
разрабатывающая методы и приемы борьбы с ними. Защита растений базируется на данных многих дисциплин: энтомологии и других разделах зоологии, ботаники, микологии, бактериологии, вирусологии, фитопатологии, экологии и биоценологии, химии, биохимии и физиологии животных и растений, физики, биофизики, генетики и селекции, токсикологии, земледелии и т.д. Значение данной научной отрасли трудно переоценить, так как продовольственная безопасность страны напрямую зависит от эффективности проведения защитных мероприятий, от величины сохраненного урожая сельскохозяйственных культур, качества полученной сельскохозяйственной продукции. Данная научная область требует от информационных работников высокой квалификации и постоянного совершенствования знаний при аналитико-синтетической переработке информации.
Для быстрого и эффективного тематического поиска информации по защите растений в автоматизированных информационно-поисковых системах (ИПС) и базах данных (БД) в Федеральном государственном бюджетном научном учреждении «Центральная научная
сельскохозяйственная библиотека» (ЦНСХБ) осуществляется индексирование входящего потока документов, то есть процесс выражения и описания содержания документа с помощью информационно-поисковых языков (ИПЯ). В ЦНСХБ для выражения смыслового содержания документов используются предкоординатные и посткоординатные ИПЯ. К предкоординатным (классификационным) языкам относятся: Универсальная десятичная классификация (УДК) и Отраслевой рубрикатор по сельскому хозяйству и продовольствию (ОР). К посткоординатным ИПЯ относятся дескрипторный язык, основным инструментом которого является информационно-поисковый тезаурус (ИПТ) и язык ключевых слов. Понятия, отражающие основное содержание документа, должны быть выражены нормативной научной лексикой. Для унификации этого процесса используется ИПТ, который представляет собой постоянно обновляемый контролируемый машинный словарь научных терминов, отобранных с учетом их значимости и частоты
встречаемости в документах баз данных (БД) и прошедших специальную лингвистическую экспертизу и обработку. Термины ИПТ (дескрипторы и аскрипторы) упорядочены по систематическому и алфавитному принципам с указанием на существующие между ними смысловые связи иерархического и неиерархического типа. На данный момент ИПТ объемом более 49 тыс. терминов охватывает все отрасли АПК и достаточно полно отражает современное состояние сельскохозяйственной науки и практики. В ЦНСХБ на основе ИПТ создан микротезаурус по защите растений, существенно облегчающий индексирование документов, поскольку позволяет работать со всем объемом терминологии по данной предметной области.
Целью исследования является анализ особенностей индексирования документов по защите растений в ЦНСХБ на ИПЯ, специально разработанных для автоматизированного поиска: ОР, ИПТ и языка ключевых слов.
Методика исследования. Индексирование документов по защите растений проводится в соответствии с различного рода нормативными документами: ГОСТами, ОР, ИПТ, методическими материалами и инструкциями по индексированию. Необходимым условием качественного индексирования является знание индексатором структуры и тематического диапазона БД «АГРОС» (основного информационного продукта ЦНСХБ), логики поиска в ней, а также реальных запросов пользователей.
При этом соблюдаются общие требования, предъявляемые к индексированию документов: полнота и точность рассмотрения документа, объективность рассмотрения, единообразие отображения сходных документов.
Процесс индексирования документов включает 4 основных этапа, которые практически осуществляются одновременно: анализ содержания документа; выбор понятий, отражающих его основное содержание; выбор терминов индексирования (дескрипторов, ключевых слов, рубрик) для обозначения понятий; формирование поискового образа документа (ПОД) из терминов индексирования.
Содержание работы. Задача индексатора - как можно полнее и тщательнее изучить документ во всех его аспектах, чтобы быть уверенным, что не пропущена никакая полезная информация. Этого можно достичь, тщательно анализируя: титульный лист (для определения места издания и вида документа); заглавие; реферат или аннотацию; оглавление; предисловие, введение, пристатейные ключевые слова и т.п.; первый параграф; схемы, таблицы и подписи под ними; слова или группы слов, подчеркнутые или выделенные при печати; выводы; библиографию.
Рекомендуется придерживаться следующей схемы выделения понятий, подлежащих индексированию:
1. Объект исследования: с.-х. культуры, вредители растений (насекомые-вредители, растительноядные клещи, грызуны и др. млекопитающие, вредители запасов, многоножки, мокрицы, моллюски и др.), возбудители болезней растений (фитопатогенные грибы, фитопатогенные бактерии, вирусы растений, фитоплазмы, фитонематоды и др.), болезни растений (грибные болезни, бактериальные болезни, вирусные болезни, микоплазмозы, нематодозы, комплексные болезни растений, болезни невыясненной этиологии, неинфекционные болезни), сорняки (однодольные, двудольные, однолетние, многолетние, корневищные, корнеотпрысковые) и др. Термины, отражающие объект исследований, рекомендуется записывать в ПОД первыми.
2. Действие и/или его агент: методы борьбы с вредителями, болезнями и сорняками (агротехнический, биологический, химический, физический, механический, интегрированный).
3. Условия действия или условия исследования (полевые опыты, лабораторные исследования, опыты in vitro, вегетационные опыты и т.п.).
4. Цель действия или исследования (создание устойчивых сортов, разработка экологически безопасных технологий и средств борьбы с вредными организмами и т.п.).
5. Методы или методика исследований. Последние отражаются, как правило, только в следующих случаях: а) в документе приводится сравнительный анализ явлений, процессов и т.п. разными методами; б) работа в целом носит методический характер или дается описание нового метода; в) описывается применение известного метода в области, в которой он ранее не применялся.
6. Область применения объекта (селекция, защита растений, биотехнология).
7. Время воздействия на объект, время его действия или время исследования (сезон, время года, год).
8. География объектов, процессов, исследований (страны, области и зоны России, климатические зоны и т.п.).
Индексируются все понятия, исчерпывающе описывающие документ и релевантные для БД. Для индексирования документов по защите растений по ИПТ требуется в среднем 7-10 понятий, но в зависимости от содержания документа их может быть 3-5 или более 10. Отобранные термины индексирования следует записывать в логической последовательности так, чтобы по ним можно было понять содержание документа даже без прочтения его заглавия.
Из ИПТ для выбранных из документа понятий подбираются дескрипторы (разрешенные для индексирования термины), наиболее конкретно отражающие эти понятия. Если нужное понятие совпадает с запрещенным к использованию при индексировании аскриптором (синонимы, омонимы), то следует воспользоваться ссылкой на нужный дескриптор. Например «колорадский жук» (аскриптор) - см. «Leptmotarsa decemlineata» (дескриптор), «пшеница мягкая» - см «Triticum aestivum», «гезаприм» - см. «атразин», «эфиры» - Исп «простые эфиры», «сложные эфиры». Использование при индексировании только дескрипторов придает единообразие и точность отражения тематики документов по защите растений. Наличие ассоциативных отношений между терминами тезауруса облегчает
работу индексатора, так как позволяет находить близкие по смыслу понятия и тем самым помогает полнее передать содержание документа. Например, дескриптор «устойчивость к болезням» имеет следующие ассоциации «восприимчивые сорта», «защитные реакции растений», «патогенезозависимые белки», «сигнальные биологически активные вещества», «фитоалексины». В случае уточнения родовых латинских видов растений обращение к статьям ассоциативных дескрипторов является обязательным. Например, дескриптор «томат» имеет ассоциацию «Lycoprsicon», «яблоня» - «Malus», «виноград» - «Vitis». Специфические термины, новые понятия, не представленные в ИПТ, но имеющие высокую частотность и важное значение при составлении ПОДа, используются в качестве ключевых слов (2, с. 62-65).
Отраслевой рубрикатор по сельскому хозяйству и продовольствию специально разработан для автоматизированной информационной системы ЦНСХБ на базе Государственного рубрикатора научно-технической информации (ГРНТИ) с максимальной глубиной классификации до 5 уровней. Рубрикатор по сельскому хозяйству и продовольствию - это классификация научных знаний в структурированном и формализованном виде. Рубрики состоят из кодов и наименований. Код представляет собой цепочку пар арабских цифр (в зависимости от уровня иерархии), разделенных знаком «.» (точка). При рубрике может быть примечание, уточняющее вопросы, которые она отражает в связи с другими рубриками, а также система ссылок (См. и См. также) к другим разделам отраслевого рубрикатора и ГРНТИ и обратных ссылок от них (Отс. от и См. также). Такие ссылки облегчают понимание тематического охвата рубрик и поиск рубрики, необходимой для индексирования конкретного документа. (1, с.16-20).
Проиллюстрируем это на фрагменте рубрикатора:
68.37 Защита растений
Примечание. В рубрике отражаются вопросы защиты растений от вредителей, болезней, сорняков, в т.ч. вопросы защиты растений от неблагоприятных метеорологических факторов. Защита леса
см. 68.47.37 Защита леса от болезней и вредителей Оценка сортов и селекция с.-х. растений на устойчивость к вредителям и болезням
см. 68.35.03 Селекция и семеноводство с.-х. растений 68.37.13 Методы защиты растений от вредителей, болезней и сорняков
См. также: Орошение с.-х. земель
68.37.31 Болезни растений и борьба с ними
68.37.31.21 Непаразитарные болезни растений
Нарушение водного режима у растений
см. 68.03.03.21.13 Водный режим с.-х. растений
68.37.31.21.05 Генетические болезни растений
Отс. от 68.03.03.17 Генетика с.-х. растений
Для отражения основных аспектов содержания документу приписывается цифровой код одной или нескольких рубрик (но не более трех). Код рубрики определяет место данного документа в информационном массиве БД, релевантность поиска по запросу пользователей. Поиск документов по кодам ОР позволяет найти в БД большой объем документов по крупным блокам тематической информации, в частности по защите растений, не прибегая к помощи терминов ИПТ или в дополнение к нему.
Рассмотрим особенности индексирования документов по защите растений на нескольких примерах.
Пример 1. Документ «Полифункциональное действие
энтомопатогенных микроорганизмов: оценка инсектицидной и антифунгальной активности Bacillus thuringiensis и Beauveria bassiana в
отношении личинок колорадского жука и возбудителя ризоктониоза картофеля Rhizoctonia solani соответственно».
Сначала выделяем понятия для индексирования: картофель, колорадский жук, личинки, ризоктониоз, борьба с вредителями, борьба с болезнями, биологический метод борьбы, энтомопатогенные микроорганизмы, Bacillus thuringiensis, Beauveria bassiana, инсектицидная активность, антифунгальная активность, Новосибирская область. Затем присваиваем документу рубрики, пользуясь ОР. В данном случае их будет 3 для наиболее полного раскрытия содержания
документа: 68.37.29.49.17 Насекомые - вредители
картофеля, 68.37.31.49.19 Грибные болезни
картофеля, 68.37.13.17 Биологический метод борьбы с вредителями, болезнями растений и сорняками. И, наконец, подбираем по тезаурусу соответствующие дескрипторы. Обязательным при индексировании документов по защите растений является использование латинских наименований сельскохозяйственных культур, вредных и полезных организмов.
ПОД документа будет выглядеть следующим образом: РУБ: 68.37.29.49.17; 68.37.31.49.19; 68.37.13.17
ТЕР: картофель; Solanum tuberosum; насекомые-вредители; Leptinotarsa decemlineata; личинки; ризоктониоз; Rhizoctonia solani; борьба с вредителями; борьба с болезнями; биологическая борьба; энтомопатогенные бактерии; Bacillus thuringiensis; энтомопатогенные грибы; Beauveria bassiana; инсектицидная активность; антифунгальная активность; Новосибирская обл.
Пример 2. Документ «Эффективность применения гербицидов в борьбе с однолетними мятликовыми сорняками на посевах сои в Приморском крае».
ПОД документа будет выглядеть следующим образом: РУБ: 68.37.33.31.45; 68.37.33.13.19
ТЕР: соя; Glycine max; злаковые сорняки; однолетние сорняки; видовой состав; засоренность; борьба с сорняками; химическая борьба; гербициды; чувствительность; урожайность; Приморский край.
Пример 3. Документ «Методические указания по определение остаточных количеств системного фунгицида пропиконазола в плодах и соке цитрусовых методом капиллярной газожидкостной хроматографии».
ПОД документа будет выглядеть следующим образом: РУБ: 65.53.03; 68.37.31.13.19
ТЕР: пропиконазол; системные фунгициды; остатки пестицидов; цитрусовые культуры; плодово-ягодные соки; газожидкостная хроматография; методические материалы; ГСЭН.
Пример 4. Документ «Клонирование, анализ нуклеотидной последовательности генома и филогенетических связей изолята вируса зеленой крапчатой мозаики огурца из пров. Хэбэй, Китай».
ПОД документа будет выглядеть следующим образом: РУБ: 68.37.31.51.15
ТЕР: огурец; Cucumis sativus; вирусные болезни растений; вирус зеленой крапчатой мозаики огурца; клонирование ДНК; секвенирование РНК; изоляты; нуклеотидные последовательности; секвенирование белков; филогенетические связи; Китай.
Пример 5. Документ «Возможности биологического контроля численности смородинной почковой моли: эффективность применения биопрепаратов немабакт и энтонем-F в борьбе с вредителем на черной смородине».
ПОД документа будет выглядеть следующим образом: РУБ: 68.37.29.53.17; 68.37.29.13.17
ТЕР: смородина черная; Ribes nigrum; насекомые-вредители; Lampronia capitella; борьба с вредителями; биологическая борьба; биопрепараты; немабакт; энтонем-F; продуценты; энтомопатогенные нематоды; Steinernema carpocapsae; Steinernema feltiae; урожайность; Новосибирская обл.
В данном случае понятия «немабакт» и «энтонем^» отсутствуют в ИПТ, но в силу их важности для раскрытия содержания документа и поиска информации могут быть использованы в качестве ключевых слов.
Успех поиска информации во многом зависит от квалификации индексаторов, от того, насколько полно будут раскрыты ими проблемы, отраженные в первичном документе, и насколько правильно они будут переведены с естественного языка на формализованный язык ИПС. Связь с пользователем - одно из условий совершенствования БД. Задача индексатора - предвосхищать запросы пользователей, отражая самые новые, интересные и перспективные направления науки и практики.
Таким образом, отбор наиболее значимой информации из входящего потока документов, представление ее в сжатом виде с помощью дескрипторов и ключевых слов, определение места документа в информационных ресурсах за счет присвоения ему индексов ОР позволяют унифицировать и оптимизировать процесс индексирования, корректно раскрыть содержание документа, обеспечивая релевантность и полноту поиска.
Выводы. Разработанная в ЦНСХБ методика индексирования обеспечивает единообразие в выражении содержания документов по защите растений. Использование ИПТ и ОР обеспечивает всестороннее раскрытие тем документа и обеспечивает эффективный поиск информации по данной отрасли знания в БД «АГРОС». Насыщенность ИПТ терминологией по защите растений и постоянное обогащение его новой научной лексикой обеспечивает надлежащее качество индексирования документов.
СПИСОК ЛИТЕРАТУРЫ
1. Индексирование документов базы данных ЦНСХБ. Методические указания // Состав. Л.Н. Пирумова, Л.Т. Харченко. - Москва, 1995. - 35 с.
2. Пирумова Л.Н., Харченко Л.Т. Тезаурус по сельскому хозяйству и продовольствию: индексирование документов и поиск информации в БД АГРОС. (Методические материалы). Москва, 2001. - 70 с.
СВЕДЕНИЯ ОБ АВТОРЕ
Соколова Жанная Владимировна - старший научный сотрудник отдела аналитико-синтетической обработки документов и лингвистического обеспечения, Федеральное государственное бюджетное научное учреждение «Центральная научная сельскохозяйственная библиотека» [email protected]