Научная статья на тему 'Особенности индексирования документов по тезаурусу по сельскому хозяйству и продовольствию'

Особенности индексирования документов по тезаурусу по сельскому хозяйству и продовольствию Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
70
9
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ИНДЕКСИРОВАНИЕ / ИНФОРМАЦИОННО-ПОИСКОВЫЕ ЯЗЫКИ / ТЕЗАУРУСЫ / БАЗЫ ДАННЫХ / АПК / INDEXING / INFORMATION RETRIEVAL LANGUAGE / THESAURI / DATABASE / AIC

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Соколова Ж. В., Сидоренко Т. А.

Рассматривается процесс индексирования документов по сельскому хозяйству и пищевой промышленности для базы данных «АГРОС» с использованием информационно-поискового тезауруса по сельскому хозяйству и продовольствию. Описываются основные этапы индексирования: анализ содержания документа, выбор понятий, отражающих основное содержание документа; выбор терминов индексирования. Приводятся основные принципы работы с тезаурусом.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

PECULIARITIES OF DOCUMENT INDEXING FOR THESAURUS OF AGRICULTURE AND FOOD

The process of indexing agriculture and food industry documents for the «AGROS» database using the information retrieval thesaurus of agriculture and food is considered. The main stages of indexing are described: analysis of document content, selection of concepts reflecting the main content of document; selection of indexing terms. The main principles of work with the thesaurus are given.

Текст научной работы на тему «Особенности индексирования документов по тезаурусу по сельскому хозяйству и продовольствию»

Д

Ж.В.СОКОЛОВА, Т.А.СИДОРЕНКО ОСОБЕННОСТИ ИНДЕКСИРОВАНИЯ ОКУМЕНТОВ ПО ТЕЗАУРУСУ ПО СЕЛЬСКОМУ ХОЗЯЙСТВУ И ПРОДОВОЛЬСТВИЮ

Рассматривается процесс индексирования документов по сельскому хозяйству и пищевой промышленности для базы данных «АГРОС» с использованием информационно-поискового тезауруса по сельскому хозяйству и продовольствию. Описываются основные этапы индексирования: анализ содержания документа, выбор понятий, отражающих основное содержание документа; выбор терминов индексирования. Приводятся основные принципы работы с тезаурусом.

Ключевые слова: индексирование; информационно-поисковые языки; тезаурусы; базы данных;

АПК

Sokolova Z.V., Sidorenko T.A.

PECULIARITIES OF DOCUMENT INDEXING FOR THESAURUS OF AGRICULTURE AND

FOOD

The process of indexing agriculture and food industry documents for the «AGROS» database using the information retrieval thesaurus of agriculture and food is considered. The main stages of indexing are described: analysis of document content, selection of concepts reflecting the main content of document; selection of indexing terms. The main principles of work with the thesaurus are given.

Key words: indexing; information retrieval language; thesauri; database; AIC

Д

Ж.В.СОКОЛОВА, Т.А.СИДОРЕНКО ОСОБЕННОСТИ ИНДЕКСИРОВАНИЯ ОКУМЕНТОВ ПО ТЕЗАУРУСУ ПО СЕЛЬСКОМУ ХОЗЯЙСТВУ И ПРОДОВОЛЬСТВИЮ

Процесс индексирования документов по сельскому хозяйству и пищевой промышленности требует от индексатора, кроме высокой профессиональной подготовки специальных знаний в области ведения и использования ИПЯ, которые используются в автоматизированной системе. В Федеральном государственном бюджетном научном учреждении «Центральная научная сельскохозяйственная библиотека» (ЦНСХБ) при индексировании используются 4 информационно-поисковых языка: Отраслевой рубрикатор по сельскому хозяйству и продовольствию, Информационно-поисковый тезаурус по сельскому хозяйству и продовольствию (ИПТ), язык ключевых слов, Универсальная десятичная классификация. Основным лингвистическим средством тематического поиска в информационных продуктах ФГБНУ ЦНСХБ и в главном из них - базе данных «АГРОС» является (ИПТ), поэтому остановимся на особенностях индексирования на этом информационно-поисковом языке. Прежде всего, индексатор должен знать структуру БД и логику поиска в ней, а также реальные запросы пользователей. Процесс индексирования включает три основных этапа: анализ содержания документа; выбор понятий, отражающих его основное содержание (темы или концепции); выбор терминов индексирования (дескрипторов, ключевых слов) для обозначения понятий.

Задача индексатора - как можно полнее и тщательнее изучить документ во всех его аспектах, чтобы быть уверенным, что не пропущена никакая полезная информация. Этого можно достичь, тщательно анализируя титульный лист, заглавие, реферат или аннотацию, оглавление, предисловие, введение, пристатейные ключевые слова, первые параграфы; схемы, таблицы и подписи под ними; слова или группы слов, подчеркнутые или выделенные при печати; выводы; библиографию.

Только анализ нескольких информативных частей документа позволяет составить ПОД, отражающий все концепции содержания документа.

Обычно придерживаются следующей схемы выделения понятий, подлежащих индексированию:1. Объект исследований (с.-х. культуры, животные, тип почвы, объекты защиты растений, машины, с.-х. продукция, продукты питания, объекты окружающей среды, методы, процессы, технологии, пестициды, лекарственные средства и т.п.). Термины, отражающие объект исследований, рекомендуется записывать в ПОД первыми.

2. Действие и/или его агент - прием, процесс (агротехнические приемы, процессы содержания и кормления животных, процессы под воздействием удобрений, пестицидов, облучения, борьба с вредителями и болезнями растений и животных, изменение качества продукции).

3. Условия действия или условия исследования (хранение, монокультура, опыты in vitro, перезимовка, горные условия, вегетационные опыты и т.п.).

4. Цель действия или исследования (создание устойчивых сортов, продуктивных пород, очистка воды, разработка экологически безопасных технологий).

5. Методы или методика исследований. Последние отражаются в случаях: а) в документе приводится сравнительный анализ явлений, процессов и т.п. разными методами; б) работа в целом носит методический характер или дается описание нового метода; в) описано применение известного метода в области, в которой он ранее не применялся.

6. Область применения объекта (селекция, защита растений, биотехнология).

7. Время воздействия на объект, время его действия или время исследования (сезон, время года,

год).

8. География объектов, процессов, исследований, связанных с почвой, климатом, окружающей средой, экономикой, статистикой, социологией, законодательством и т.п. (страны, области и зоны России, климатические зоны и т.п., реки, горы, моря). Кроме того, следует приводить географию при индексировании материалов конференций, обзоров, нетрадиционных документов.

Темы для индексирования отбираются по следующим критериям: тема документа должна входить в тематический диапазон БД; документ представляет ценность для поиска в БД по запросу на данную тему.

Информация подлежит индексированию только в том случае, если она достаточно полно и детально представлена в документе. Несоблюдение этого правила порождает «информационный шум» при поиске информации - пользователь получит документы, не соответствующие теме запроса. Индексируются все понятия, исчерпывающе описывающие документ и релевантные для БД. Для индексирования журнальной статьи требуется в среднем 6-7 понятий, но в зависимости от документа их может быть только 2 или больше 9. Все понятия, выделенные в процессе анализа содержания документа, должны быть адекватно переведены на язык индексирования. Наиболее важным правилом индексирования является правило конкретности: для выбранных понятий подбирается дескриптор, который максимально конкретно отражает это понятие.

Автоматическое приписывание вышестоящих терминов, существующее в БД «АГРОС», устраняет необходимость избыточного ручного индексирования. Однако если термины в тезаурусе не имеют соответствующих вышестоящих терминов, но являются важными для поиска, их следует записать в ПОД.

Существуют особые случаи использования терминов разного уровня конкретности, а именно: в документе рассматривается несколько объектов одного рода, а один из них - особенно подробно. Тогда для описания всей группы рассмотренных объектов следует использовать и более широкие термины, и более узкие. При поиске в тезаурусе дескрипторов для отражения выделенного понятия возможны следующие ситуации.

1. В тезаурусе имеется дескриптор, точно отражающий выбранное понятие. В этом случае индексатор должен убедиться в том, что понимаемое им значение выделенного понятия документа совпадает со значением дескриптора тезауруса, а именно, что связи этого дескриптора в тезаурусе относят его к той же области знаний, о которой идет речь в документе. Кроме того, следует проверить, не имеется ли в словарных статьях выбранных дескрипторов нижестоящих, то есть более конкретных терминов, соответствующих отражаемому понятию, а также проверить, достаточно ли информативны выбранные дескрипторы для отражения нужного понятия и не следует ли заменить их более общими, но и более информативными.

2. В тезаурусе нужный термин совпадает с аскриптором, то есть с запрещенным для использования синонимом или омонимом. Синонимы имеют ссылку «СМ», а омонимы - «ИСП» к дескрипторам, которые следует использовать вместо них при индексировании. Если запрещенный термин - синоним, следует использовать дескриптор, на который дается ссылка СМ (обратная ссылка -С). Если нужный термин - омоним, то из двух или более предлагаемых дескрипторов нужно выбрать подходящий по смыслу.

3. В тезаурусе нужное понятие не представлено ни одним из терминов. В этом случае следует выбрать дескриптор, представляющий более широкое по сравнению с нужным понятие, а специфичный термин, не найденный в тезаурусе, может быть использован в качестве ключевого слова.

При индексировании для каждого понятия выбирается один или несколько подходящих дескрипторов. Точного соответствия можно достигнуть не всегда, так как дескриптор может представлять более широкое понятие, чем требуемое, и все же этот дескриптор может быть использован. При работе с тезаурусом необходимо просматривать всю словарную статью нужного дескриптора. Следует помнить, что только в словарной статье дескриптора представлены его связи с другими дескрипторами и аскрипторами. Не следует передавать одно понятие дескрипторами разных уровней иерархии. Иногда бывает полезно использовать несколько дескрипторов для передачи одного понятия. Поиск в БД по комбинации дескрипторов дает более точную информацию, чем поиск только по одному из них.

Основные правила перевода понятий на язык индексирования следующие: полнота, т.е. отражение всех понятий; выбор конкретных, специфичных дескрипторов; одно понятие отражается только один раз (одним дескриптором или комбинацией). Отобранные термины индексирования следует записывать в логической последовательности, чтобы при их прочтении основное содержание документа стало понятным даже без обращения к заглавию документа.

При индексировании возможны следующие ошибки: использование запрещенных терминов; пропуск значимых аспектов содержания документа; использование широких понятий и терминов вместо

узких, конкретных; использование «набора» отдельных терминов вместо словосочетаний; использование неинформативных терминов («влияние», «сравнение», «зависимость», «анализ», «развитие» и т.п.); индексирование по формальному признаку; отсутствие географических понятий в документах, содержание которых тесно привязано к географии; технические ошибки: неправильное использование единственного и множественного числа существительных; не принимаются во внимание принятые сокращения.

Успех поиска информации зависит во многом от квалификации индексаторов, от того, насколько полно будут раскрыты ими проблемы, отраженные в первичном документе, и насколько правильно они будут переведены с естественного языка на формализованный язык ИПС.

СВЕДЕНИЯ ОБ АВТОРАХ

СОКОЛОВА Жанна Владимировна, старший научный сотрудник,

СИДОРЕНКО Тамара Андреевна, старший научный сотрудник Федеральное государственное бюджетное научное учреждение «Центральная научная сельскохозяйственная библиотека».

i Надоели баннеры? Вы всегда можете отключить рекламу.