Научная статья на тему 'Некоторые особенности тезаурусов зарубежных и международных баз данных по сельскому хозяйству'

Некоторые особенности тезаурусов зарубежных и международных баз данных по сельскому хозяйству Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
128
32
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СЕЛЬСКОЕ ХОЗЯЙСТВО / ТЕРМИНОЛОГИЯ / БАЗЫ ДАННЫХ / ТЕЗАУРУСЫ / ИНФОРМАЦИОННО-ПОИСКОВЫЕ ЯЗЫКИ / ЛИНГВИСТИЧЕСКОЕ ОБЕСПЕЧЕНИЕ / AGRICULTURE / ANIMAL HUSBANDRY / TERMINOLOGY / DATABASES / THESAURUSES / INFORMATION RETRIEVAL LANGUAGES / LINGUISTIC SUPPORT

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Тимофеевская С.А.

Представлена информация о международных базах данных по сельскому хозяйству «AGRICOLA», «AGRIS», «CAB ABSTRACTS» и используемые ими тезаурусы. Освещены некоторые проблемы совместимости баз данных, создания единого информационного пространства, проблемы доступа к информации. Описаны структура и принципы построения тезаурусов этих баз данных и возможности использования их особенностей для совершенствования тезауруса, создаваемого в ЦНСХБ, и создания русскоязычной версии тезауруса «AGROVOC». Приведены примеры терминов из тезаурусов по терминологической области животноводства. Использование некоторых принципов и элементов зарубежных тезаурусов позволит усовершенствовать отечественный тезаурус и сделать его совместимым с зарубежными.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Some features of thesauruses of foreign and international databases on agriculture

Information about the international databases on agriculture "AGRICOLA", "AGRIS", "CAB ABSTRACTS" and thesauruses used in them is provided. Some problems of databases compatibility, common information space creation, access to information are shown. Structure and principles of creation of thesauruses of these databases and possibility of using their features for improvement of the thesaurus created in CSAL and for creation of the Russian version of the thesaurus "AGROVOC" are described. Examples of terms from thesauruses on the terminological field of animal husbandry are given. The use of some principles and elements of foreign thesauruses will allow to improve the domestic thesaurus and to make it compatible with foreign ones.

Текст научной работы на тему «Некоторые особенности тезаурусов зарубежных и международных баз данных по сельскому хозяйству»

ТИМОФЕЕВСКАЯ С.А. НЕКОТОРЫЕ ОСОБЕННОСТИ ТЕЗАУРУСОВ ЗАРУБЕЖНЫХ И МЕЖДУНАРОДНЫХ БАЗ ДАННЫХ ПО СЕЛЬСКОМУ ХОЗЯЙСТВУ

Представлена информация о международных базах данных по сельскому хозяйству «AGRICOLA», «AGRIS», «CAB ABSTRACTS» и используемые ими тезаурусы. Освещены некоторые проблемы совместимости баз данных, создания единого информационного пространства, проблемы доступа к информации. Описаны структура и принципы построения тезаурусов этих баз данных и возможности использования их особенностей для совершенствования тезауруса, создаваемого в ЦНСХБ, и создания русскоязычной версии тезауруса «AGROVOC». Приведены примеры терминов из тезаурусов по терминологической области животноводства. Использование некоторых принципов и элементов зарубежных тезаурусов позволит усовершенствовать отечественный тезаурус и сделать его совместимым с зарубежными.

Ключевые слова: сельское хозяйство; терминология; базы данных; тезаурусы; информационно -поисковые языки; лингвистическое обеспечение

S. A. Timofeevskaya

Some features of thesauruses of foreign and international databases on agriculture

Information about the international databases on agriculture "AGRICOLA", "AGRIS", "CAB ABSTRACTS" and thesauruses used in them is provided. Some problems of databases compatibility, common information space creation, access to information are shown. Structure and principles of creation of thesauruses of these databases and possibility of using their features for improvement of the thesaurus created in CSAL and for creation of the Russian version of the thesaurus "AGROVOC" are described. Examples of terms from thesauruses on the terminological field of animal husbandry are given. The use of some principles and elements of foreign thesauruses will allow to improve the domestic thesaurus and to make it compatible with foreign ones.

Keywords: agriculture; animal husbandry; terminology; databases; thesauruses; information retrieval languages; linguistic support

ТИМОФЕЕВСКАЯ С.А. НЕКОТОРЫЕ ОСОБЕННОСТИ ТЕЗАУРУСОВ ЗАРУБЕЖНЫХ И МЕЖДУНАРОДНЫХ БАЗ ДАННЫХ ПО СЕЛЬСКОМУ ХОЗЯЙСТВУ

Введение. В настоящее время в условиях возрастающего потока информации, подключения к ресурсам Интернета возникает с одной стороны проблема создания единого информационного пространства и доступности информации, а с другой стороны - поиска необходимой информации по отдельной предметной области. Для того, чтобы освободить пользователя от необходимости при поиске прочитывать или просматривать полные тексты документов и ускорить поиск нужной информации, необходимо ее свернуть, перевести на формализованный информационно-поисковый язык (ИПЯ), позволяющий ввести (представить) информацию в информационно-поисковую систему, базу данных (БД), а затем вести в ней поиск. Поскольку выбор ИПЯ является свободным и каждая библиотека использует свои ИПЯ, то обмен информацией между ними может быть затруднен из-за несовместимости этих ИПЯ. Проблема совместимости лингвистических средств существует как для отдельных БД и информационно-поисковых систем (ИПС), так и для отраслевых информационных сетей. Очевидно, что добиться совместимости отдельной ИПС легче, чем в отраслевой сети, в состав которой входит множество различных ИПС с разнообразными средствами лингвистического обеспечения. Актуальна проблема совместимости лингвистических средств и для ИПС библиотек сельскохозяйственной отрасли (2). С целью повышения качества обработки информации и решения проблемы доступности для отечественного пользователя международных БД по сельскому хозяйству и продовольствию изучали особенности тезаурусов международных и зарубежных баз данных в терминологической области животноводства.

Наиболее авторитетными БД, охватывающими весь спектр вопросов сельского хозяйства (в том числе животноводство), пищевой промышленности и проблем, смежных с ними, являются 3 БД: «AGRICOLA» (БД National agricultural library (NAL), Национальной сельскохозяйственной библиотеки США), «AGRIS» (БД Food Agricultural Organization (FAO) - Продовольственной и сельскохозяйственной организации Объединенных Наций) и «CAB ABSTRACTS» (БД Commonwelth Agricultural Bureaux International (CABI): Международное сельскохозяйственное бюро стран Британского содружества). Из отечественных БД по объему и тематическому охвату с ними может сравниться только БД ЦНСХБ «АГРОС». Для индексирования документов и поиска в БД «АГРОС» используется разработанный Информационно-поисковый тезаурус по сельскому хозяйству и

продовольствию (ТЦ). Зарубежные БД используют в качестве лингвистического обеспечения рубрикаторы - коды тематических рубрик и тезаурусы. Наиболее интересны усилия по совместимости основных средств индексирования и тематического поиска в БД «AGRICOLA», «AGRIS», «CAB ABSTRACTS» - тезаурусов этих БД. Идея создания единого тезауруса, объединяющего два уже существующих тезауруса (CABI и AGRIS (AGROVOC)), появилась еще в 1990-х годах, но до сих пор не реализована, как раз из-за проблем их совместимости. У этих тезаурусов, несмотря на то, что они англоязычные, разные концепции построения словарных статей, присвоения статуса терминам и т.д. Но даже и в английском языке обнаруживаются разные терминологические предпочтения, которые выяснились, например, в период, когда NAL использовала для индексирования своей базы данных тезаурус CABI. Оказалось, что и между ними были различия и NAL вводила в тезаурус CABI свои национальные термины с соответствующей пометкой. БД «AGRIS» создается усилиями более чем 150 стран, которые поставляют в нее информацию о национальных документах своих стран, поэтому ее тезаурус «AGROVOC» многоязычный, существуют версии на 29 языках, что для стран-участников решает проблему совместимости их баз данных с БД «AGRIS». В 2010 г. ЦНСХБ разработала русскоязычную версию этого тезауруса объемом более 32,9 тыс. терминов, эквивалентных терминам тезауруса «AGROVOC».

Цель работы - пополнить, обобщить и сравнить сведения о тезаурусах для более эффективной работы с ТЦ и русскоязычной версией тезауруса «AGROVOC».

В работе использовались теоретические методы исследования: метод анализа и селекции информационных источников и метод обобщения и систематизации информационных данных.

Содержание и результаты. Тезаурус БД «CABABSTRACTS»(TCA) служит для формирования запроса и поиска в БД, а также формирования самой БД. По ТСА формируются поисковые предписания, индексируются документы для БД и изданий РЖ (реферативных журналов). Новые термины появляются в процессе индексирования документов и существуют некоторое время на правах ключевых слов. В ТСА каждый дескриптор имеет вышестоящие и нижестоящие понятия. Вышестоящее понятие приписывается автоматически к выбранному дескриптору. Используется принцип инверсии в сложных дескрипторах.

Словарная статья имеет: BT - вышестоящий термин, NT - нижестоящий термин, rt - ассоциации, HN - исторические заметки, AF - американская форма, BF - английская форма.

В CABI существует группа контроля качества индексирования. Проверки осуществляются, как только документ поступил в БД. Контроль осуществляется на разных этапах технологического процесса создания поискового образа документа. В БД существует формально-логический контроль написания терминов тезауруса.

На данном этапе наибольший интерес как инструмент поиска в базе данных для нас представляет тезаурус «AGROVOC» (ТА). Он используется для классификации, индексирования, описания содержания и маркировки (включая текст-майнинг) документов, а также для поиска библиографических данных в электронных библиотеках и хранилищах данных по широкому тематическому диапазону: сельское хозяйство, лесное хозяйство, аквакультура и рыбное хозяйство, водное хозяйство, вопросы механизации и строительства, природные ресурсы, загрязнение окружающей среды, питание и здоровье человека, образование и др. На сегодняшний день ТА доступен на 29 языках в виде концептуальной схемы (RDF/SKOS-XL), где концепты, их этикетки (лейблы/метки/пометки) и связи/отношения являются основными структурными элементами. (3). RDF (Resource Description Framework) - модель представления данных в виде, пригодном для машинной обработки. SKOS (Simple Knowledge Organisation System) - модель организации знаний для семантической паутины, призванная обеспечить взаимодействие различных информационных систем за счет стандартизации тезаурусов.

Концепты - это всё то, что обозначает понятия нашей предметной области (заменяет реальные предметы), набор необходимых терминов. Из-за многоязычности ТА концепты идентифицированы универсальными цифровыми идентификаторами ресурсов (URI),

например: http://aims/fao/org/aos/agrovoc/c 8163; «молочная телятина» - это этикетка для данного URI (или URL) на русском языке.

Термины (этикетки) - это реальные лексические единицы (слова или словосочетания) со строгой и точной дефиницией, четкими семантическими границами для выражения концептов. Они выражают один и тот же концепт на разных языках (выражены через расширение SKOL-XL). Используются

предпочтительные этикетки (дескрипторы - в обычном тезаурусе), альтернативные этикетки (для выражения синонимов или устранения неоднозначности - UF - use for). Для выражения иерархических связей используются предикаты (утверждения), соответствующие классическим связям в тезаурусе: вышестоящие/нижестоящие - broader/narrower (BT/NT). Неиерархические отношения выражают понятия «родства» между концептами через skos:related (в классическом тезаурусе - ассоциация RT) и специфический словарь связей «Agrontology». Пример термина из ТА:

TERM: (с_8163) RU: молочная телятина

• ¥ http://aims.fao.org/aos/agrovoc/c_8163 LANGUAGE 1. AR: ^ j ^ i

2. CS: telecimaso

3. DE: KALBFLEISCH

4. EN: Veal

5. ES: Carnedeternera

6. FA: j ^ j

7. FR: Viandedeveau

8. HI: □□□ (□□□□□□□□□□)

9. HU: borjuhus

10. IT: Carnedivitello

11. JA: ^Й

12. KO:

13. LO: Sj^UQ^Qg ' 0Ц

14. PL: Cielecina

15. PT: Carnedevitela

16. RU: молочная телятина

17. SK: tel'aciemaso

18. TH: ifla^nfo

19. ZH: Ш^Й

HIERARCHY

• (c_6211) продукция

o (c 438) продукция животноводства

■ (c_4669) мясо

■ (c 8163) молочная телятина

BT

1. (c 4669) мясо

RT

1. (c 1219)телята

2. (c_861)говядина

UF

1. (c 32400) мясо телят

Около 80% концептов ТА - растения и животные. Они могут быть найдены под главным концептом «Организмы».

Каждый концепт ТА может быть подкреплён следующими типами информации:

• терминологическая информация: все термины/этикетки на языках, представляющих концепт;

• структурная информация: отношения/связи между концептами и терминами;

• семантическая информация: определения и/или графические изображения концепта;

• редакционная информация: редакционные примечания и ограничительные пометки.

Концептуальная схема ТА обеспечивает структуру организационных единиц для каждого домена, связанного с сельским хозяйством.

Ранее сотрудниками отдела АСОД ЦНСХБ были проведены исследования, которые выявили, что:

• англоязычные тезаурусы 2 международных БД по сельскому хозяйству имеют большое сходство по тематическому охвату, лексическому составу, построению и элементам словарных блоков, отношениями между терминами, но имеющиеся расхождения в этих областях не позволяют считать их совместимыми в существующем виде;

• ни один из англоязычных тезаурусов не совместим полностью с отечественным тезаурусом;

• англоязычные тезаурусы представляют большую ценность в практической работе с терминами, подготавливаемыми для ввода в ТЦ, в совершенствовании структуры его словарных блоков и словарных «деревьев»;

• невозможна их адаптация к отечественной терминологии и научным традициям (1).

В процессе отбора лексики для ТЦ происходит сближение терминологического состава ТЦ, ТСА и ТА, так как одним из оснований для включения термина в состав ТЦ является наличие его английского эквивалента в ТСА и ТА. Примеры терминов из ТЦ:

КЛЕТКИ

Примечание: растений и животных Иноязычный эквивалент: CELLS Эквивалентный термин в другом тезаурусе: Cells ТЕЛЯТИНА

Иноязычный эквивалент: VEAL

Эквивалентный термин в другом тезаурусе: Babybeef

Входит в микротезаурус: Ветеринария; Животноводство; Пищевая промышленность B1 МЯСО

При разработке словарных статей ТЦ используются лексические примечания, как в зарубежных тезаурусах, вводится предпочтительная связь "use and" (используй в комбинации =+), а также инверсная форма в ТА многословных терминов. Например:

РЕМОНТНЫЕ ТЕЛКИ

Иноязычный эквивалент: replacementheifers

Входит в микротезаурус: Ветеринария; Животноводство

=+ РЕМОНТНЫЙ МОЛОДНЯК

=+ТЕЛКИ

Выводы. С целью облегчения доступа пользователя в зарубежные БД по сельскому хозяйству решаются вопросы сопряжения терминологии с помощью ТЦ. Использование некоторых элементов ТСА и ТА позволяет сделать отечественный тезаурус более совершенным, соответствующим международным стандартам, способствуют его совместимости с зарубежными тезаурусами.

СПИСОК ИСТОЧНИКОВ:

1. Пирумова Л.Н. К вопросу о совместимости средств лингвистического обеспечения баз данных по сельскому хозяйству // Библиотеки в меняющемся мире: новые технологии и новые формы сотрудничества: междунар. науч. конф. Судак, 3-11 июня 2000 г.: материалы конф. — Судак, 2000. — С. 397-401.

2. Пирумова Л.Н. Лингвистическое обеспечение по вопросам АПК: проблемы разработки и совместимости // Матер.^ научно-практич. Семинара «Электрон. ресурсы биб-к», 30-31 окт.2008, СП., 2008. - С. 126-135.

3. АГРОВОК: Многоязычный тезаурус сельскохозяйственной терминологии / http: //aim .fao.org/ru/about

СВЕДЕНИЯ ОБ АВТОРЕ

Тимофеевская Светлана Алексеевна - старший научный сотрудник отдела аналитико-синтетической обработки документов и лингвистического обеспечения, Федеральное государственное бюджетное научное учреждение «Центральная научная сельскохозяйственная библиотека»

sis@cnshb.ru

i Надоели баннеры? Вы всегда можете отключить рекламу.