ЭКСПЕРТНОЕ МНЕНИЕ
УДК 025.4:63 001: 10.24411/2587-6740-2018-15077
АКТУАЛИЗАЦИЯ ИНФОРМАЦИОННО-ПОИСКОВОГО ТЕЗАУРУСА ПО СЕЛЬСКОМУ ХОЗЯЙСТВУ И ПРОДОВОЛЬСТВИЮ
Л.Н. Пирумова, Ж.В. Соколова
ФГБНУ «Центральная научная сельскохозяйственная библиотека», г. Москва, Россия
Представлены результаты научной работы по обогащению контента Информационно-поискового тезауруса по сельскому хозяйству и продовольствию, разрабатываемого в ФГБНУ «Центральная научная сельскохозяйственная библиотека», иерархическими деревьями и являющегося основным информационно-поисковым языком политематической базы данных «АГРОС». Обозначены основные функции информационно-поискового тезауруса: обеспечение индексирования, унифицированного и формализованного представления информации в информационно-поисковой системе, отражение парадигматических отношений между терминами, контроль и нормализация лексики, функции терминологического справочника. Тезаурус является эффективным средством тематического поиска потому, что обеспечивают точность поиска по узкой тематике. Описана методика работ по актуализации и включению новых терминов в тезаурус, установления парадигматических отношений между лексическими единицами и формирования иерархических деревьев. Целью работы являлось совершенствование и развитие информационно-поискового тезауруса для обеспечения точного отображения содержания документов в процессе индексирования, унифицированного представления данных, эффективного тематического поиска в автоматизированных информационно-поисковых системах и базах данных. Актуальность работы в том, что тезаурус как лингвистическое средство индексирования и как терминологический справочник отраслевой научной лексики нуждается в постоянном пополнении новой лексикой, чтобы отражать современный уровень развития аграрной науки. В 2018 г. откорректировано (добавлено, изменено, удалено) более 5000 лексических единиц. Введены новые термины по ветеринарии, растениеводству, механизации сельского хозяйства, экономике АПК, животноводству, агрохимии, а также защите растений. Новая версия информационно-поискового тезауруса содержит 51840 лексических единиц (ЛЕ). Из них 33802 дескрипторов и 18038 аскрипторов. Более 19800 ЛЕ являются научными (латинскими) наименованиями организмов (из них 1667 новые). Ключевые слова: тезаурусы, информационно-поисковые языки, лингвистическое обеспечение, АПК, базы данных, ЦНСХБ.
Введение
Информационно-поисковый тезаурус представляет собой постоянно обновляемый контролируемый машинный словарь научных терминов, отобранных с учетом их значимости и частоты встречаемости в документах баз данных (БД) и прошедших специальную лингвистическую экспертизу и обработку. Термины информационно-поискового тезауруса (дескрипторы и аскрипторы) упорядочены по алфавитному принципу с указанием на существующие между ними смысловые связи иерархического и неиерархического типа (парадигматические отношения).
Основные функции тезауруса следующие: сбор, нормализация и систематизация используемой в научной литературе лексики; индексирование документов и поисковых запросов; обеспечение согласованного, единообразного и формализованного представления информации в БД и ее продуктах; обеспечение полноты и точности информационного поиска путем программной реализации иерархических отношений и отношений синонимии; формально-логический контроль терминов индексирования БД; функция терминологического справочного пособия. Благодаря тому, что лексика в тезаурусе нормализована, его используют в качестве нормативного словаря [1].
Тезаурус — это искусственный информационно-поисковый язык (ИПЯ), создаваемый для выражения основного содержания документа с целью последующего его поиска в БД. В процессе индексирования — представления информации, содержащейся в документе в свернутом виде, информационно-поисковый
тезаурус помогает индексатору правильно перевести понятия с естественного языка на формализованный язык, тем самым преодолевая такие трудности естественного языка, как синонимия, омонимия, полисемия, неоднозначность выражений [2].
Как терминологический справочник тезаурус должен отражать современное состояние науки за счет наличия в нем специальной лексики в формулировках, наиболее часто встречающихся в научных источниках, но при этом не противоречить классически сложившимся понятиям и формам.
Понятийный аппарат тезауруса должен учитывать тенденции развития науки и практики, и его лексическая база должна постоянно пополняться, редактироваться, актуализироваться.
В ФГБНУ «Центральная научная сельскохозяйственная библиотека» (ЦНСХБ) проведена научная работа по обогащению контента Информационно-поискового тезауруса по сельскому хозяйству и продовольствию (ИПТ) новой лексикой. ИПТ является основным ИПЯ БД «АГРОС», содержащей более 1,9 млн документов широкого тематического диапазона (сельское хозяйство, пищевая промышленность, лесное хозяйство, рыбное хозяйство, охрана окружающей среды, а также смежные науки и отрасли) и при этом ориентированной на обслуживание детальных информационных запросов.
Цель работы
Целью работы являлась актуализация политематического Информационно-поискового тезауруса по сельскому хозяйству и продовольствию новой лексикой для обеспечения
ИЧТЕРМТЮМЬ АСШСШПтАЬ ЮШМАЬ № 5 (365) / 2018
точного отображения содержания документов в процессе индексирования, унифицированного представления данных, обеспечения описания предметных областей, эффективного тематического поиска в автоматизированных информационно-поисковых системах и базах данных.
Задача исследования заключается в обогащении контента ИПТ новыми лексическими единицами (ЛЕ), разработке словарных статей, отражающих их парадигматические отношения, построении и расширении (пополнении) иерархических деревьев.
Актуальность работы
ИПЯ как лингвистические средства формирования, структурирования БД и эффективного поиска в них, нуждаются в постоянном пополнении новой лексикой, чтобы отражать современный уровень развития аграрной науки. Лексика тезауруса должна обеспечивать адекватное отображение содержания документа, что гарантирует качество индексирования, эффективность информационного поиска.
Тезаурус считается наиболее эффективным лингвистическим средством тематического поиска потому, что обеспечивают точность поиска по узкой тематике. В то же время он наиболее удобен в использовании, потому что состоит из лексических единиц на естественном языке. В крупнейших международных (AGRIS, CABI, и зарубежных США) БД по сель-
скому хозяйству и продовольствию тезаурусы являются основным лингвистическим средством индексирования и тематического поиска. Таким образом, создание и развитие таких
www.mshj.ru
ЭКСПЕРТНОЕ МНЕНИЕ
лингвистических средств, как тезаурус, соответствует современному мировому уровню развития лингвистического обеспечения автоматизированных информационно-поисковых систем. ИПТ ЦНСХБ используется в процессе индексирования документов по проблематике АПК в научных сельскохозяйственных библиотеках отрасли, в некоторых областных универсальных библиотеках, в Белорусских национальной и сельскохозяйственной библиотеках.
Методика
Работа над созданием ИПТ велась в соответствии с ГОСТ 7.25-2001 Тезаурус информационно-поисковый одноязычный. Правила разработки, структура, состав и форма представления [3] и ГОСТ Р 7.0.91-2015 (ИСО 25964-1:2011) Система стандартов по информации, библиотечному и издательскому делу. Тезаурусы для информационного поиска [4], а также методикой создания ИПТ, разработанной в ЦНСХБ.
Работа по актуализации ИПТ заключалась в редактировании уже существующих в тезаурусе ЛЕ и их словарных статей, в отборе новых научных понятий и терминов, относящихся к сельскому хозяйству, их семантической и лексической обработке и формировании новых словарных статей, отражающих парадигматические отношения между терминами. В соответствии с методикой отбор новых понятий и терминов осуществлялся на основе анализа научных публикаций в российских и зарубежных изданиях. Затем проводился мониторинг отобранных терминов, в ходе которого устанавливалась его частотность, то есть частота упоминания в научных публикациях, его развитие и т.д. После достижения определенной частотности термин проходил лексикографическую и семантическую обработку. Для определения статуса и лексической формы проводилась сверка с ГОСТами, терминологическими справочниками. Для гармонизации термина с международной терминологией проводилось разыскание эквивалента термина в международных тезаурусах по сельскому хозяйству.
Редактирование заключалось в устранении ошибочных орфографических, синтаксических форм написания ЛЕ, замены статуса термина в словарных статьях, пополнении синонимического ряда отдельных понятий, развитии системы парадигматических отношений, обогащении иерархических деревьев.
Результаты работы
Для отбора новых терминов и понятий для включения в ИПТ анализировали научные публикации из входного документного потока, поступившего в фонд ЦНСХБ и из БД «АГРОС». Отбор из входного документного потока осуществлялся в процессе аналитико-синтети-ческой обработки документов. В ходе аналитической обработки входного документного потока отбирались не только понятия, относящиеся непосредственно к сельскому хозяйству и пищевой промышленности, но и к смежным отраслям знаний. Понятие отражает свойства, связи и отношения предметов и явлений. Термин — это слово или словосочетание, являющееся точным обозначением понятия, а ЛЕ — обозначение отдельного понятия, принятое в ИПТ и неделимое в этой функции [5]. Отобранные термины, записанные в форме ключевых слов, заносились в картотеку для частотного мониторинга. Основным поводом
для включения термина в тезаурус являлось отсутствие в нем дескрипторов, отражающих данное понятие, или возможности точно передать его комбинацией дескрипторов.
Отбор из БД «АГРОС» проводился по критериям, установленным методикой отбора ЛЕ в ИПТ: частота появления в индексируемых документах и поисковых запросах; полезность для поиска информации; наличие в авторитетных справочниках, терминологических стандартах; наличие в тезаурусах международных систем по сельскому хозяйству и продовольствию [6].
Независимо от того, будет термин включен в лексический словарь или будет использован только один раз, он оформлялся в виде единообразной записи, то есть был нормализован посредством грамматики тезауруса по унифицированным формам записи для ИПТ: род, падеж, число, разрешение использования словосочетаний и целостных понятий, определения порядка записей в них (наличие или отсутствие инверсии). При вводе в ИПТ новых терминов в статусе дескриптора проводилась проверка на отсутствие подобных в ИПТ. При обработке ЛЕ, прошедших частотный мониторинг, использовали терминологические словари, списки предметных рубрик, алфавитно-предметные указатели комплексно-системного каталога ЦНСХБ, алфавитно-предметные указатели классификаций, толковые словари, справочники, нормативные документы.
Каждый термин проходил стандартную процедуру обработки, включающую: выявление синонимии, омонимии, полисемии, определение статуса в ИПТ, для чего выяснялись его происхождение, история использования, страна происхождения, эволюция формулировки и т.д. Для выражения статуса использовались различные уточняющие или ограничительные пометки. Устанавливались парадигматические отношения: иерархические отношения, отношения синонимии, ассоциативные отношения. Иерархические отношения включали отношения типа «род-вид», «частное-целое», «шире-уже», на их основе создавались иерархические деревья. Определялось место дескриптора в иерархических деревьях, строились новые поддеревья или отдельное дерево. Построение классификационных схем понятия (иерархических деревьев) состояло из выделения основных признаков понятия, которые становились основными делениями, и построения частных схем, отражающих взаимосвязь понятий и их признаки. Отношения синонимии (предпочтения, условной эквивалентности) устанавливались между дескрипторами и другими ЛЕ: его синонимами, омонимами и т.п. Классы условной эквивалентности представляют собой совокупность ЛЕ, считающихся условно синонимичными в сельскохозяйственной науке, и используются в ИПТ в качестве равнозначных. Для установления однозначности только одной ЛЕ придавался статус дескриптора (разрешенного к использованию при индексировании термина), остальные получали статус синонимов. Устанавливались ассоциативные отношения — любой вид смысловых отношений между понятиями в данной предметной области, кроме отношений синонимии. Основным их назначением в ИПТ является указание на дополнительные дескрипторы, полезные при индексировании или поиске. Отношение ассоциации является неиерархическим [7].
Таким образом, в ходе актуализации ИПТ были выполнены следующие виды работ:
• обогащение тезауруса новой лексикой;
• развитие иерархических отношений между терминами (построение иерархических деревьев) с учетом внеконтекстных логических связей между отображаемыми ими понятиями;
• ввод новых терминов-синонимов, установление отношений синонимии для существующих ЛЕ тезауруса, устранение неоднозначности терминов;
• установление ассоциативных отношений между терминами в связи с вводом новых ЛЕ;
• редактирование иерархических связей, замена их ассоциативными отношениями в целях рационального расширения поискового образа документа;
• ввод комментариев к сложным или неоднозначным понятиям;
• удаление устаревших и ошибочных терминов, их замена, исправление ошибок в написании терминов;
• приписывание ЛЕ так называемых связанных данных, в частности, англоязычных эквивалентов в международных тезаурусах по сельскому хозяйству CABI, AGROVOC, а также в официальных англоязычных словарях и справочниках.
В 2018 г. откорректировано (добавлено, изменено, удалено) более 5000 ЛЕ. Введены новые ЛЕ по предметным областям: ветеринария, растениеводство, механизация сельского хозяйства, экономика АПК, животноводство, агрохимия, а также защита растений.
В частности, значительно пополнена словарная статья Lepidoptera терминологической области Защита растений: введены новые семейства, роды, виды, дополнены введенные ранее семейства и роды чешуекрылых — вредителей сельскохозяйственных культур и лесных пород.
Существенно дополнено чрезвычайно важное с экономической точки зрения семейство чешуекрылых Noctuidae (совки). Введены латинские наименования 40 новых родов и 74 новых видов, относящихся к данному семейству.
Также добавлены новые семейства Nym-phalidae, Oecophoridae, Opostegidae, Prodoxid, Psychidae, Pterophoridae, Riodinidae и Roesler-stammiidae. Значительно пополнено семейство Pyralidae (огневки).
Продолжена работа по вводу новых латинских наименований возбудителей болезней животных и человека. Существенно расширены и пополнены словарные статьи Staphylococcus, Clostridium и Streptococcus. Введено 42 новых вида (с относящимися к ним синонимами).
В текущем году произведен ввод востребованной при индексировании документов по растениеводству новой лексики, в частности, введены новые роды и виды растений и сельскохозяйственных культур: роды Pycnanthemum (пикнантемум) с новым видом, Freesia (фрезия), Zamioculcas (замиокулькас) с новым видом, Clausia (клаусия) с новым видом и 2 новых вида из родов Erysimum и Artemisia.
В области механизации сельского хозяйства разработана словарная статья по технологиям ремонта сельскохозяйственной техники — Восстановление деталей.
Введено более 50 новых ЛЕ по общей экономике и экономике сельского хозяйства и пищевой промышленности.
МЕЖДУНАРОДНЫЙ СЕЛЬСКОХОЗЯЙСТВЕННЫЙ ЖУРНАЛ № 5 (365) / 2018
EXPERT OPINION
Терминологическая область Животноводство пополнена ЛЕ, относящихся к таким областям знаний, как корма, разведение животных, анатомия животных, охотничье хозяйство, рыбное хозяйство. Введены 15 новых пород сельскохозяйственных животных.
Существенно пополнена и отредактирована словарная статья Регуляторы роста. Использованы международные общие наименования регуляторов роста. В качестве синонимов приведены химические наименования и торговые названия регуляторов роста. Всего введено более 120 наименований соединений.
Создана новая версия тезауруса, которая содержит 51840 ЛЕ. Из них 33802 дескрипторов и 18038 аскрипторов. Более 19800 ЛЕ являются научными (латинскими) наименованиями организмов (из них 1667 новые).
Выводы
В результате выполненной работы на начало июля 2018 г. сформирована новая версия ИПТ. Новая версия содержит 51840 ЛЕ. Более 19800 ЛЕ являются научными (латинскими) наименованиями организмов (из них 1667 новые). Всего было откорректировано (добавлено, изменено, удалено) более 5000 ЛЕ, из них 2950 латинских терминов. Более 600 ЛЕ имеют лексические примечания, из них 18 добавле-
ны в последнюю версию тезауруса. Добавлено 1290 ЛЕ со статусом синонима, из них 982 ЛЕ являются научными названиями организмов. Увеличилось количество ЛЕ, для которых введены языковые эквиваленты в тезаурусах AGROVOC и САВ1 (на 3 и 1791 ЛЕ соответственно). Добавлено более 2700 связей между терминами (иерархических, синонимичных, ассоциативных).
По результатам проведенных работ можно сделать следующие выводы: актуализированная версия ИПТ ЦНСХБ позволяет адекватно раскрывать содержание документов по сельскому хозяйству и пищевой промышленности, является эффективным средством индексирования и тематического поиска в БД «АГРОС». Создание и развитие ИПТ ЦНСХБ соответствует современному уровню развития тезаурусов. Включение в ИПТ терминологии по всем отраслям АПК позволяет использовать его в качестве общеотраслевого лингвистического средства. ИПТ является общеотраслевым терминологическим справочником нормализованной научной лексики и используется специалистами при написании научных статей. Объем ИПТ, развитость его словарных статей, представленные в нем парадигматические связи терминов позволяют с достаточной полнотой описывать различные предметные области.
Литература
1. Мдивани Р.Р. О разработке серии тезаурусов по социальным и гуманитарным наукам // НТИ. Сер. 2. 2004. № 7. С. 1-9.
2. Онтология и тезаурусы: модели, инструменты, приложения: учебное пособие / Б.В. Добров, В.В. Иванов, Н.В. Лукашевич, ВД. Соловьев. М.: Интернет-университет информационных технологий. Бином. Лаборатория знаний, 2013.
3. ГОСТ 7.25-2001 Тезаурус информационно-поисковый одноязычный. Правила разработки, структура, состав и форма представления. Межгосударственный стандарт 7.25-2001. Минск: Межгосударственный совет по стандартизации, метрологии и сертификации, 2001.
4. ГОСТ Р 7.0.91-2015 (ИСО 25964-1:2011) Система стандартов по информации, библиотечному и издательскому делу. Тезаурусы для информационного поиска. Национальный стандарт Российской Федерации 7.0.91-2015. М.: Федеральное агентство по техническому регулированию и метрологии, 2016.
5. ГОСТ 7.74-96 Информационно-поисковые языки. Термины и определения. Межгосударственный стандарт 7.74-96. Минск: Межгосударственный совет по стандартизации, метрологии и сертификации, 1996.
6. Пирумова Л.Н., Харченко Л.Т. Тезаурус по сельскому хозяйству и продовольствию: индексирование документов и поиск информации в БД АГРОС (Методические материалы). М.: ЦНСХБ, 2001. 69 с.
7. Лукашевич Н.В. Тезаурус в задачах информационного поиска. М., 2011. 512 с.
Об авторах:
Пирумова Лидия Николаевна, кандидат педагогических наук, заслуженный работник культуры Российской Федерации, заместитель директора, [email protected] Соколова Жанна Владимировна, старший научный сотрудник отдела аналитико-синтетической обработки документов и лингвистического обеспечения, [email protected]
ACTUALIZATION OF INFORMATION RETRIEVAL THESAURUS IN AGRICULTURE AND FOOD
L.N. Pirumova, Zh.V. Sokolova
Central scientific agricultural library, Moscow, Russia
Results of a scientific research on updating the content of the Information retrieval thesaurus on agriculture and food developed In the "Central Scientific Agricultural Library" with hierarchical trees are presented. The thesaurus is the main information retrieval language of the polythematic database "AGROS". Basic functions of the information retrieval thesaurus are shown: indexing, unified and formalized representation of information in the information retrieval system, reflecting the paradigmatic relations between terms, lexis control and normalization; functions of the terminological guide. The thesaurus is an effective tool for thematic retrieval, because it provides search precision on narrow subjects. The techniques of works on actualization and inclusion of new terms into the thesaurus, establishing paradigmatic relations between lexical items and forming the hierarchical trees are described. The purpose of the work was to improve and develop the information retrieval thesaurus for precise reflection of the content of documents in the process of indexing, unified representation of data, effective thematic retrieval in automated information retrieval systems and databases. The relevance of the work is that the thesaurus as a linguistic indexing tool and as a terminological guide of professional scientific lexis requires continuously replenishing with new vocabulary in order to reflect the modern level of development of agrarian science. More than 5000 lexical items have been modified (added, changed, deleted) in 2018. New terms on veterinary science, horticulture, agricultural engineering, AIC economy, animal husbandry, agro-chemistry and plant protection were introduced. The new version of the information retrieval thesaurus contains 51840 lexical items. Of them 33802 are descriptors and 18038 are ascriptors. More than 19800 lexical items are scientific (Latin) names of organisms (1667 of them are new). Keywords: thesauruses, information retrieval languages, linguistic support, AIC, databases, CSAL.
References
1. Mdivani R.R. On development of a series of thesauri for social and human sciences. NTI. Ser. 2. 2004. No. 7. Pp. 1-9.
2. Ontology and thesauri: models, instruments, applications: learning guide. B.V. Dobrov, V.V. Ivanov, N.V. Lukashevich, V.D. Soloviev. Moscow: Internet university of information technologies. Binom. Laboratory znany, 2013.
3. GOST 7.25-2001 Unilingual information retrieval thesaurus. Rules of development, structure, composition and form of representation. Minsk: Interstate council for standardization, metrology and certification, 2001.
4. GOST R 7.0.91-2015 (ISO 25964-1:2011) System of standards for information, library science and publishing industry. Thesauri for information retrieval. National standard of the Russian Federation 7.0.91-2015. Moscow: Federal agency for technical regulation and metrology, 2016.
5. GOST 7.74-96 Information retrieval languages. Terms and definitions. Interstate standard 7.74-96. Minsk: Interstate council for standardization, metrology and certification, 1996.
6. Pirumova L.N., Kharchenko L.T. Thesaurus for agriculture and food: indexing of documents and searching of information in the AGROS database (Guidance materials). Moscow: CSAL, 2001. 69 p.
7. Lukashevich N.V. Thesaurus in the information retrieval problems. Moscow, 2011. 512 p.
About the authors:
Lidia N. Pirumova, candidate of pedagogical sciences, honored worker of culture of the Russian Federation, deputy director, [email protected] Zhanna V. Sokolova, senior researcher of the department of analytical and synthetic document processing and linguistic support, [email protected]
INTERNATIONAL AGRICULTURAL JOURNAL № 5 (365) / 2018 www.mshj.ru