Л.Н.ПИРУМОВА, А.В.БИСЬЕВА, Л.В.ИЛЬИНА АКТУАЛИЗАЦИЯ
ИНФОРМАЦИОННО-ПОИСКОВОГО ТЕЗАУРУСА ПО СЕЛЬСКОМУ ХОЗЯЙСТВУ И ПРОДОВОЛЬСТВИЮ: ПРОБЛЕМЫ И РЕШЕНИЯ
Рассматриваются проблемы, связанные с актуализацией информационно-поискового тезауруса, в т.ч. отбор новых понятий, обработка новой лексики, формирование словарных статей. Особое внимание уделено работе по редактированию лексики, уже вошедшей в информационно-поисковый тезаурус. Раскрывается роль микротезаурусов в этой работе.
Ключевые слова: информационно-поисковые системы; лингвистические средства; информационно-поисковые языки; тезаурусы; АПК; ЦНСХБ
Pirumova L. N., Biseva A.V., Iljina L.V.
ACTUALIZATION OF THE INFORMATION RETRIEVAL THESAURUS OF AGRICULTURE AND FOOD: PROBLEMS AND SOLUTIONS
Problems associated with the actualization of the information retrieval thesaurus, including the selection of new concepts, processing new lexis, forming vocabulary entries are considered. Special attention is devoted to the work on editing the lexis which is already included into the information retrieval thesaurus. The role of micro-thesauri in this work is disclosed.
Key words: information retrieval systems; linguistic tools; information retrieval languages; thesauri; AIC; CSAL
Л.Н.ПИРУМОВА, А.В.БИСЬЕВА, Л.В.ИЛЬИНА АКТУАЛИЗАЦИЯ
ИНФОРМАЦИОННО-ПОИСКОВОГО ТЕЗАУРУСА ПО СЕЛЬСКОМУ ХОЗЯЙСТВУ И ПРОДОВОЛЬСТВИЮ: ПРОБЛЕМЫ И РЕШЕНИЯ
Тезаурус часто называют терминологической сокровищницей, поскольку он собирает, накапливает терминологию по определенной области знания, но прежде всего - это контролируемый словарь лексических единиц, основанный на лексике естественного языка с зафиксированными в нем семантическими и лексическими связями этих единиц.
В автоматизированной системе Федерального государственного бюджетного научного учреждения «Центральная научная сельскохозяйственная библиотека» (ЦНСХБ) Информационно-поисковый тезаурус по сельскому хозяйству и продовольствию (ИПТ) является основным средством тематического поиска и средством формально-логического контроля выбранных индексатором лексических единиц в процессе семантической обработки документов.
ИПТ был создан с целью повышения качества поиска информации в автоматизированной информационно-поисковой системе (ИПС) и выполняет следующие функции: индексирование входного документального потока, контролирование и нормализация лексики АПК, единообразие и формализация представления информации в ИПС, отражение парадигматических отношений, существующих между терминами отрасли знания. ИПТ представляет собой алфавитный перечень терминов, относящихся к области АПК и смежных с ним отраслей и является, таким образом, терминологической базой нормализованной научной лексики по проблемам АПК. Статус терминологической базы АПК требует максимального насыщения ИПТ новой лексикой и поддержание лексики уже вошедшей в ИПТ, в актуальном состоянии.
Очевидно, что выявить новые направления в науке можно только путем изучения научных публикаций, поэтому эта проблема была решена в ЦНСХБ тем, что этим занимаются индексаторы. Выявление новых направлений в науке, новых научных понятий происходит в процессе аналитико-синтетической обработки документов: научных монографий, периодических и продолжающихся изданий. В ходе аналитической обработки отбираются не только те термины, которые относятся непосредственно к сельскому хозяйству и пищевой промышленности, а также из смежных отраслей знания. Перед индексатором стоит сложная задача отобрать из текста документа основные понятия, выделить приоритетные темы, которые интересны пользователю: ученым и специалистам-практикам. Очень важно не пропустить зарождающиеся направления в науке и производстве, которые еще не популярны или пока не используются в Росси. Поэтому в ЦНСХБ индексаторы - это специалисты в области АПК, и именно в той конкретной отрасли (растениевод, животновод, пищевик), по которой они обрабатывают научную литературу и лексику для ИПТ. Но, кроме того, индексатор также должен понимать принципы и логику информационного поиска, чтобы определить, выделить те понятия, которые будут важны при информационном поиске. Так решается проблема выявления новых понятий для ИПТ. Индексатор, выявив новое понятие, начитает работать с ним. На первом этапе устанавливается мониторинг, т.е. постоянное наблюдение, отслеживание как часто встречается это понятие в научных публикациях, и в какой формулировке. Если частотность встречаемости достаточно высока, начинается процесс обработки термина: выявлении всех возможных синонимов, создание словарной статьи.
На этапе обработки определяется, какие понятия будут включены в ИПТ и в каком статусе. Одни термины будут включены в лексический словарь и будут использоваться постоянно, им будет определено место в ИПТ, они получат соответствующее лингвистическое обрамление, а другие будут использоваться в качестве ключевых слов. При обработке лексических единиц в ИПТ используются уже существующие словари, списки предметных рубрик, алфавитно-предметные указатели комплексно-системного каталога ЦНСХБ, алфавитно-предметные указатели классификаций, терминологические и толковые словари, справочники, нормативные документы. От того, насколько досконально проанализированы словари и справочники по теме понятия, а также от того насколько индексатор разбирается в данном вопросе, владеет специальной научной терминологией в конкретной области, зависит состав и полнота лексического обрамления словарной статьи, ее синонимия. Независимо от того, будет термин включен в лексический словарь или будет использован только один раз, он должен быть оформлен в виде единообразной записи, т.е. нормализован посредством грамматики тезауруса и устранения синонимии и полисемии. Для этого установлены унифицированные формы записи для ИПТ: род, падеж, число, разрешение использования словосочетаний и целостных понятий, определения порядка записей в них (наличие или отсутствие инверсии). Используются различные уточняющие или ограничительные пометки. Затем лексические единицы систематизируются и группируются, между ними устанавливаются смысловые связи, образуются классы, разделы (близких по значению слов). На этом этапе устанавливаются парадигматические отношения между отобранными терминами -лексическими единицами, строятся классы условной эквивалентности. Классы условной эквивалентности представляют собой совокупность лексических единиц, которые считаются условно синонимичными в аграрной науке и используются в ИПТ в качестве равнозначных. Между лексическими единицами, входящими в один класс условной эквивалентности, устанавливаются отношения равнозначности (тождества, выражаемые синонимами), пересечения (частичного совпадения объемов понятий, отношения связывающего слова, между которыми существует ассоциативная связь), подчинения (отношения типа "род-вид", "целое-часть").
Построение классификационных схем понятия состоит из выделения основных признаков понятия, которые становятся основными делениями и построения частных схем, которые отражают взаимосвязь понятий и их признаки. Терминологическая база предполагает актуализацию и современные формулировки терминов, максимально полное отражение научных понятий, обозримость их в рамках определенной отрасли знания, что требует постоянной работы с ИПТ и лексическими единицами, уже вошедшими в него. Ежегодно проводится работа по формированию иерархических деревьев для разных областей ИПТ, в ходе которой проводится: обогащение ИПТ новой лексикой; развитие иерархических отношений между терминами (построение иерархических деревьев) с
учетом внеконтекстных логических связей между отображаемыми ими понятиями; ввод новых терминов-синонимов, установление отношений синонимии для существующих лексических единиц (ЛЕ) тезауруса, устранение неоднозначности терминов; установление ассоциативных отношений между терминами в связи с вводом новых ЛЕ, редактирование иерархических связей, замена их ассоциативными отношениями в целях рационального расширения поискового образа документа; ввод комментариев к сложным или неоднозначным понятиям; удаление устаревших и ошибочных терминов, их замена, исправление ошибок в написании терминов, а также приписывание так называемых связанных данных, в частности англоязычных эквивалентов.
Для принятия оптимального решения при разработке новой версии ИПТ также привлекаются авторитетные литературные источники: энциклопедии, справочники, отечественные тезаурусы по соответствующей тематике, в частности, ИПТ по экономике и демографии ИНИОН, многоязычный тезаурус EUROVOC, англоязычные международные тезаурусы САВ1, AGROVOC , документы Интернет. Проводится анализ документов БД «АГРОС» на предмет практики и частотности использования терминов, а также консультации со специалистами.
Однако редактирование терминов, относящихся к одной терминологической области, представляет большую проблему, поскольку алфавитное расположение лексических единиц в ИПТ облегчает поиск нужного понятия, но осложняет выявление терминологических пропусков во всем ИПТ, т.к. сельское хозяйство и пищевая промышленность - политематические отрасли сами по себе и область их соприкосновения с другими областями науки и практики очень широка. Еще труднее выявить лакуны в терминологической области, относящейся к какой-либо отдельной отрасли АПК и смежных с ней областей. Чтобы понять объем, наполненность, полноту терминологической базы отдельной отрасли АПК в ИПТ, необходимо выделить всю относящуюся к ней терминологию в единый блок. Специалисту-отраслевику также важно иметь всю информацию об объеме и наполненности терминологической области, в которой он работает. В ЦНСХБ эта проблема решается созданием микротезаурусов, т.е. тезаурусов по отдельным отраслям АПК. Для микротезаурусов отбирается вся терминология по данной теме из основного ИПТ, т.е. выделяется блок по отдельной отрасли со всеми связями, что позволяет со всех сторон проанализировать данную терминологическую область. Микротезаурусы позволяют
выявить ошибки и неточности в ИПТ (в формулировке терминов, в их лексическом обрамлении); позволяют определить терминологические границы отрасли; выявить направления, не нашедшие отражения в ИПТ; создать терминологическую базу отдельной отрасли АПК. Микротезаурусы отражают все иерархические связи термина с понятиями из других областей знаний. В ходе создания микротезаурусов не только редактируется уже представленная в нем терминология, но и происходит выявление терминологических лакун, пополнение микротезауруса новыми терминами, относящимися к данной области знаний. Термины, представленные в микротезаурусах, имеют все выявленные на момент работы с ним связи с терминами ИПТ из других терминологических областей. Работа по созданию отраслевых микротезаурусов является также работой по редактированию и совершенствованию ИПТ по сельскому хозяйству и продовольствию, поскольку отредактированная лексика микротезауруса затем вливается в ИПТ. Однако микротезаурус представляет собой отдельное лингвистическое средство, поскольку основные его дескрипторы сопровождаются рубриками Отраслевого рубрикатора по сельскому хозяйству и продовольствию и УДК, а также эквивалентами на английском языке. В основном ИПТ этого пока нет, в ИПТ только часть дескрипторов сопровождается английским эквивалентом. Таким образом, в ЦНСХБ решаются проблемы актуализации Информационно-поискового тезауруса по сельскому хозяйству и продовольствию.
СВЕДЕНИЯ ОБ АВТОРАХ
ПИРУМОВА Лидия Николаевна, заместитель директора; кандидат педагогических наук, заслуженный работник культуры РФ,
БИСЬЕВА Анастасия Владимировна,
ИЛЬИНА Любовь Васильевна, старший научный сотрудник Федеральное государственное бюджетное научное учреждение «Центральная научная сельскохозяйственная библиотека».