Научная статья на тему 'ОСОБЕННОСТИ НАУЧНОЙ ОБРАБОТКИ ДОКУМЕНТНОГО ПОТОКА ПО ВЕТЕРИНАРИИ'

ОСОБЕННОСТИ НАУЧНОЙ ОБРАБОТКИ ДОКУМЕНТНОГО ПОТОКА ПО ВЕТЕРИНАРИИ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
47
4
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ВЕТЕРИНАРИЯ / ОБРАБОТКА ИНФОРМАЦИИ / ИНДЕКСИРОВАНИЕ / ИНФОРМАЦИОННО-ПОИСКОВЫЙ ОБРАЗ ДОКУМЕНТА / ИНФОРМАЦИОННО-ПОИСКОВЫЕ ЯЗЫКИ / ИНФОРМАЦИОННО-ПОИСКОВЫЙ ТЕЗАУРУС / БАЗЫ ДАННЫХ / АВТОМАТИЗИРОВАННЫЕ СИСТЕМЫ / ЦНСХБ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Ильина Л. В.

Освещаются особенности смысловой обработки документов по ветеринарии в ЦНСХБ. Описаны принципы и особенности формирования поискового образа документа по ветеринарии с использованием информационно-поисковых языков, используемых в ЦНСХБ: отраслевого рубрикатора по сельскому хозяйству и продовольствию, разработанного на основе Государственного рубрикатора научно-технической информации, Информационно-поискового тезауруса по сельскому хозяйству и продовольствию. Особенностью научной смысловой обработки в ЦНСХБ является узкая профессиональная специализация индексаторов-специалистов (для документов по ветеринарии - с ветеринарным образованием) и технология одноразовой смысловой обработки.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

FEATURES OF SCIENTIFIC PROCESSING OF THE VETERINARY DOCUMENT FLOW

The features of the semantic processing of veterinary documents in the CSAL are highlighted. The principles and features of the formation of a Search Image of Document on Veterinary Medicine using the information retrieval languages used in the CSAL: the Specialized Rubricator on Agriculture and Food developed on the basis of the State Rubricator of Scientific and Technical Information, the Information Retrieval Thesaurus on Agriculture and Food. A special feature of scientific semantic processing in the CSAL is a narrow professional specialization of indexer specialists (for veterinary documents - with veterinary education) and the single semantic processing technology.

Текст научной работы на тему «ОСОБЕННОСТИ НАУЧНОЙ ОБРАБОТКИ ДОКУМЕНТНОГО ПОТОКА ПО ВЕТЕРИНАРИИ»

ИНФОРМАЦИОННЫЕ РЕСУРСЫ. ИЛЬИНА Л. В. ОСОБЕННОСТИ НАУЧНОЙ ОБРАБОТКИ ДОКУМЕНТНОГО ПОТОКА ПО ВЕТЕРИНАРИИ

Освещаются особенности смысловой обработки документов по ветеринарии в ЦНСХБ. Описаны принципы и особенности формирования поискового образа документа по ветеринарии с использованием информационно-поисковых языков, используемых в ЦНСХБ: отраслевого рубрикатора по сельскому хозяйству и продовольствию, разработанного на основе Государственного рубрикатора научно-технической информации, Информационно-поискового тезауруса по сельскому хозяйству и продовольствию. Особенностью научной смысловой обработки в ЦНСХБ является узкая профессиональная специализация индексаторов-специалистов (для документов по ветеринарии - с ветеринарным образованием) и технология одноразовой смысловой обработки.

Ключевые слова: ветеринария; обработка информации; индексирование; информационно-поисковый образ документа; информационно-поисковые языки; информационно-поисковый тезаурус; базы данных; автоматизированные системы; ЦНСХБ

ILJINA L. V. FEATURES OF SCIENTIFIC PROCESSING OF THE VETERINARY DOCUMENT FLOW

The features of the semantic processing of veterinary documents in the CSAL are highlighted. The principles and features of the formation of a Search Image of Document on Veterinary Medicine using the information retrieval languages used in the CSAL: the Specialized Rubricator on Agriculture and Food developed on the basis of the State Rubricator of Scientific and Technical Information, the Information Retrieval Thesaurus on Agriculture and Food. A special feature of scientific semantic processing in the CSAL is a narrow professional specialization of indexer specialists (for veterinary documents - with veterinary education) and the single semantic processing technology.

Key words: veterinary medicine; information processing; indexing; information-retrieval image of document; information-retrieval languages; information-retrieval thesaurus; databases; automated systems; CSAL

ИНФОРМАЦИОННЫЕ РЕСУРСЫ. ИЛЬИНА Л. В. ОСОБЕННОСТИ НАУЧНОЙ ОБРАБОТКИ ДОКУМЕНТНОГО ПОТОКА ПО ВЕТЕРИНАРИИ

Введение. Федеральное государственное бюджетное научное учреждение «Центральная научная сельскохозяйственная библиотека» (ФГБНУ ЦНСХБ) осуществляет информационное обеспечение ученых и специалистов агропромышленного комплекса России (АПК), пропагандирует перспективные и новейшие достижения в аграрной науке и технологии ведения сельскохозяйственного производства, и способствует интеграции информации о них в российское и мировое информационное пространство. Из документного потока, поступающего в фонды ЦНСХБ (журналы, периодические и продолжающиеся издания сельскохозяйственных научно-исследовательских учреждений (НИУ) и высших учебных заведений (ВУЗов), тематические сборники, материалы региональных, общероссийских и международных конференций), формируется база данных «АГРОС» (БД), ориентированная на ученых и специалистов сельского хозяйства и включающая научные издания по всем отраслям АПК. БД позволяет получать информацию независимо от местонахождения пользователей в любое время суток [1]. Объем БД «АГРОС» составляет свыше 2,2 млн. записей и ежегодно пополняется. В 2022 г. объем документов по ветеринарии в БД «АГРОС» составил 289445 документов, ежегодное пополнение - более 2900 документов.

Ветеринария охватывает область научных знаний и практической деятельности, направленных на предупреждение болезней животных и их лечение, выпуск полноценных и безопасных в ветеринарном отношении продуктов животноводства и защиту населения

от болезней, общих для человека и животных, решение ветеринарно-санитарных проблем защиты окружающей среды. В её задачи входят: реализация мероприятий по предупреждению и ликвидации заразных и иных болезней животных. Ветеринария тесно взаимодействует с биологией, анатомией, вирусологией, гистологией, хирургией, паразитологией, ветеринарной санитарией и др. Ветеринария активно развивается, что требует от специалиста постоянного изучения предмета и, следовательно, получения наиболее полной информации в этой области.

В автоматизированной библиотечно-информационной системе (АБИС) ЦНСХБ описание документа обеспечивается и осуществляется с привлечением лингвистических, информационных, программно-технических, технологических, организационных средств. Для выражения смыслового содержания документов используются 4 информационно-поисковых языка (ИПЯ) в процессе индексирования (перевода содержания документов с естественного на ИПЯ), в результате чего создаются поисковый образ документа (ПОД). Используются классификационные и дескрипторные языки. Классификационные ИПЯ -Универсальная десятичная классификация (УДК) и Отраслевой рубрикатор по сельскому хозяйству и продовольствию (ОР) [2]. Отраслевой рубрикатор разработан на основе Государственного Рубрикатора научно-технической информации (ГРНТИ), углублением его иерархии до 5-го уровня в части раздела 68 Сельское и лесное хозяйство. Он охватывает всю тематику по сельскому хозяйству и продовольствию и представляет собой словарь рубрик в иерархической классификации. Также используются дескрипторные ИПЯ - информационно-поисковый тезаурус по сельскому хозяйству и продовольствию (ИПТ) и язык ключевых слов. Понятия, отражающие основное содержание документа, должны быть выражены нормативной научной лексикой. Для унификации этого процесса используется ИПТ, состоящий из лексических единиц, представленных в виде слов или словосочетаний, с зафиксированными логическими отношениями, благодаря которым возможно автоматическое расширение понятия. ИПТ в ЦНСХБ - это постоянно обновляемый контролируемый машинный словарь научных терминов, отобранных с учетом их значимости и частоты встречаемости в научных публикациях и документах, включенных в БД и прошедших специальную лингвистическую экспертизу и обработку. Лексические единицы ИПТ (дескрипторы и аскрипторы) упорядочены по алфавитному принципу с указанием на существующие между ними парадигматические отношения, смысловые связи иерархического и неиерархического типа [2]. Объем ИПТ в 2022 г. составляет 62621 термина, охватывает все отрасли АПК и достаточно полно отражает современное состояние сельскохозяйственной науки и практики.

Цель исследования. Анализ особенностей научной обработки документов по ветеринарии в ЦНСХБ с использованием ИПЯ, специально разработанных для автоматизированного поиска: ОР, ИПТ и языка ключевых слов.

Содержание работы. Особенностью научной обработки документов в ФГБНУ ЦНСХБ являются: узкая специализация индексаторов, которыми являются специалисты с профильным сельскохозяйственным образованием (например, документы по ветеринарии обрабатывают специалисты с ветеринарным образованием); применение технологии одноразовой обработки документов: в процессе аналитико-синтетической обработки документ рассматривается многоаспектно и ему сразу определяется место в различных информационных продуктах ЦНСХБ - библиографических указателях, реферативных изданиях, библиографических, полнотекстовых и реферативных БД.

Индексирование документов проводится в соответствии с нормативными документами: ГОСТами, ОР, ИПТ, а также методическими рекомендациями по индексированию на каждом из ИПЯ. При этом также должны соблюдаться общие требования, предъявляемые к индексированию документов: полнота и точность рассмотрения документа, объективность рассмотрения, единообразие отображения сходных документов.

Необходимым условием качественного индексирования является знание индексатором структуры и тематического диапазона БД «АГРОС» (основного информационного продукта ЦНСХБ), логики поиска в ней, а также реальных запросов пользователей.

Процесс индексирования документов включает 4 основных этапа, которые осуществляются практически одновременно: анализ содержания документа; выбор понятий, отражающих его основное содержание; выбор терминов индексирования (дескрипторов, ключевых слов, рубрик) для обозначения понятий; формирование поискового образа документа (ПОД) из терминов индексирования.

Задача индексатора - наиболее полно, объективно и глубоко отразить содержание обрабатываемого документа. Это достигается тщательным анализом документа: титульного листа (для определения, места издания и вида документа); заглавия; реферата или аннотации; оглавления; предисловия, введения, пристатейных ключевых слов и т.п.; первых параграфов; схем, таблиц и подписей под ними; слов или группы слов, подчеркнутых или выделенных при печати; выводов; библиографии.

При научной обработке документов по ветеринарии придерживаются следующей схемы выделения понятий, подлежащих индексированию:

1. Объект исследования: животные, болезни животных (инфекционные болезни; паразитарные болезни, внутренние незаразные болезни, болезни опорно-двигательного аппарата, хирургические болезни, отравления, акушерские и гинекологические болезни, лучевые поражения животных, опухоли, болезни пчел, болезни рыб и т.д.), причины их возникновения, возбудители болезней животных (вирусы, бактерии, риккетсии, хламидии, микоплазмы, грибы, актиномицеты), лекарственные препараты, с.-х. продукция, объекты окружающей среды, объекты ветеринарного назначения, животноводческие объекты. Термины, отражающие объект исследований, рекомендуется записывать в ПОД первыми.

2. Действие и/или его агент: диагностика, лечение, профилактика болезней животных, ветеринарно-санитарные мероприятия в животноводстве, ветеринарно-санитарный надзор, обслуживание, устранение неблагоприятных влияний при выращивании, содержании, кормлении животных, меры защиты людей от болезней, поражающих человека и животных.

3. Условия действия или условия исследования (производственные опыты, лабораторные исследования, опыты in vitro и т.п.).

4. Цель действия или исследования (эффективность проведенных диагностических, лечебных, профилактических, ветеринарно-санитарных мероприятий, свойства патогенов, разработка технологий и препаратов для борьбы с болезнями и вредителями.

5. Методы или методика исследований. Последние отражаются, как правило, только в следующих случаях: а) в документе приводится сравнительный анализ явлений, процессов и т.п. разными методами.

6. Область применения объекта (ветеринария, защита животных и человека от болезней, получение безопасной продукции, охрана окружающей среды, биотехнология).

7. Время воздействия на объект, время его действия или время исследования (сезон, время года, год).

8. География объектов, процессов, исследований (страны, области и зоны России, климатические зоны и т.п.).

В процессе индексирования документов по ветеринарии используется метод логико-смыслового моделирования, который заключается в выделении значимых смысловых элементов информации в виде ключевых слов и экспликации (выявления) отношений между ними, т. е. в представлении информации в виде семантически связанной сети по критерию смысловой близости между элементами информации [3].

На первом этапе перевода содержания документа на информационно-поисковый язык заключается в полном и точном отражении явных семантических аспектов документа

с помощью ключевых слов, т. е. слов или словосочетаний, отражающих основные темы и смысл документа.

При их выборе учитываются следующие правила:

- ключевыми словами отражается только та информация, которая имеется в документе и ясно выражена;

- составление списка ключевых слов не связывается с вероятным наличием или отсутствием каких-либо дескрипторов в тезаурусе или с предположениями о характере возможных запросов;

- как правило, в качестве ключевых слов, выраженных отдельными словами естественного языка, используются только имена существительные. Если необходимо использовать и другие слова, то их надо объединять в словосочетания с соответствующими существительными. Такой метод выделения ключевых слов соответствует синтаксической структуре построения лексических единиц тезауруса. Это правило используется в том случае, если в тезаурусе отсутствует дескриптор, который бы соответствовал по смыслу выделенному словосочетанию;

- словосочетания естественного языка, используемые в качестве ключевых слов, выписываются в такой же последовательности, что и в документе. Например: «вирусные болезни животных». Прямой порядок слов в словосочетании соответствует структурному построению тезауруса [4].

Отобранные ключевые слова записываются в логической последовательности так, чтобы по ним можно было понять содержание документа даже без прочтения его заглавия.

На втором этапе производят замену ключевых слов дескрипторами ИПТ, наиболее точно отразив понятия, выраженные ключевыми словами. Это позволяет достичь меньшего искажения содержащейся в документе информации при трансформировании содержания документа в его ПОД. От этого зависит эффективность информационно-поисковой системы, а также уменьшение потерь и шумов в процессе поиска.

В ЦНСХБ используется два этапа замены ключевых слов дескрипторами ИПТ: этап тождественных замен и этап нетождественных замен.

Суть проведения тождественной по форме замены пары «ключевое слово — дескриптор» заключается в выявлении тождественности их смысловых значений. Кроме того, дополнительным критерием определения смысловой функции дескриптора ИПТ можно считать наименование дескрипторной группы, к которой отнесен этот дескриптор

(5).

Иногда ключевому слову соответствует термин ИПТ, не являющийся дескриптором (аскриптор). Это объясняется тем, что данный термин эквивалентен какому-либо дескриптору, т. е. по значению они близки. В этом случае он отмечен ссылками: «ИСП» (использовать), «см» (смотри), «с» (синоним), или «а» (ассоциация). Они расположены после этого термина и поясняют, какой дескриптор можно использовать вместо него. Ссылка «ИСП» указывает на два и более дескриптора, которыми можно заменить данное ключевое слово, «см» отсылает к дескриптору, который рекомендовано использовать, «с» знакомит с существующими для этого термина синонимами, «а» позволяет находить близкие по смыслу понятия и тем самым помогает уточнить или расширить искомые понятия. Например: -кокцидии ИСП Eimeria или Isospora

-инфекционный бурсит птиц с болезнь Гамборо с болезнь фабрициевой сумки с инфекционная бурсальная болезнь птиц

Таким образом, при несовпадении смысловых значений ключевого слова и дескриптора, можно использовать один из описанных способов замены.

Кроме того, нужно иметь в виду, что отсутствие в тезаурусе дескрипторов, совпадающих с ключевыми словами по форме, не означает, что ИПТ не содержит термины, тождественные ключевым словам по смыслу. Русский язык позволяет отразить одно и то же понятие разными языковыми формами. Множество дескрипторов в ИПТ представлено словосочетаниями русского языка. Сложность заключается в том, что индексатор должен суметь отыскать дескрипторы, тождественные по смыслу ключевым словам документа, но выраженные другой словарной формой. Алгоритм замены ключевого слова заключается в следующем: сначала определяется синоним ключевого слова, похожий по своему лексическому составу, затем он должен быть заменен дескриптором, тождественным по

Ключевое слово Дескриптор

Поражение нервной системы Нервная форма болезни

Последовательности нуклеотидов Нуклеотидные последовательности

Нетождественная замена происходит в тех случаях, когда в используемом ИПЯ отсутствуют лексические единицы, адекватно передающие смысл индексируемых понятий, и исходные лексические единицы, выделенные из текста документа или запроса, заменяются близкими по смыслу, но не адекватными лексическими единицами. Нетождественная замена, как правило, сводится к замене исходного понятия родовыми, более широкими, либо ассоциативными понятиями, в сумме дающими примерное наполнение исходного. Совершенно очевидно, что нетождественная замена при индексировании влечет за собой такое негативное последствие, как снижение показателей точности информационного поиска, препятствует точному и полному раскрытию содержания документов и запросов [5].

Например:

Ключевое слово Дескриптор

титр поствакцинальных антител поствакцинальный иммунитет напряженность иммунитета

Кроме ИПТ для систематизации, структурирования и формирования информационных массивов, а также поиска документов в БД ЦНСХБ используется Отраслевой рубрикатор по сельскому хозяйству и продовольствию.

Рубрики состоят из кодов и их текстовых наименований. Код представляет собой цепочку пар арабских цифр (в зависимости от уровня иерархии), разделенных знаком «.» (точка). При рубрике может быть примечание, уточняющее вопросы, которые она отражает в связи с другими рубриками, а также система ссылок («См.» и «См. также») к другим разделам ОР и обратных ссылок от них («Отс. от» и «См. также»). Такие ссылки облегчают понимание тематического охвата рубрик и поиск рубрики, необходимой для индексирования конкретного документа.

Для отражения основных аспектов содержания документу приписывается цифровой код одной или нескольких рубрик (но не более трех). Отнесение документа к рубрике - ответственный момент индексирования. Код рубрики определяет место данного документа в информационном массиве БД, издания, релевантность поиска по запросу пользователей. Отметим, что многоаспектный документ может быть отнесен одновременно к разным рубрикам, если его содержание удовлетворяет содержанию этих рубрик [6].

Поиск по ОР позволяет найти в БД как большой объем документов по крупным блокам тематической информации, так и документы по конкретным, особо выделяемым вопросам, например, наиболее опасным и распространенным инфекционным болезням.

Приведем примеры индексирования документов по ветеринарии по ИПТ и ОР.

Пример 1. Документ "Лечение при острой катаральной бронхопневмонии" (В статье рассматриваются схемы лечения и их влияние на физиологические параметры, гематологические и биохимические показатели крови)

При индексировании документов по ветеринарии по ИПТ для начала выделяются понятия, наиболее полно отражающие суть документа в виде ключевых слов: телята, острая катаральная бронхопневмония, лечение, температура, пульс, дыхание, гематологические показатели; биохимические показатели крови; Ростовская обл. Следующий этап: перевод выделенных понятий в дескрипторы: дескриптор острая катаральная бронхопневмония в ИПТ ЦНСХБ отсутствует, поэтому заменяем это понятие на дескрипторы бронхопневмония и острое течение болезни, а ключевое слово биохимические показатели крови заменяем на дескриптор биохимия крови

Рассмотрим систематизацию этого документа по ОР. Для того чтобы данный документ отнести к соответствующей рубрике ОР, нужно выяснить этиологию заболевания, так как бронхопневмония может быть неинфекционной или инфекционной природы. В данной статье речь идет о незаразной бронхопневмонии, поэтому документ будет отнесен к рубрике:

68.41.45 ВНУТРЕННИЕ НЕЗАРАЗНЫЕ БОЛЕЗНИ 68.41.45.39 Болезни органов дыхания

Таким образом, ПОД документа будет выглядеть следующим образом: Рубрики ОР: 68.41.45.39

Термины ИПТ: телята; бронхопневмония; острое течение болезни; схемы лечения; физиологические показатели; гематологические показатели; биохимия крови; Ростовская обл.

Пример 2. Документ "Определение мочевины в молоке высокопродуктивных коров -прогностический маркер развития мастита"

(В статье рассмотрена связь отклонений показателей мочевины и соматических клеток в молоке высокопродуктивных коров с наличием у них мастита при сбалансированном рационе. Полученные данные могут быть использованы в установлении этиологического фактора развития воспалительных процессов в вымени и связи их с нарушениями в кормлении, а также полноценности рациона) ПОД будет выглядеть так: Рубрики ОР: 68.41.59.35

Термины ИПТ: коровы; высокопродуктивные животные; сбалансированные рационы; мастит; диагностика; молоко; соматические клетки; мочевина; количественная оценка; корреляция признаков; племенные хозяйства; Ростовская обл

ОР и ИПТ существуют в ФГБНУ ЦНСХБ в электронном виде. В процессе научной обработки документа при автоматизированном формировании библиографической записи в формате MARC SQL (для книг) или АСАРД (автоматизированная система аналитической росписи статей) индексатор выбирает нужные лексические единицы (рубрики ОР, дескрипторы ИПТ) для формирования ПОД и автоматически переносит их в поля формата библиографической записи.

Пользователь при формировании поискового запроса также может воспользоваться электронными версиями ОР и ИПТ для автоматизированного формирования запроса, выбранные и отмеченные им термины ИПТ и рубрики ОР автоматически переносятся в поисковое предписание.

Выводы. Процесс индексирования документов по ветеринарии требует от индексатора не только высокой профессиональной подготовки в своей области ветеринарии, но и специальных знаний, умения использования информационно-поисковых языков БД (ИПТ, ОР). Индексатор должен знать структуру БД и логику поиска в ней, а также реальные запросы пользователей, постоянно совершенствовать знания по аналитико-синтетической переработке информации. Необходимым условием качественной научной обработки является соблюдение инструкций и методических рекомендаций по индексированию документов ОР и ИПТ.

ИПЯ, используемые в ФГБНУ ЦНСХБ, позволяют адекватно отражать смысловое содержание документа, обеспечивать эффективный и релевантный поиск документов, в т. ч. по ветеринарии, а современные технологии, средства информационно-поисковой системы, электронные версии этих ИПЯ повышают качество индексирования (исключая ошибки при вводе понятий вручную) и информационного поиска (поиск по ИПТ и ОР более эффективен, чем по ключевым словам), а также, помогают пользователю автоматически формировать поисковые предписания.

СПИСОК ИСТОЧНИКОВ

1. Косикова Н. В., Коленченко И. А., Стеллецкий В. И. Полнотекстовые информационные ресурсы ЦНСХБ: состав, востребованность // Московский экономический журнал. 2020. № 9. URL: https://qje.su/ekonomicheskaya-teoriya/moskovskij-ekonomicheskij-zhurnal-9-2020-31/ (дата обращения: 26.07.2022).

2. Соколова Ж. В. Особенности индексирования документов по защите растений // Культура: теория и практика. 2017. № 5 (20). URL: http://theoryofculture.ru/issues/78/997/ (дата обращения: 26.07.2022).

3. Штейнберг В. Э. Логико-смысловые модели и познавательная самостоятельность // История. Всё для учителя! 2014. № 11 (35). URL: https://www.e-osnova.ru/journal/11/35/ (дата обращения: 26.07.2022).

4. Координатное индексирование // StudeFiles : [сайт]. URL: https://studfile.net/preview/2957462/page:64/ (дата обращения: 26.07.2022).

5. Индексирование как способ реализации ИПЯ. URL: http://gosisis.narod.ru/otvet/70.htm (дата обращения: 26.07.2022).

6. Пирумова Л. Н., Харченко Л. Т. Тезаурус по сельскому хозяйству и продовольствию: индексирование документов и поиск информации в БД АГРОС : метод. материалы. Москва, 2001. 70 с.

СВЕДЕНИЯ ОБ АВТОРЕ

Ильина Любовь Васильевна - старший научный сотрудник отдела аналитико-синтетической обработки документов и лингвистического обеспечения, Федеральное государственное бюджетное научное учреждение «Центральная научная сельскохозяйственная библиотека».

i Надоели баннеры? Вы всегда можете отключить рекламу.