Научная статья на тему 'More on semantic document processing in scientific Library'

More on semantic document processing in scientific Library Текст научной статьи по специальности «СМИ (медиа) и массовые коммуникации»

CC BY
55
10
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ОБРАБОТКА ИНФОРМАЦИИ / ИНФОРМАЦИОННО-ПОИСКОВЫЕ ЯЗЫКИ / ПОИСКОВЫЙ ОБРАЗ ДОКУМЕНТА / ИНФОРМАЦИОННЫЙ ПОИСК / INFORMATION RESOURCES / INFORMATION PROCESSING / INFORMATION RETRIEVAL LANGUAGES / IMAGE OF THE DOCUMENT SEARCH / INFORMATION SEARCH / INFORMATION RETRIEVAL THESAURUS / DATABASES / AGRICULTURE / FOOD PROCESSING INDUSTRY

Аннотация научной статьи по СМИ (медиа) и массовым коммуникациям, автор научной работы — Пирумова Л. Н., Милевская И. А.

Рассмотрены вопросы семантической обработки документов в научной библиотеке на примере ЦНСХБ. Показано, что от индексатора, уровня его профессиональной подготовки напрямую зависит качество индексирования. Определена роль информационно-поисковых языков в структуризации информации и раскрытии содержания документа. Показано влияние индексирования на результативность тематического поиска в базе данных «АГРОС».

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «More on semantic document processing in scientific Library»

К Л.Н.ПИРУМОВА, И.А.МИЛЕВСКАЯ ВОПРОСУ О СЕМАНТИЧЕСКОЙ ОБРАБОТКЕ ОКУМЕНТОВ В НАУЧНОЙ БИБЛИОТЕКЕ

Рассмотрены вопросы семантической обработки документов в научной библиотеке на примере ЦНСХБ. Показано, что от индексатора, уровня его профессиональной подготовки напрямую зависит качество индексирования. Определена роль информационно-поисковых языков в структуризации информации и раскрытии содержания документа. Показано влияние индексирования на результативность тематического поиска в базе данных «АГРОС».

Ключевые слова: информационные ресурсы, обработка информации, информационно-поисковые языки, поисковый образ документа, информационный поиск, информационно-поисковый тезаурус; базы данных, сельское хозяйство, пищевая промышленность

Pirumova L.N., Milevskaya I. A.

MORE ON SEMANTIC DOCUMENT PROCESSING IN SCIENTIFIC LIBRARY

The paper studies the matters of semantic document processing in a scientific library exemplified by the CSAL. It is shown that indexing quality directly depends on an indexer, his or her professional qualification. The role of information retrieval languages in information structuring and disclosing the document content is estimated. The influence of indexing on the efficiency of subject search in the AGROS database is demonstrated.

Key words: information resources, information processing, information retrieval languages, image of the document search, information search, information retrieval thesaurus, databases, agriculture, food processing industry

Д

К Л.Н.ПИРУМОВА, И.А.МИЛЕВСКАЯ ВОПРОСУ О СЕМАНТИЧЕСКОЙ ОБРАБОТКЕ ОКУМЕНТОВ В НАУЧНОЙ БИБЛИОТЕКЕ

Одной из важнейших задач научной обработки в научной сельскохозяйственной библиотеке является отбор наиболее ценной и актуальной научно-технической информации по проблемам АПК, которая должна обеспечить удовлетворение информационных потребностей пользователей путем получения ими релевантной и пертинентной информации, необходимой для выполнения научных исследований и научно-технических разработок.

Научная обработка документов по сельскому хозяйству и пищевой промышленности предполагает: научный анализ и научную оценку входного документного потока, отбор из него наиболее ценной информации, сопоставление, обобщение, преобразование ее в более сжатые формы, определение места данного документа в информационных ресурсах и создание вторичных документов. В Федеральном государственном бюджетном научном учреждении «Центральная научная сельскохозяйственная библиотека» (ЦНСХБ) используется аналитико-синтетическая обработка документов, которая призвана сделать наиболее ценную и актуальную информацию доступной пользователю, представить ее в удобной форме в базе данных «АГРОС», и обеспечить возможность быстрого и эффективного поиска в ней. Аналитико-синтетическая обработка подразумевает разнообразие и совокупность процессов по обработке и преобразованию исходных документов (аннотирование, реферирование, индексирование) путем их анализа и синтеза.

Одной из проблем научной обработки является вопрос, какую именно информацию считать научной, актуальной, значимой или ценной. Безусловно, необходимо стремиться к максимальному исключению субъективизма при его решении, однако полностью исключить этот фактор невозможно, поскольку при оценке документа включаются личный опыт, квалификация и образование индексатора. Очевидно, что главный фактор, влияющий на субъективное решение - это опыт. Опыт включает: знание потока публикаций по конкретной области знаний, которое позволяет определять тенденции, выявлять перспективные направления, а также наиболее популярные, обсуждаемые в научной печати вопросы; базовое образование индексатора, т.е. тот багаж знаний, который позволяет ему ориентироваться в предмете. Поэтому так важно, чтобы семантической обработкой, в т.ч. отбором (по значимости) документов по определенной области знания, занимались специалисты в данной области знания. Это -определяющее положение, позволяющее снизить процент ошибок в процессе аналитико-синтетической обработки документов. Таким образом, от подготовленности, опыта, знаний индексатора зависит качество отбора документов в информационный продукт. А снизить процент субъективизма помогают методические указания, инструкции, которыми должны руководствоваться аналитики. Поскольку входной документный поток включает документы на русском и иностранных языках, то крайне важно для индексатора знание иностранных языков.

Итак, в семантической обработке документов используются научные методы исследования документа: анализ и синтез. В свою очередь анализ разделяется на внешний и внутренний. В процессе внешнего анализа устанавливаются вид документа, его форма, время и место его появления, авторы, цели создания, надежность и достоверность его контекста. Эти данные используются в процессе создания библиографического описания документов. При внутреннем анализе исследуется смысловое

содержание документа для создания аннотаций, рефератов и перевода информации на естественном языке на ИПЯ, выраженные их лексическими единицами (индексами, кодами, дескрипторами), составляющими поисковый образ документа (ПОД). Таким образом, аналитик, осуществляя анализ документа, раскрывает его содержание, выявляет его основные темы и переводит это содержание в более сжатую форму, т.е. производит свертывание информации и представление в той форме и теми средствами, которые обеспечат в дальнейшем эффективный поиск. Задачи свертывания информации: освободить пользователя от необходимости при поиске прочитывать или просматривать полные тексты документов, повысить скорость поиска.

На этапе внутреннего анализа документа в книжном издании изучаются заглавие документа, издательская аннотация, оглавление/содержание, введение, заключение, а в аналитическом документе (статье) - аннотация/реферат.

Аннотирование и реферирование не только позволяют раскрыть фонд библиотеки во всем его многообразии, но и повышают информативность информационных ресурсов научной библиотеки, особенно это важно для документов на иностранных языках. В ЦНСХБ используются различные виды аннотаций. Аннотация на русском языке является обязательным элементом описания содержания документа на иностранном языке. В БД «АГРОС» применяется аннотация, которая является расширенным за счет включения дополнительных важных сведений, необходимых для однозначности толкования темы документа, переводом заглавия документа. Аннотация для документов на русском языке составляется в случае, если название документа неинформативно; часто используется расширение, уточнение или расширение заглавия, а также дополнение заглавия путем добавления некоторых уточнений. На часть документов (на русском и иностранных языках) создается реферат на русском языке, объемом до 2000 печатных знаков. Реферат отражает главные проблемы публикации, его объем позволяет быстро его просмотреть и определить релевантность документов. На написание аннотаций, реферата существует ГОСТ. Соблюдение ГОСТов при создании ПОДа - необходимое условие и требование. ПОД, созданный в процессе научной обработки и включающий библиографическое описание, аннотацию и/или реферат на русском языке, ключевые слова, индексы УДК, коды Отраслевого рубрикатора, дескрипторы ИПТ, позволяет осуществлять разнообразный поиск по различным формальным и содержательным признакам документа, обеспечивая его полноту и релевантность.

В ЦНСХБ осуществляется принцип одноразовой обработки и многократного использования информации, который требует при раскрытии документа максимально полно выявить все его аспекты и определить его место в тех информационных продуктах, которые создает библиотека. Поэтому в процессе аналитико-синтетической обработки аналитик определяет место конкретного документа в базе данных «АГРОС», в проблемно-ориентированных базах данных ЦНСХБ, а также в 2 текущих и 5 реферативных изданиях. Отметим, что для этого аналитик должен знать схемы этих информационных продуктов. Аналитико-синтетическая обработка - процесс трудоемкий, но зато его результаты затем многократно и разнообразно используются в различных сферах информационной деятельности. Важнейшая проблема научной обработки - эффективная технология, позволяющая экономить финансовые и трудовые затраты на ее осуществление. В настоящее время автоматизированная система обработки книг (АИБС MARC-SQL) в ЦНСХБ обеспечила автоматизированный ввод информации в систему и принесла свои плоды, в том числе и сокращение сроков обработки.

Семантическая обработка документа подразумевает полноту и точность перевода информации, содержащейся в документе с естественного языка на информационно-поисковый язык (ИПЯ), которые зависят от структуры, лексической наполненности и других возможностей ИПЯ.

Аналитико-синтетическая обработка документов тесно связана с информационным поиском, поскольку ее задача снабдить документ поисковым образом, по которому в дальнейшем и будет производиться поиск. Результаты поиска зависят от качества индексирования и от поисковых возможностей информационно-поискового языка (ИПЯ), используемого при индексировании документов, а также от правильности его использования во время научной обработки. Поэтому наличие и использование методик, методических руководств и т.п. необходимое условие обеспечения качества семантической обработки документов в научной библиотеке.

Поэтому индексаторы заинтересованы в развитии и совершенствовании информационно-поисковых языков. С одной стороны ИПЯ создаются для использования в процессе обработки документов, поскольку именно ИПЯ являются ее инструментом, а с другой - сам ИПЯ пополняется в ходе обработки документов, когда выявляются новые термины, новые направления в науке, которые затем, выраженные нормализованной научной лексикой, пройдут мониторинг, лексическую обработку и уже в качестве лексических единиц пополнят данный ИПЯ. От того насколько богата лексика ИПЯ, насколько адекватно она отражает современное состояние аграрной науки и практики, зависит возможность ИПЯ точно и полно отображать содержание документов.

ИПЯ структурируют, формируют и систематизируют информационные массивы. Именно ИПЯ обеспечивают эффективный релевантный и пертинентный тематический поиск в информационных

массивах. Кроме того, ИПЯ обеспечивают унификацию процесса индексирования документов и использование нормализованной лексики в информационных массивах.

В базе данных «АГРОС» используются 5 ИПЯ: язык библиографического описания, Универсальная десятичная классификация (УДК), Отраслевой рубрикатор по сельскому хозяйству и продовольствию и Отраслевой тезаурус по сельскому хозяйству и продовольствию, язык ключевых слов. Каждый из них выполняет свои функции в технологическом процессе. Четыре из этих языков используется в процессе аналитико-синтетической обработки документов. Все эти ИПЯ развиваются, поддерживаются, поскольку язык - это живой организм и требует постоянного развития за счет добавления новых терминов, отражающих новые направления в науке и практике. Особого внимания требует тезаурус, поскольку помимо важнейшей поисковой функции он еще выполняет функцию терминологического отраслевого справочника. Кроме того, считается, что одним из наиболее эффективных способов индексирования является описание смыслового содержания документов с помощью инструмента дескрипторного ИПЯ - тезауруса и использования в качестве терминов индексирования его дескрипторов. В отличие от естественного языка дескрипторный язык позволяет более четко формулировать запросы и повышает релевантность и полноту поиска. Термины текста документа, не включенные в тезаурус, но, с точки зрения специалиста, важные для индексирования, являются ключевыми словами. В результате научной обработки документа на всех используемых в ЦНСХБ ИПЯ создается поисковый образ документа (ПОД). Таким образом, на качество семантической обработки документов влияют: уровень профессиональной подготовки индексатора; наличие инструкций по отбору документов, методик индексирования; наличие информационно-поисковых языков и их лексическое богатство, соответствие их современному уровню развития науки; наличие и использование в работе методических материалов, стандартов и т.д.; использование современных автоматизированных систем ввода информации.

СВЕДЕНИЯ ОБ АВТОРАХ

ПИРУМОВА Лидия Николаевна, заместитель директора;кандидат педагогических наук, заслуж енный работник культуры РФ,

МИЛЕВСКАЯ Ирина Антоновна,старший научный сотрудник, Федеральное государственное б юджетное научное учреждение «Центральная научная сельскохозяйственная библиотека»

i Надоели баннеры? Вы всегда можете отключить рекламу.