Научная статья на тему 'Роль информационно-поискового тезауруса в тематическом поиске'

Роль информационно-поискового тезауруса в тематическом поиске Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
190
44
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
DATA RETRIEVAL SYSTEMS / INFORMATION SEARCH / INFORMATION-RETRIEVAL LANGUAGES / INFORMATION-RETRIEVAL THESAURUS / DATABASES / AIC / CSAL / ИНФОРМАЦИОННО-ПОИСКОВЫЕ СИСТЕМЫ / ПОИСК ИНФОРМАЦИИ / ИНФОРМАЦИОННО-ПОИСКОВЫЕ ЯЗЫКИ / ИНФОРМАЦИОННО-ПОИСКОВЫЙ ТЕЗАУРУС / БАЗЫ ДАННЫХ / АПК / ЦНСХБ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Соколова Ж.В.

Рассматривается роль информационно-поискового тезауруса в тематическом поиске. Показаны преимущества использования тезауруса при составлении поисковых предписаний и обеспечении релевантности поиска в автоматизированных информационных системах.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Role of the information retrieval thesaurus in subject-specific search

Considered is the role of the information retrieval thesaurus in subject-specific search. Shown are advantages of using the thesaurus in composing retrieval requests and providing retrieval relevancy in automated information data systems.

Текст научной работы на тему «Роль информационно-поискового тезауруса в тематическом поиске»

СПЕЦИАЛЬНЫЕ БИБЛИОТЕКИ. СОКОЛОВА Ж.В. РОЛЬ ИНФОРМАЦИОННО-ПОИСКОВОГО ТЕЗАУРУСА В ТЕМАТИЧЕСКОМ ПОИСКЕ Рассматривается роль информационно-поискового тезауруса в тематическом поиске. Показаны преимущества использования тезауруса при составлении поисковых предписаний и обеспечении релевантности поиска в автоматизированных информационных системах.

Ключевые слова: информационно-поисковые системы; поиск информации; информационно-поисковые языки; информационно-поисковый тезаурус; базы данных; АПК; ЦНСХБ.

J. V. Sokolova

Role of the information retrieval thesaurus in subject-specific search

Considered is the role of the information retrieval thesaurus in subject-specific search. Shown are advantages of using the thesaurus in composing retrieval requests and providing retrieval relevancy in automated information data systems.

Key words: data retrieval systems; information search; information-retrieval languages; information-retrieval thesaurus; databases; AIC; CSAL.

СПЕЦИАЛЬНЫЕ БИБЛИОТЕКИ. СОКОЛОВА Ж.В. РОЛЬ ИНФОРМАЦИОННО-ПОИСКОВОГО ТЕЗАУРУСА В ТЕМАТИЧЕСКОМ ПОИСКЕ

Введение. Современная информационно-поисковая система (ИПС) - это автоматизированная поисковая система, реализованная на средствах электронно-вычислительной техники, представляющая собой совокупность технических, программных и лингвистических средств, а также информационных массивов и их носителей. ИПС предназначена для реализации информационных потребностей пользователей, то есть для выявления в некотором множестве документов всех тех, которые посвящены указанной теме и удовлетворяют заранее определенному условию поиска (запросу) или содержат необходимые факты, сведения, данные. Поиск будет эффективным, если каждый документ имеет формализованное описание на том же информационно-поисковом языке (ИПЯ), на котором составлен запрос. Как бы ни была совершенна ИПС, между ней и пользователем необходим посредник, хорошо знающий предмет, область знания, которую изучает пользователь и возможности поисковой системы. Успех поиска во много зависит от квалификации специалистов, занятых аналитико-синтетической обработкой информации, от того, насколько полно будут раскрыты ими проблемы, отраженные в первичном документе, и насколько правильно они будут переведены с естественного языка на формализованный язык ИПС. Результаты семантического поиска зависят также от того, какие ИПЯ используются в поисковой системе, насколько полно они отражают современное состояние области знаний, а также от уровня знаний самого пользователя в специальной области и грамотности в вопросах информационного поиска. (2, с. 9-13).

В Федеральном государственном бюджетном научном учреждении «Центральная научная сельскохозяйственная библиотека» (ЦНСХБ) используются предкоординатные и посткоординатные ИПЯ. К предкоординатным (классификационным) языкам относятся: Универсальная десятичная классификация (УДК) и Отраслевой рубрикатор по сельскому хозяйству и продовольствию (ОР). К посткоординатным ИПЯ относятся дескрипторный язык и язык ключевых слов.

С помощью данных ИПЯ в процессе аналитико-синтетической обработки создается поисковый образ документа, выражающий основное смысловое содержание документа в свернутом виде для реализации информационного поиска в базе данных (БД).

Использование методик индексирования на различных ИПЯ способствует унификации обработки документов, гарантирует отнесение документов одной тематики в одно место, способствует преодолению субъективизма в определении места документа в ИПЯ, способствует точности, полноте и однозначности отображения информации в БД. Именно от точности и единообразия описания исходной информации языковыми средствами зависит релевантность (степень соответствия содержания документа, найденного при поиске, содержанию информационного запроса) и полнота поиска. (1, с. 15-19).

Повысить эффективность поиска можно, преодолевая такие особенности естественного языка как синонимия, омонимия, нечеткость представления отдельными понятиями предметного множества. В наибольшей степени семантическому контролю подвергается дескрипторный язык, основным инструментом которого является тезаурус.

Целью исследования является изучение роли информационно-поискового тезауруса (ИПТ) в тематическом поиске.

Методика исследования. Работа выполнена на материалах политематической базы данных «АГРОС», генерируемой ЦНСХБ, содержащей более 1 900 млн. документов. Тематический охват БД - сельское хозяйство, пищевая промышленность, лесное хозяйство, рыбное хозяйство, охрана окружающей среды, а также смежные

науки и отрасли. При составлении тематических запросов использовались возможности ИПС «Артефакт». Работа проводилась в соответствии с различными методическими материалами и инструкциями, разработанными в ЦНСХБ.

Содержание работы.

При поиске информации в БД пользователь сталкивается с проблемой, каким именно образом можно найти нужные ему документы. Как правило, использование естественного языка при поиске дает большую полноту (количество найденных документов) в ущерб релевантности. Специальные ИПЯ разработаны и используются с целью краткого, точного и единообразного отражения содержания документов. Формулирование запросов на ИПЯ повышает релевантность и оперативность поиска. (3, с. 172-173). Одним из них является дескрипторный язык, отображаемый дескрипторами ИПТ.

ИПТ как лексический инструмент ИПС представляет собой постоянно обновляемый контролируемый машинный словарь научных терминов, отобранных с учетом их значимости и частоты встречаемости в документах БД и прошедших специальную лингвистическую экспертизу и обработку. Термины ИПТ (дескрипторы и аскрипторы) упорядочены по систематическому и алфавитному принципам с указанием на существующие между ними смысловые связи иерархического и неиерархического типа (парадигматические отношения).

Основные функции тезауруса следующие: сбор, нормализация и систематизация используемой в научной литературе лексики; индексирование документов и запросов; обеспечение согласованного, единообразного и формализованного представления информации в БД и ее продуктах; обеспечение полноты и точности информационного поиска путем программной реализации иерархических отношений и отношений синонимии; формально-логический контроль терминов индексирования БД; функция терминологического справочного пособия.

В ЦНСХБ разработан Информационно-поисковый тезаурус по сельскому хозяйству и продовольствию. На данный момент ИПТ объемом более 49 тыс. терминов охватывает все отрасли АПК и достаточно полно отражает современное состояние сельскохозяйственной науки и практики.

Лексические единицы тезауруса - это термины, используемые в научной литературе, и общезначимая лексика. Основу структуры тезауруса составляют иерархические отношения, термины сгруппированы по принципу подчинения узких конкретных понятий понятиям широкого характера. Например, широкий термин зерновые культуры является вышестоящим по отношению к узким, подчиненным ему, терминам пшеница, рожь, овес, ячмень, кукуруза и другие зерновые культуры. За счет иерархических связей ИПТ осуществляется автоматическое расширение терминов тезауруса. Благодаря этому, например, документ о пшенице войдет в результат поиска как по запросу пшеница, так и по запросу зерновые культуры, что отвечает требованиям релевантности и полноты поиска. Многие понятия в ИПТ отражены не одним, а несколькими терминами, являющимися синонимами. В запросе может быть использован любой из них: крс или крупный рогатый скот; колорадский жук или ЬврИпо1аг8а йвсетИпеМа; вентиляция иливентилирование. При этом поиск будет проводиться по основному термину. Рассмотрим особенности тематического поиска на конкретных примерах в ИПС «Артефакт» БД «АГРОС».

Воспользуемся возможностями простого поиска на естественном языке. Предположим, нас интересуют проблемы фитомелиорации нарушенных земель. Формулируем поисковое предписание (рисунок 1).

Рисунок 1 - Формулировка простого поискового предписания

Проводим поиск и получаем результаты (рисунок 2).

[Ввод запроса] [Сонет]

<В портфель> - упаковать и записать в портфель группу документов Запрос: (/ЛЗГЛ /ЛТЕР /ЛРТЗ /ЛКЛС /ЛПРМ /ЛРЕФ (фитомелиорация :2 нарушенных :2 хе

Электронный каталог статей:

аналитическая роспись 1965-1969 (1)

аналитическая роспись 1990-1995 (1)

аналитическая роспись 1996-2000 (1)

аналитическая роспись 2001-2005 (1)

аналитическая роспись 2006-2010 (2)

Всего найдено документов: 6

Рисунок 2 - Результаты простого поиска

Найдено всего 6 документов. Воспользуемся возможностями сложного поиска на языке ИПТ. Для этого в тезаурусе находим нужные термины и вставляем их в соответствующее поле (рисунок 3).

Рисунок 3 - Формулировка сложного поискового предписания Проводим поиск и получаем результаты (рисунок 4).

[Ввод запроса]

<В портфель> - упаковать и записать в портфель группу документов Запрос: (/'""ТЕР/ЛРТЗ (фитомелиорация и нарушенные :0 земли))

Электронный каталог книг:

Книги на иностранных языках (3] Книги на русском языке {15] Электронный каталог статей:

аналитическая роспись 1985- 19Б9 аналитическая роспись 1990-1995 аналитическая роспись 1996-2000 аналитическая роспись 2001-2005 аналитическая роспись 2006-2010 аналитическая роспись 2011-2015 аналитическая роспись с 2016 (13)

Всего найдено документов: 231

Рисунок 4 - Результаты сложного поиска

Найден 231 документ. Это значительно больше, чем в предыдущем запросе. Чем это может быть вызвано? При первом запросе поисковое предписание составлено на естественном языке, во втором - на языке тезауруса. Внешне запросы похожи, но во втором случае запрос сделан более корректными терминами (рисунки 5 и 6).

. ввод запроса | 1_татистика поиска ] портфель Запрос: (/^ТЕР/^РТЗ [фитомелиорация и нарушенные :0 земли)} База: аналитическая роспись с 2016 ["Найдено документов - 13) Оглавление: 1 2

1 о. Использование сидеральных культур для рекультивации нарушенных земель и улучшения качества саженцев облепихи и жимолости [В т.ч. влияние сидерации на плодородие серых лесных почв в питомнике]

. . . НАРУШЕННЫЕ ЗЕМЛИ (Derelict land; DISTURBED LANDS)____

. . . ФИТОМЕЛИОРАЦИЯ.

2 о. Обоснование динамики структурно-агрегатного состояния моделей техноземов при биологическом освоении в условиях Никопольского марганцеворудного бассейна

. . . НАРУШЕННЫЕ ЗЕМЛИ (Derelict land; DISTURBED LANDS)____

3 i>. Опыт применения робинии ложноакациевой (Robinia pseudcacacia I] в рекультивации террикоников Донецкого кряжа

. . . НАРУШЕННЫЕ ЗЕМЛИ (Derelict land; DISTURBED LANDS)____

. . . ФИТОМЕЛИОРАЦИЯ.

4 i>. Развитие искусственна созданного на биологическом этапе рекультивации фитоценоза в условиях Крайнего Севера

. . . НАРУШЕННЫЕ ЗЕМЛИ (Derelict land; DISTURBED LANDS). . . . . . . ФИТОМЕЛИОРАЦИЯ.

5 о. Reclamation efficiency of municipal sewage sludge and selected plant species for soilless post-flotation lime ground covering the surface after the borehole exploitation of sulfur [Оценка эффективности рекультивации пустошей образовавшихся после окончания эксплуатации скважин по добыче серы, с использованием осадка городских сточных вод и некоторых видов фитомелиорантов.

. . . НАРУШЕННЫЕ ЗЕМЛИ (Derelict land; DISTURBED LANDS)____

. . . ФИТОМЕЛИОРАЦИЯ.

5 о. Динамика развития искусственно созданного растительного покрова в условиях Крайнего Севера после проведения биологического этапа рекультивации . . . НАРУШЕННЫЕ ЗЕМЛИ (Dere let land; DISTURBED LANDS). . . .

7 о. Формирование лабильного органического вещества в процессе биологической рекультивации при использовании торфяных препаратов

. . . НАРУШЕННЫЕ ЗЕМЛИ (Derelict land; DISTURBED LANDS)____

. . . ФИТОМЕЛИОРАЦИЯ.

8 i>. Биологическая рекультивация сельскохозяйственных земель (оленьих пастбищ) на полуострове Ямал

. . . НАРУШЕННЫЕ ЗЕМЛИ (Derelict land; DISTURBED LANDS)____

(23) (18) {36] {23) [51] {49]

Рисунок 5 - Документы, найденные при сложном поиске

ЛШХР: П 80000 2014 1

"авт: Танюкевнч В.В. (Новочеркасская го^дарственная мелиоративная академия).; Запривода М.А.

лзгл: Опыт применения робинии ложноакациевой (Robinia pseudoacacia 1) в рекультивации террнконнков Донецкого кряжа '-вых; Научный журнал Российского НИИ проблем мелиорации. 2014; N 1. - С. 83-93 -дат: 2014

■tipui Рез. англ..-Бнолиогр.:с.92 +Реферзг

TEN: 1457396 --вид: Статья из журнала Ж: РуССЕИЙ

-РУЬ: 6К31.26.37 Ч ДК: 631.618

"И: НАРУШЕННЫЕ ЗЕМЛИ perelict land: DISTURBED LANDS). ОТВАЛЫ ГРУНТА (Mine spoil) [ПРОМЫШЛЕННЫЕ ОТВАЛЫ]. РЕКУЛЬТИВАЦИЯ (Reclamation). СУЛЬФАТЫ (Sulphates). ФИТОМЕЛИОРАЦИЯ. РОБИНИЯ (locust (tree)) [АКАЦИЯ БЕЛАЯ: ЛЖЕАКАЦИЯ]. ROBINIA PSEUDOACACIA. ПРОДУКТИВНОСТЬ. ТАКСАЦИОННЫЕ ПОКАЗАТЕЛИ (taxation ¡edites) [ТАКСАЦИОННАЯ ХАРАКТЕРИСТИКА]. ПОЧВООБРАЗОВАНИЕ (Soil formation). ГУМУС (Humus). РОСТОВСКАЯ ОБЛ.

тп: FABACEAE [LEGUMMOSAE, БОБОВЫЕ]. F.ABALES. РАРПЛОКОЮЕАЕ [FABOIDEAE; МОТЫЛЬКОВЫЕ]. ROBINIA. БИОРЕКУЛЬТИВАЦИЯ (biorecultivation) [БИаТОГИЧЕСКАЯРЕКУЛЬТИВАЦИЯ]. ДЕКОРАТИВНЫЕ ДРЕВЕСНЫЕ РАСТЕНИЯ (Ornamental woody plants). ДЕКОРАТИВНЫЕ РАСТЕНИЯ (Qmameüal plants) [ДЕКОРАТИВНЫЕ КУЛЬТУРЫ]. ЗЕМЕЛЬНЫЕ РЕСУРСЫ (Land resources). КАВКАЗ. МЕЛИОРАЦИЯ [С-Х МЕЛИОРАЦИЯ]. ОРГАНИЧЕСКОЕ ВЕЩЕСТВО ПОЧВЫ (Sofl organic nutter). ПОЧВА (Soil). ПРИРОДНЫЕ РЕСУРСЫ (Natural resources) РФ [РОССИЙСКАЯ ФЕДЕРАЦИЯ]. СЕВЕРНЫЙ КАБКА: СНГ [СОЮЗ НЕЗАВИСИМЫХ ГОСУДАРСТВ]. СОЛИ НЕОРГАНИЧЕСКИХ КИСЛОТ (Inorganic acid salts; inorganic salts). СОЛИ (Salts). СТРАНЫ АТЭС. СТРАНЫ ЕВРАЗЭС. СТРАНЫ МИРА. СТРАНЫ ТАМОЖЕННОЙ СОЮЗА ЕВРАЗЭС ТАКСАЦИЯ. ЮЖНЫЙ ФЕДЕРАЛЬНЫЙ ОКРУГ.

Попытаемся сделать более сложный запрос. Например, нас интересует информация о беспривязном содержании коров черно-пестрой породы.

Составляем поисковое предписание в шаблоне простого поиска по ключевым словам (рисунок 7).

Получаем следующие результаты (рисунок 8).

<В портфель> - упаковать и записать в портфель группу документов

Запрос: (/ЛЗГЛ /ЛТЕР /ЛРТЗ /ЛКЛС /ЛПРМ /ЛРЕФ (беспривязное :2 содержание ::2 коров :2 черно-пестрой \2 породы))

Электронный ката л ог стате й:

аналитическая роспись 1985-1969 (!) аналитическая роспись 1990-1995 (1) аналитическая роспись с 2016 (1)

Всего найдено документов: 3

Рисунок 6 - Образец найденного документа

Терм инь беспривязное содержание коров черно-пест

Автор[ы]

Очистить Искать

Рисунок 7 - Поисковое предписание в шаблоне простого поиска

Рисунок 8 - Результаты простого поиска Теперь составляем поисковое предписание в шаблоне сложного поиска в поле тезауруса (рисунок 9).

Рисунок 9 - Поисковое предписание в шаблоне сложного поиска

Получаем следующие результаты (рисунок 10).

<В портфель> - упаковать и записать б портфель группу документов

Запрос: (/ЛТЕР/ЛРТЗ (коровы а черно-пестрая :0 города и беспривязное :0 содержание))

Электронный каталог статей:

аналитическая роспись 1985-1989 (4) аналитическая роспись 1990-1995 [11) аналитическая роспись 1996-2000 (9) аналитическая роспись 2001-2005 [11) аналитическая роспись 2006-2010 [25) аналитическая роспись 2011-2015 [29] аналитическая роспись с 2016 (18)

Всего найдено документов: 107

Рисунок 10 - Результаты сложного поиска

Анализируем результаты поиска. Видим, что при втором запросе найдено гораздо больше документов. Очевидны преимущества составления запроса по тезаурусу.

Еще один пример. Пользователь ищет информацию по фитофторе, не зная, что это не совсем корректная формулировка понятия «фитофтороз», и получает следующие результаты (рисунки 11 и 12).

Рисунок 11 - Некорректная формулировка искомого понятия

Электронный каталог книг:

Книги на иностранных языках (4] Книги на русском языке [4) Электронный каталог статей:

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

аналитическая роспись 1985-1989 [220) аналитическая роспись 1990-1995 [220) аналитическая роспись 1996-2000 (64) аналитическая роспись 2001-2005 [18] аналитическая ростись 2006-2010 [19] аналитическая роспись 2011-2015 [1) аналитическая роспись с 2016 (1)

Всего найдено документов: 551

Рисунок 12 - Результаты некорректного запроса

Если бы поисковое предписание было составлено с использованием ИПТ, то было бы найдено значительно большее количество документов (рисунки 13 и 14).

Рисунок 13 - Корректная формулировка искомого понятия

Электронный каталог книг:

Книги на иностранных языках (32] Книги на русском языке [23] Электронный каталог статей:

аналитическая роспись 1985-1989 (215) аналитическая роспись 1990-1995 (619) аналитическая роспись 1996-2000 (769) аналитическая роспись 2001-2005 (620) аналитическая роспись 2006-2010 [494) аналитическая роспись 2011-2015 (317) аналитическая роспись с 2016 (104)

Всего найдено документов: 3193

Рисунок 14 - Результаты корректного запроса

При использовании для поиска информации нормализованной лексики ИПТ можно достичь максимально эффективных результатов, так как унифицированная терминология позволяет преодолеть такую особенность естественного языка, как неоднозначность (одно и то же понятие может быть сформулировано по-разному). Роль ИПТ в тематическом поиске сложно переоценить. Обширный запас научной лексики тезауруса помогает составлять поисковые предписания максимально конкретными и корректными, сократить время поиска и получить релевантную информацию.

Выводы. Использование ИПТ как основного инструмента дескрипторного языка обеспечивает эффективный и качественный поиск информации по различным отраслям знаний в БД «АГРОС».

СПИСОК ИСТОЧНИКОВ

1. Индексирование документов базы данных ЦНСХБ. Методические указания // состав. Пирумова Л.Н., Харченко Л.Т. - Москва, 1995. - 35 с.

2. Пирумова Л.Н., Харченко Л.Т. Тезаурус по сельскому хозяйству и продовольствию: индексирование документов и поиск информации в БД АГРОС. (Методические материалы) - Москва, 2001. - 70 с.

3. Харченко Л.Т., Климова Е.В. Оптимизация стратегии поиска в базе данных «Агрос» // Библиотечное дело - 2005: деятельность библиотек и развитие информационной культуры общества / Моск. гос. ун-т культуры и искусств. -Москва, 2005. - С. 172-173.

СВЕДЕНИЯ ОБ АВТОРЕ

Соколова Жанна Владимировна - старший научный сотрудник отдела аналитико-синтетической обработки документов и лингвистического обеспечения, Федеральное государственное бюджетное научное учреждение «Центральная научная сельскохозяйственная библиотека»

sjv@cnshb.ru

i Надоели баннеры? Вы всегда можете отключить рекламу.