Научная статья на тему 'Многоязычный Тезаурус как интергированный инструмент поиска в банках данных'

Многоязычный Тезаурус как интергированный инструмент поиска в банках данных Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
84
17
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по языкознанию и литературоведению , автор научной работы — Назе А., Мдивани Р. Р., Базарнова С. В., Зуккер Д., Магай Е. В.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Многоязычный Тезаурус как интергированный инструмент поиска в банках данных»

НАЗЕ А., МДИВАНИ Р.Р., БАЗАРНОВА С.В.

ЗУККЕР Д., МАГАЙ Е.В., ШОТТ Х.

(Институт научной информации по общественным наукам РАН -Информационный Центр по социальным наукам, ФРГ) МНОГОЯЗЫЧНЫЙ ТЕЗАУРУС КАК ИНТЕРГИРОВАННЫЙ ИНСТРУМЕНТ ПОИСКА В БАНКАХ ДАННЫХ

ОБЩАЯ ИДЕЯ ПРОЕКТА

Интенсивное развитие кооперации и соответствующих коммуникативных структур в области науки занимает вполне определенное место среди направлений работы по созданию объединенной Европы, проводимой на политическом и экономическом уровне. В дополнение к уже проверенным временем формам научного сотрудничества современные технологии открывают широкий спектр новых возможностей: создание информационных сетей обеспечивает коммуникацию и позволяет вести поиск в большом количестве фондов данных и банков знаний. Хотя возможности доступа в настоящее время вполне обеспечены технически, простота и результативность поиска необходимой информации в значительной мере различаются в конкретных банках данных.

При поиске в банках данных разных стран потребители сталкиваются с двойным языковым барьером: во-первых, нужно владеть иностранным языком и, во-вторых, знать не только специальную терминологию, но и особенности структуры информационно-поискового языка, который используется при индексировании документов в конкретном банке данных. Уже беглый взгляд на практику различных

органов информации позволяет сделать вывод, что в каждом из них используются различные инструменты для обработки и поиска информации. Например, ВИНИТИ (Всероссийский институт научнотехнической информации) использует дескрипторы по экономике и ряду других дисциплин социальных наук, отличающиеся от дескрипторов ИНИОН; Британская Библиотека имеет систему предметных рубрик, отличающуюся от рубрик Библиотеки Конгресса США, а Sociological Abstracts имеет свой тезаурус, отличающийся от тезауруса Информационного Центра по социальным наукам. Из этого следует, что простой перевод тезауруса одного банка данных на другой язык еще недостаточен, чтобы обеспечить эффективный поиск в других банках данных.

Одним из возможных средств решения этой проблемы является подход, реализованный в совместной проекте Информационного центра по социальным наукам (ИЦ) в Бонне и Института научной информации по общественным наукам (ИНИОН РАН) в Москве в рамках Соглашения о научном сотрудничестве между ИНИОН и ИЦ. Целью проекта было преодоление языкового барьера при поиске в немецких и русских банках данных. Результатом работы международной рабочей группы (в составе авторов данной статьи) стал трехъязычный “Тезаурус по социальным наукам”1-1. Он отражает содержательные проблемы, связанные с поиском в банках данных по социальным наукам, использующих различные языки, и является реальным рабочим инструментом для ученых, интересующихся научной литературой и исследованиями в области социальных наук в Восточной и Западной Европе.

Положенная в основу Тезауруса концепция проекта предполагала три фазы работы, связанные с его содержанием. На первом этапе следовало определить, какие области науки охватываются понятием “социальные науки”. Было решено принять дефиницию, которая уже используется в Информационном центре по социальным наукам и основана на широкой дефиниции ЮНЕСКО. Кроме того, в качестве терминологического базисного материала было решено использовать немецко-английский “Тезаурус по социальным наукам” ИЦ. Он содержит около 10 400 словарных статей - из них около 6 800 дескрипторов, используемых при индексировании, и 3 600 - недескрипторов,

запрещенных для использования при индексировании. Словарные статьи

1) Thesaurus Sozialwissenschaften / Thesaurus for the Social Sciences / Тезаурус по социальным наукам; Bearb.: Basarnova S., Magaj H., Mdivani R., Schott H., Sucker D.; Hrsg.: Nase A., Mdivani R. - Bd. 1-3. Bonn, 1997.

содержат многочисленные пояснения и отношения между лексическими единицами. На втором этапе немецкие словарные статьи были переведены на русский язык. Благодаря этому Тезаурус может быть использован также в качестве обычного трехъязычного словаря независимо от использования в банке данных. На третьем этапе был проведен поиск в релевантных банках данных ИНИОН (ECON, HISTORY, STATE and LAW, PHILOS), в результате которого были определены соответствующие русские дескрипторы из Списков нормализованной лексики ИНИОН, т.е. были подобраны эквивалентные ключевые слова из банков данных ИНИОН, которые и были дополнительно включены в соответствующие трехъязычные словарные статьи Тезауруса.

Таким образом к трехъязычнм словарным статьям Тезауруса добавились термины-дескрипторы информационно-поискового языка ИНИОН,

Выбор и оценка русских эквивалентов, соответствующих понятиям трехъязычного Тезауруса, в режиме практического поиска в базах данных ИНИОН представляли собой сложную работу, требующую больших интеллектуальных затрат, поскольку к концептуальным и лингвистическим проблемам добавлялись также особенности культурного и общественного развития стран, которые отражаются в языке науки.

В результате был получен Тезаурус, построенный с учетом его практического использования при поиске в банках данных как ИНИОН, так и ИЦ. Он может также помочь англоязычному пользователю ориентироваться в немецких и русских банках данных и будет полезным инструментом для ученых Западной и Восточной Европы, работающих в области социальных наук, содействуя интенсификации информационного обмена.

Ниже дается характеристика структуры Тезауруса и описаны некоторые методические проблемы, с которыми столкнулись авторы в процессе работы.

1. Предметные области Тезауруса

Как было сказано выше, трехъязычный Тезаурус отражает область социальных наук в соответствии с дефиницией ЮНЕСКО. Он охватывает следующие дисциплины, отрасли науки и области применения: методы социального исследования, социология, политическая наука, социальная психология, исследования в области образования, наука о коммуникации, этнология, социальная история, демография, исследования в области положения женщин, социальной политики, системы социального обеспечения, рынка труда и профессий, социально-научных аспектов психологии, науки о воспитании, а также экономики, правовой науки, геронтологии и изучения окружающей среды. Кроме того, в Тезаурус были включены понятия из гуманитарных и естественных наук, из медицины и техники (например, “диалектика”, “теория эволюции”, “перевод в цифровую форму”), а также обозначения объектов, которые не относятся к научной терминологии, но являются объектами изучения социальных наук (например, “уличное движение”, “домашняя хозяйка”).

2. Дескрипторы и недескрипторы

Важными признаками Тезауруса как словаря информационнопоискового языка являются: а) терминологический контроль

информационно-поискового языка, используемого для индексирования и поиска; б) представление отношений между понятиями.

а) Терминологический контроль означает в первую очередь, что проблемы синонимии, омонимии и полисемии должны быть решены однозначно: при индексировании документов и запросов должно быть абсолютно ясно, какие лексические единицы и в каком значении используются в качестве дескрипторов для описания содержания документов, и каким образом обеспечивается при соответствующем индексировании запросов эффективность поиска. Если какие-то лексические единицы запрещено использовать для индексирования (недескрипторы), то должно быть указано, какие дескрипторы или комбинации дескрипторов должны использоваться вместо них. В Тезаурусе дескрипторы выделены жирным шрифтом. После недескрипторов следует отсылка USE к дескрипторам, которые заменяют недескрипторы при индексировании.

б) Отношения между понятиями представлены в Тезаурусе в виде отношений между выражающими эти понятия терминологическими единицами, включенными в словарные статьи. В соответствии со стандартом ими являются отношения синонимии и условной синонимии

между дескрипторами и недескрипторами, а также иерархические и ассоциативные отношения между дескрипторами, которые указывают на связи дескриптора с более широкими, более узкими или близкими по значению дескрипторами. Благодаря этим отношениям значение дескриптора выражается более четко, и потребителю обеспечивается возможность расширения или уточнения поиска.

З. Переводы

3.1 Цели и методы

Перевод Тезауруса на английский язык был осуществлен в ИЦ в целях обеспечения поиска в банках данных ИЦ не только на немецком, но и на английском языке, причем английские дескрипторы автоматически приписываются документам в качестве поисковых элементов при их обработке для библиографического банка данных SOLIS на основе немецкоязычного индексирования. Немецко-английская версия Тезауруса от 1994 г. была переведена на русский язык. Поскольку к трехъязычным словарным статьям Тезауруса были добавлены эквивалентные (полностью совпадающие или близкие по значению) русские дескрипторы из ИПЯ ИНИОН, позволяющие проводить по ним удовлетворительный поиск в банках данных ИНИОН, то можно сказать, что в результате была достигнута главная цель проекта - создание многоязычного инструмента для обеспечения взаимного доступа к русским и немецким банкам данных для русскоязычных и немецкоязычных потребителей, причем параллельный перевод на английский язык позволяет еще больше расширить круг потребителей.

3.2. Особые проблемы

В процессе перевода как на английский, так и на русский языки возникали особые проблемы, поскольку нужно было переводить не связный текст, а отдельные лексические единицы Тезауруса.

При переводе с любого языка возникают проблемы неполного совпадения значения и объема понятия соответствующих обозначений на разных языках (неполная эквивалентность) или вообще отсутствия адекватного терминологического перевода.

Проблема неполной эквивалентности перевода решалась прагматически:

а) В тех случаях, когда разница в значении английского или русского перевода по сравнению со значением немецкого термина была несущественной с точки зрения информационного поиска, ею пренебрегали. Например:

Abiturient

secondary school graduate абитуриент

В немецком языке это - выпускник школы, а в русском это также относится к выпускникам, но только к тем, кто поступает в средние специальные или высшие учебные заведения.

б) Для разрешения полисемии и омонимии немецкого термина значение дифференцировалось в виде двух или более дескрипторов переводящего языка посредством

- содержательных помет в круглых скобках, например:

Emigration Auswanderung

emigration (polit. or relig. reason) emigration

эмиграция (по полит. или религ. причинам) эмиграция

- формальных помет в виде цифр в угловых скобках, например:

Humanitaet Menschheit

humanity <1> humanity <2>

гуманность человечество

Frieden Welt

peace world

мир <1> мир <2>

а) Адекватный терминологический перевод не всегда возможен, так как терминологические системы различных языков не совпадают вследствие как особенностей национальных научных традиций, так и различий в культурной, общественной и политической жизини. Так, например, некоторые немецкие понятия, связанные с системой образования или социальной политикой, не имеют никакого соответствия в переводящих языках - английском и/или русском.

В этом случае есть две возможности:

- дать краткое описание содержания, например:

hoeherer Dinst

civil service executive level

высший ранг государственных служащих

- включить немецкий дескриптор в переводящий язык, например:

Bundestag

Bundestag

Бундестаг

б) Особым случаем являются омонимичные и полисемичные

недескрипторы, для которых в большинстве случаев не существует адекватного перевода, поэтому их значение представлено в переводящих языках только отсылками к переводам альтернативных дескрипторов,

которые заменяют отсутствующие омонимичные/полисемичные

дескрипторы.

Например:

Erhebung

use Revolution / Widerstand / Datengewinnung

revolution / resistance / date capture революция / сопротивление / получение данных

с) Недескрипторы-абсолютные синонимы в большинстве случаев невозможно передать на языке перевода, так как их перевод полностью совпадает с переводом соответствующих им дескрипторов. При этом встречаются следующие основные случаи:

- семантическое совпадение, например:

Ehescheidung use Scheidung divorce развод

- различные модели словообразования, например:

berufliche Bildung use Berufsbildung vocational education профессиональное образование -наличие синонимов, один из которых является иноязычным, например:

Feed back

use Rueckkopplung Geschichtsschreibung

feedback обратная связь

- орфографические варианты

Cypern

use Zypen Cyprus Кипр

4. Эквиваленты из банков данных

Перевод немецких дескрипторов/недескрипторов на русский язык, который ориентирован на лингвистические критерии, не всегда

соответствует по форме или по содержанию дескрипторам/недескрипторам из Списков нормализованной лексики, которые используются в специализированных отраслевых банках данных ИНИОН. В связи с этим для обеспечения оптимального поиска

информации в каждой немецко-англо-русской словарной статье Тезауруса приведены также эквивалентные русские дескрипторы или их комбинации, которые используются в соответствующих банках данных ИНИОН. При этом перевод недескриптора Тезауруса может быть

дескриптором в каком-либо банке данных ИНИОН и наоборот.

Дескрипторы ИНИОН сгруппированы по тематике банков данных, в которых они встречаются.

Все подобранные эквиваленты были проверены в режиме поиска, т.е. каждому включенному в словарную статью эквиваленту

соответствуют документы в конкретном банке данных ИНИОН. Следует отметить, что эти банки данных существуют уже около 15 лет и в ходе их развития происходили определенные изменения в списках дескрипторов, используемых при индексировании документов. Это привело в ряде

Historiograhie

use

historiography историография написания, например:

случаев к включению параллельных вариантов обозначения одного и того же информационного содержания.

Характеристика соответстветствующих библиографических банков данных ИНИОН представлена в следующей таблице:

Имя банка данных (в скобках -обозначение в Тезаурусе)

ЕСОМ (Ес)

Предметная

отрасль

Экономика и демография

Число

документов

(1.01.1997)

217.000

Доля источников на рус. языке

30%

HISTORY (Hi)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

PHYLOS(Ph)

STATE and LAW (SL)

История,

этнография,

археология

Философия

и социология

Государство

и право

181.700

177.300

107.800

43%

40%

23%

5. Структура словарной статьи в Тезаурусе

Словарные статьи в Тезаурусе имеют общепринятую стандартную структуру, причем некоторые элементы могут использоваться факультативно:

1. Порядковый номер (используется для системы отсылок к основному тому от других томов Тезауруса).

2. Дескриптор или недескриптор.

3 Примечание (scope note) (факультативно).

4. Переводы.

5. Отношения при дескрипторах (факультативно).

6. Отсылки к дескрипторам при недескрипторах.

7. Индекс из систематики Тезауруса.

8. Эквивалентные дескрипторы из банков данных ИНИОН.

В качестве дескрипторов/недескрипторов используются только существительные или словосочетания, состоящие из существительного и прилагательного. Обычно используется именительный падеж

единственного числа. Исключение составляют те существительные, которые употребляются только во множественном числе, например,

internationale Beziehungen / international relations / международные

отношения, или те, которые имеют в единственном и множественном числе различное значение, например, Zensur - Zensuren. В дескрипторах соблюдается прямой порядок слов. Например: soziales Verhalten - social behavior - социальное поведение.

К некоторым дескрипторам добавляются примечания. В большинстве случаев они уточняют значение дескриптора или определяют одно из нескольких возможных значений в качестве обязательного для данного Тезауруса. В ряде случаев дается также информация по использованию дескриптора в банке данных ИЦ. Например:

betribliche Sozialpolitik

bis 1992 sien Sozialpolitik + Betrieb

социальная политика на предприятии

до 1992 см. социальная политика+ предприятие

Отношения между дескрипторами рассматривались с прагматической точки зрения. Так как максимальной полноты можно достичь только за счет значительных издержек, приводятся прежде всего только те из дескрипторов, которые рационально использовать при индексировании и поиске. Последовательность языков в основном томе: немецкий, английский, русский плюс дескрипторы ИПЯ ИНИОН. Если конкретный тип отношений содержит несколько дескрипторов, то сначала даны немецкие в алфавитной последовательности, затем переводы на английский и русский языки в порядке следования на немецком языке.

Тезаурус содержит стандартные отношения: ВТ (broader term / вышестоящее понятие), NT (narrower term / нижестоящее понятие) и RT (related term / ассоциативное понятие).

При каждом недескрипторе после U SE (используй вместо) следует отсылка к одному дескриптору, сумме дескрипторов или перечню альтернативных дескрипторов.

При отсылке к одному дескриптору мы имеем дело в большистве случаев либо с синонимом, имеющим то же значение, что и дескриптор, либо с квазисинонимом, т.е. в ряде случаев с более общим понятием, к которому дается отсылка от слишком специфического понятия. Например:

Aristokratie Baumwolle

aristocracy cotton

аристократия хлопок

use Adel use Agrarprodukt

nobility agrcultural product

дворянство сельскохозяйствен-

ный продукт

Кроме того, используются отсылка к комбинации (сумме) дескрипторов, которые заменяют недескриптор при индексировании и поиске, а также отсылка к перечню (альтернативе) дескрипторов, из которых только один может быть выбран в соответствии с темой документа.

Возможны и более сложные случаи, когда недескриптор передается альтернативно одной из приведенных комбинаций. Например: Grenzkonflikt boarder conflict пограничный конфликт

use politischer Konflikt / militaerischer Konflikt

+

Grenzgebiet political conflict / military conflikt + border region политический конфликт / военный конфликт + приграничная область

В этом примере недескриптор должен быть передан либо как “политический конфликт + приграничная область”, либо как “военный конфликт + приграничная область”.

Наряду с алфавитным упорядочением по языкам Тезаурус содержит и систематические указатели. Каждый

дескриптор/недескриптор Тезауруса включен в одну или несколько групп систематики. Систематика Тезауруса служит для общего упорядочения словарного материала по понятийным и проблемным полям и не рассматривается как строгая классификационная система. Поля разработаны прагматически, поэтому включение

дескрипторов/недескрипторов в определенный раздел систематики происходит также в тех случаях, когда понятийное поле данного раздела не является в строгом смысле вышестоящим по отношению к ним понятиям.

Дескрипторы ИПЯ ИНИОН, эквивалентные дескрипторам Тезауруса, выбирались из 4-х банков данных, которые в наибольшей степени отвечают его тематике. При этом некоторые дескрипторы могли встречаться в двух и более банках данных, хотя их значение могла варьироваться в зависимости от отрасли.

Дескрипторы из банков данных ИНИОН приводятся после их сокращенных обозначений (см. вышеприведенную таблицу).

В большинстве случаев представленные эквиваленты из банков данных соответствуют дескрипторам/недескрипторам Тезауруса. В ряде случаев после такого эквивалентного дескриптора после пометы “s.a.” (sieh auch / see also / см. также) могут следовать дескрипторы более широкие или родственные по значению, позволяющие в случае необходимости расширить поиск, хотя и за счет снижения точности. В тех случаях, когда точный эквивалент отсутствует, приводятся только близкие или более широкие по значению дескрипторы. Они следуют после пометы “s.” (sieh / see / см.). В результате поиска по ним можно получить нужные документы, хотя и с определенным информационным шумом.

6. Издание Тезауруса

Для работы на проектом в ИНИОН был создан собственный лингвистический банк данных (пакет программ разработан в ИНИОН), с содержательной и функциональной точки зрения обеспечивающий возможность совместной с ИЦ работы над многоязычным словарем, а также возможность автоматизации ряда лингвистических задач, например, проверку парадигматических отношений, однозначности переводов, пермутацию (в том числе сложных немецких слов-композитов), формирование по задаваемому набору полей и выдачу оригиналов указателей различных видов с соответствующим размещением элементов текста и шрифтовыми выделениями.

Формирование оригиналов томов Тезауруса осуществлено ИЦ на основе своего лингвистического банка данных, куда из ИНИОН передавались на машиночитаемых носителях в согласованной структуре результаты работы над русскими переводами и эквиваленты из БД ИНИОН.

Издание трехъязычного Тезауруса делится на 3 тома:

Т.1. Алфавитный немецко-английско-русский Тезаурус.

Отсортирован по немецкому алфавиту, содержит всю информацию, перечисленную в п.5

Т.2. Алфавитный русско-немецко-английский указатель.

Отсортирован по русскому алфавиту, содержит всю информацию, перечисленную в п.5, но без эквиалентов из банков данных ИНИОН.

Т.3. Том указателей с частями:

а) Систематический указатель дескрипторов/недескрипторов на немецком языке, отсорированных по разделам систематики с указанием порядкового номера в Т.1., где можно найти всю информацию;

б) Систематический указатель дескрипторов/недескрипторов на русском языке, отсортированных по разделам систематики с указанием порядкового номера в Т.1.;

в) Систематический указатель дескрипторов/недескрипторов на английском языке, отсортированных по разделам систематики также с указанием порядкового номера в Т.1;

г) Алфавитный указатель английских дескрипторов/ недес-крипторов, отсортированных по английскому алфавиту с указанием порядкового номера в Т.1.

7. Заключение

Цели и методы создания многоязычного лингвистического средства, ориентированного на поиск в БД, использующих различные информационно-поисковые языки, базирующиеся к тому же на лексике разных естественных языков, были обсуждены и одобрены участниками Конференции ЕКССИД в ноябре 1994 г. в Берлине. Следует отметить, что рекализация описанного в данной статье проекта соответствует общей тенденции развития интеграционных процессов, ориентированных на создание для потребителей возможности получить интересующую их децентрализованную информацию. В качестве примера можно привести крупномасштабный проект Интегрированной информационной системы по социальным наукам (1818), разрабатываемый ИЦ, включающий в себя, в частности, разработку многоязычных тезаурусов, а также других лингвистических инструментов для интегрированного использования при поиске в различных банках данных1)

Соответствующие рабочие проекты разрабатываются также в рамках научного сотрудничества Информационного Центра с Институтом научной и технической информации Национального Центра научных исследований (І8І8Т - С№Я8, г. Нанси), Институтом

информации и документации по социальным наукам (СШВО8, г. Мадрид) и Центром информации и документации по социальным наукам (г. Амстердам). В перспективе при соответствующем развитии

1) Подробнее см.: Мутшке Р., Херфурт М. Интегрированная информационная система по социальным наукам (І8І8) //Теория и практика общественно-научной информации. - М., 1996. - Вып. 12. - С. 246-259.

программных средств эти лингвистические инструменты должны использоваться в качестве одного из семантических компонентов при создании интеллектуальной диалоговой системы (Front - End - System), выполняющей навигационные функции в сетевом режиме и оказывающей помощь в формулировке запроса, преодолевая при этом языковые барьеры, а также справляясь с проблемами, возникающими в связи с неопределенной и неполной информацией и индивидуальной реакций пользователя.

i Надоели баннеры? Вы всегда можете отключить рекламу.