Научная статья на тему 'О компьютерной лексикографии: семантика и тезаурусные связи в прикладных словарях'

О компьютерной лексикографии: семантика и тезаурусные связи в прикладных словарях Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
241
61
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Семенова Софья Юльевна

Работа выполнена при поддержке Российского гуманитарного научного фонда (проекты РГНФ-01-04-16252а и РГНФ-02-04-00294а).

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «О компьютерной лексикографии: семантика и тезаурусные связи в прикладных словарях»

С.Ю.СЕМЕНОВА*

О КОМПЬЮТЕРНОЙ ЛЕКСИКОГРАФИИ: СЕМАНТИКА И ТЕЗАУРУСНЫЕ СВЯЗИ В ПРИКЛАДНЫХ СЛОВАРЯХ

Как известно, неотъемлемой частью информационных ресурсов, накапливаемых современным обществом, являются разнообразные машинные словари. Их создание, подразумевающее и концептуальную проработку, и конкретное наполнение, составило предмет отдельной области прикладной лингвистики, которая получила название компьютерной лексикографии.

В данной статье мы попытаемся (вовсе не претендуя на полноту) дать краткий обзор ряда новых отечественных разработок в этой области. Из всего разнообразия словарных систем мы попытаемся охарактеризовать лишь те, которые предназначены для представления семантической и тезаурусной информации о лексических единицах. Словари других типов (переводные, морфологические, синтаксические, а также описывающие сочетаемость, фонетический строй языка, типологические базы данных и др.) мы не будем затрагивать, хотя в каждом из этих разделов имеются разработки, представляющие значительный интерес как в научном, так и в практическом плане (см., напр.: 11, 25, 27, 34). Мы остановимся лишь на некоторых се-

Семёнова Софья Юльевна - кандидат филологических наук, старший научный сотрудник Отдела каталогизации и электронных каталогов Фундаментальной библиотеки ИНИОН РАН.

Работа выполнена при поддержке Российского гуманитарного научного фонда (проекты РГНФ-01-04-16252а и РГНФ-02-04-00294а).

мантических и тезаурусных электронных словарях, развиваемых в настоящее время и описываемых в публикациях последних лет.

В значительной мере мы будем при этом опираться на материалы ежегодного семинара «ДИАЛОГ» по прикладной лингвистике и интеллектуальным технологиям (см. библиографию к данной статье). Справочную информацию о большинстве отечественных компьютерных словарей (и о многих других работах в области прикладной лингвистики) можно почерпнуть и из каталога «Автоматизированная обработка речи и текстов на естественном языке», который ведут исполнители совместного российско-французского проекта (5) при поддержке французского Министерства науки1. (Отметим, что сведения обзорного характера о ряде зарубежных словарных систем содержатся, в частности, в (32-33)).

Более подробно будут рассмотрены три словарные системы, разрабатываемые с участием автора и потому известные ему «изнутри». Это, во-первых, компьютерный словарь РУСЛАН, который развивается под руководством Н.Н.Леонтьевой (в настоящее время он базируется в НИВЦ МГУ), во-вторых, база данных «Русский глагол», создаваемая под руководством Е.В.Падучевой и выступающая как часть более общей системы «Лексикограф» (ВИНИТИ и Московский институт непрерывного математического образования — МИНМО); и в-третьих, база данных новых предметных рубрик, которая поддерживается в Отделе каталогизации и электронных каталогов Фундаментальной библиотеки (ФБ) ИНИОН РАН.

Итак, вначале о семантических и тезаурусных электронных словарях в целом. Такие словари в принципе отличаются друг от друга по целям использования, языкам, отраслевой принадлежности, объему и глубине закладываемых в них знаний, способам организации информации, методам пополнения и т.п. Мы остановимся только на трех принципиально различных разновидностях словарей, каждая из которых и будет потом проиллюстрирована кратким описанием конкретной словарной системы.

Во-первых, это словари, ориентированные на использование в системах автоматической обработки текста (АОТ), где требуется так называемое «компьютерное понимание», которое может реализовываться с той или иной степенью полноты и глубины.

1 http://www.elsnet.oig.pubslist.html.

Конкретными направлениями АОТ, требующими «понимания», являются машинный перевод, извлечение из текста информации какого-либо заданного типа (information extraction), автоматическая рубрикация документов, интеллектуальный поиск документов и фактографии в электронных библиотеках, автоматизированный или интерактивный контент-анализ, естественно-языковые (ЕЯ) интерфейсы к экспертным системам и некоторые другие прикладные задачи.

Как правило, словари, предназначенные для таких целей, отличаются значительной степенью формализации и имеют весьма жесткие форматы. Словарным входам, в качестве которых могут выступать лексемы, фразеологемы, отраслевые термины, имена собственные, а также отдельные морфемы, обычно приписывается информация в виде специальных помет, указывающих на смысловой класс лексической единицы (или, скажем, на пересечение классов, в которые она попадает). Могут приводиться и данные об алгоритмически важных контекстах, особенностях грамматического поведения; для лексем эти данные помогают, например, выделять в тексте синтаксические группы, обладающие смысловой целостностью, или разрешать многозначность. Иногда приводятся тезаурусные свойства лексической единицы, используемые, в частности, при анализе связного текста. При этом словари могут быть одно-, дву- и многоязычными, подразделяться на общелексические и отраслевые части, содержать мультимедийную (например, графическую и фонологическую) информацию.

АОТ-ориентированные словари в принципе могут разрабатываться как самостоятельные информационные продукты (обычно снабженные собственным поисковым аппаратом), которые можно на тех или иных условиях предоставлять разработчикам разных систем с ЕЯ, но могут также быть непосредственно встроенными в лингвистические процессоры (например, в виде совокупности текстовых файлов) и предназначенными только для конкретной системы. Подчас в силу малочисленности коллективов, создающих АОТ-системы (что является обыденной ситуацией в нашей стране), и словари, и программы пишутся одними и теми же специалистами. Фактически каждая система, включающая элементы понимания, каждый коллектив бывает в той или иной мере вовлечен в словарные работы (скажем, разработчики пользуются и готовыми словарными продуктами, и, в дополнение к ним, делают собственные, вспомогательные подслова-

ри, отражающие, например, терминологию предметных областей, учитывающие индивидуальные технологические особенности и т.п.).

Обычно статьи словарей, предназначаемых для АОТ, относительно кратки, информация об описываемой единице бывает огрубленной по сравнению с лексикографическими описаниями, адресованными человеку (иначе и не может быть, ведь даже самая современная программа, анализирующая текст, едва ли способна разбираться в разветвленной полисемии, в «ювелирных» тонкостях лексических значений). В прикладных словарных системах ценятся объем словников, прагматическая целесообразность приводимых данных, удобство их представления, сравнительно несложная адаптируемость к конкретным задачам и, разумеется, адекватность описаний, обеспечивающая корректность АОТ по крайней мере для типовых, статистически значимых контекстов.

В качестве примера можно назвать словари системы ЭТАП-3, над которой работает коллектив под руководством Ю. Д. Апресяна в Институте проблем передачи информации (ИППИ) РАН (см., напр.:

1, 35). Эта система начала развиваться еще в 80-е годы; с той поры были созданы версии ЭТАП-1 и ЭТАП-2. Современная, третья версия данной системы является многоцелевой: она и осуществляет машинный перевод с несколькими парами языков (англо-русский, а также перевод с русского языка на английский, корейский, немецкий, французский), и выполняет еще ряд задач, связанных с анализом, синтезом, разметкой текста, программированным обучением. Система базируется на широкоизвестной модели «Смысл-Текст» И.А.Мельчука и на интегральной теории языка, разработанной Ю.Д.Апресяном. В системе реализован так называемый лексикалист-ский подход, когда наряду с массовыми грамматическими правилами большое значение придается словарной информации, индивидуальной и групповой.

В семантико-синтаксических словарях ЭТАПа (они названы комбинаторными) средствами специального метаязыка фиксируются определенные семантические, словообразовательные, синтаксические (включая модель управления) свойства слов, словосочетания, лексические функции, переводные эквиваленты и правила их выбора. Собственно семантика отражается с помощью системы смысловых помет. Разрабатываются методы разрешения лексической много -значности с опорой на данный словарный материал (35).

Одна из последних разработок в рамках проекта ЭТАП-3, где активно используется комбинаторный словарь — трансляция текста на русский язык с универсального сетевого языка-посредника UNL (Universal Network Language), предложенного специалистами из Университета ООН и предназначаемого для представления (изначально многоязычной) информации в Интернете.

Следует отметить, что язык UNL, который в основном рассматривается как инструментарий для отражения сведений, содержащихся в предложениях текста (в статье (1) отмечается его близость к аппарату глубинно-синтаксических структур модели «Смысл-Текст»), может быть использован также и для записи лексикографической информации, а значит, он сам может служить формализмом для создания АОТ-ориентированных словарей (см., напр.: 33).

Еще одна заметная разработка данного плана — словарный комплекс в рамках системы японско-русского машинного перевода, создаваемой под руководством З.М.Шаляпиной в Институте востоковедения РАН (19, 36). В соответствии с предлагаемой авторами лексико-морфологической моделью в этой словарной системе реализуется расширенный компонентный подход к описанию значения — слову приписывается совокупность элементарных смыслов, которые соотнесены с его валентностной структурой, а также указываются его морфологические и синтаксические свойства. Комплексное описание построено с учетом специфики японского языка, в частности, описываются кодируемые графические объекты — иероглифы.

Другое направление в семантической компьютерной лексикографии — это создание систем, предназначенных не для АОТ (или пока не для АОТ), а как бы в помощь самому лингвисту-лексикографу. Это словарные базы данных, разрабатываемые для систематизации обнаруженных исследователем знаний о лексических единицах. Это своего рода автоматизированные «рабочие картотеки» лингвиста, которым современные средства ведения баз данных (стандартные СУБД или другие программные оболочки) обеспечивают поисковый и навигационный аппарат.

Для таких систем важны тонкость лексикографических описаний, форматы, позволяющие размещать вновь обнаруживаемые знания, развитость поиска, возможность компонования лексических классов по разнообразным основаниям.

К таким системам относится база данных русской лексики «Лексикограф» (13 и др.). БД состоит из отдельных самостоятельных

разделов, описывающих глаголы (руководитель Е.В.Падучева), предметные имена (руководитель Е.В.Рахилина) (7, 12), наречия

(М. В. Филипенко); о глагольной базе ниже пойдет речь отдельно. Во всех подбазах размещаются формализованные элементы описаний и толкований лексем, что позволяет, в частности, автоматически группировать лексические единицы по различным нетривиальным признакам. Сама рамка толкования, «дисциплинируя» автора-

лексикографа, помогает ему обнаруживать и фиксировать новые свойства у изучаемых единиц.

Близкий по своим задачам словарь (аспектологический словарь русских глаголов) разрабатывается в Институте языкознания РАН (8, 9). В нем отражаются конкретные смысловые отношения между совершенным и несовершенным видом глагола. В словарных статьях приводится перечень значений (типов употреблений) глагола с краткими толкованиями (либо поясняющими контекстами), и для каждой лексемы указывается видовой коррелят и тип реляции.

Третье крупное направление, имеющее серьезное практическое значение, — это словари тезаурусного типа, т.е. словари, отражающие смысловые отношения между лексическими единицами (таково одно из возможных определений (см., напр.: (20)). Основным предназначением таких продуктов наряду с ознакомлением пользователя с терминологическими «картами» предметных областей является информационный поиск.

Среди отечественных разработок последних лет можно назвать терминологический тезаурус университетской информационной системы «Россия» (НИВЦ МГУ) (17). Он описывает лексический массив, главным образом, из общественно-политической сферы. В нем отражаются как традиционные тезаурусные связи (выше, ниже, ассоциация), так и некоторые дополнительные отношения (типа «часть— целое», «возможность», «аспект»). Тезаурус формируется на основе автоматического индексирования больших массивов документов. По данным на конец 2002 г., он насчитывает около 70 тыс. терминов. Изначально тезаурус был русскоязычным, но сейчас он переведен и на английский язык.

Интересен и другой отраслевой продукт — терминологический тезаурус по молекулярной биологии, полученный автоматически, путем текстового анализа, из зарубежных информационных систем по белковым соединениям (содержащих, кроме терминологии, узкоспециальную химическую и биологическую информацию). Его раз-

работчики — группа молодых специалистов из Санкт-Петербурга (6). При построении данного ресурса для выявления связей в терминологии был использован ряд эвристических методов, как лингвистических, так и статистических.

Близок к тезаурусам и терминологический глоссарий, разрабатываемый на факультете вычислительной математики и кибернетики МГУ (18). В нем термины из различных областей знаний (образующие локальные глоссарии — по экономике, праву и др.) связаны в единую семантическую сеть, как бы моделирующую универсум. Помимо чисто справочных целей (а как утверждают разработчики данной системы, ознакомление с терминологией предметных областей является шагом к постижению самих отраслевых знаний), данный продукт может служить инструментарием в терминологических исследованиях.

Одна из особенностей прототипического словаря-тезауруса состоит в том, что он, отражающий отношения между понятиями в предметных областях, в большей мере, чем, скажем, словари общелексические, связан с нетривиальным знанием о мире; для него больше, чем для общелексического словаря, важна онтологическая (энциклопедическая) составляющая. Проблема соотнесеннности тезауруса с онтологией (под которой в данном случае понимается система декларативных знаний об объектах действительности), соединения лексикографической и энциклопедической информации обсуждается в некоторых работах (20, 21) как в теоретическом, так и в прикладном плане. В плане практическом в Российском научноисследовательском институте искусственного интеллекта (РосНИИ ИИ) ведется разработка компьютерной среды для размещения лингвистических и онтологических знаний.

К тезаурусным относятся и библиотечные терминологические системы. Можно назвать, в частности, недавно изданный информационно-поисковый тезаурус ИНИОН по экономике и демографии (10), первый из серии отраслевых тезаурусов ИНИОН, подготовленных на рубеже веков и отражающих терминологию современного периода. В нем представлено около 5 тыс. терминов из соответствующих отраслей, снабженных тезаурусными ссылками и отсылками к рубрикам Рубрикатора ИНИОН и к рубрикам ББК.

Разновидность систем тезаурусного типа составляют справочные файлы предметных рубрик (ПР). Общепризнаны рубрики Библиотеки конгресса; в нашей стране, как известно, большой вклад в

дело создания таких ресурсов внесла Российская национальная библиотека; описанию ее авторитетного файла ПР посвящен, например, целый ряд статей (26). Определенные усилия в этой области прилагает и ФБ ИНИОН, в которой, в частности, формируется база данных новых (т.е. вводимых в предметный каталог в последние годы) предметных рубрик, получившая название ПРЕДМНОВ.

Теперь, как и было обещано, остановимся подробнее на трех уже упомянутых примерах словарных систем.

1. Словарь РУСЛАН

Название этого продукта является аббревиатурой от «Русского СЛоваря для Анализа». Словарь возник в 90-е годы и развивался в составе системы информационного анализа политических и официальных документов ПОЛИТекст, создававшейся под руководством

Н.Н.Леонтьевой в Институте США и Канады РАН. Тогда словарь назывался РОСС (Русский ОбщеСемантический Словарь) (14, 15, 30). Затем, «на рубеже веков», эти разработки были перебазированы в НИВЦ МГУ; словарь претерпел некоторые изменения, в частности, существенно пополнился общей и общенаучной лексикой (до этого в нем преобладала лексика официальная), и на новом месте получил свое нынешнее имя.

Словарь содержит такие сведения о слове-заголовке, как его крупная таксономическая категория и более конкретные семантические классы, актантная структура (перечень валентностей, ожидаемая таксономия актантов и синтаксические модели управления), лексическая сочетаемость (термины, устойчивые обороты, лексические функции), дериваты, тезаурусные связи (синоним, выше), некоторые энциклопедические (онтологические) свойства, а также формальные грамматические характеристики (часть речи, типовая функция в предложении, ограничения типа р1игаИа tantum), эмпирический информационный вес, отраслевые пометы, английские эквиваленты, текстовые иллюстрации. Планируется ввести в словарь и элементы толкований, в частности, схематизированные описания ситуаций, обозначаемых предикатными словами. Информация из каждого поля используется (или может быть использована в дальнейшем) на конкретных этапах текстового анализа.

Как и подобает АОТ-ориентированному словарю, РУСЛАН имеет жестко формализованную структуру; для его ведения

Н.Н.Леонтьева разработала специальный метаязык (15 и др.), включающий как систему дескрипторов, так и синтаксические правила их употребления. Заполнение словарной базы данных осуществляется при помощи программно поддерживаемой системы шаблонов; лишь некоторые поля допускают свободный, ручной ввод, так что произвол в описаниях сведен к минимуму. Главное (и обязательное) поле словаря — поле семантических характеристик (СХ) заполняется логическими формами, составленными из дескрипторов, отражающих семантику слова (типа ПРЕДМЕТ, АРТЕФАКТ, ДОЛЖНОСТЬ, СИТУАЦИЯ, ЧАСТЬ, СОЦИАЛЬНОЕ, ИНТЕЛЛЕКТУАЛЬНОЕ и др., в общей сложности более 100 категорий). Логические формы — конъюнкции и дизъюнкции подобных констант — в известной мере моделируют компонентную семантическую структуру слова. В процессе ведения словаря сложился целый ряд методик применения дескрипторов для описания конкретных лексических и грамматических классов (28—30). В табл. 1 можно видеть пример словарной статьи из РУСЛАНа.

Определенную проблему составляет представление в таком словаре лексической многозначности: трудности обусловлены необходимостью так описать отдельные лексемы слова, чтобы обеспечить максимальную вероятность их автоматического распознавания в тексте; некоторые конкретные приемы использования имеющихся форматов для отражения формально различаемых контекстов разных лексем изложены в статье Н.Н.Леонтьевой и С.Ю.Семеновой (16); при этом принята стратегия укрупненного, «экономного» разбиения слова на значения.

Словник на конец 2002 г. насчитывал более 10 тыс. лексем. Формализованная структура РУСЛАНа в значительной мере используется и в некоторых производных, дочерних словарях, разрабатываемых данным коллективом и необходимых для анализа реальных текстовых документов: словаре оборотов, включающем служебные лексические единицы; словарях полнозначных устойчивых словосочетаний, географических терминов, частей слов.

Таблица 1

Пример статьи из словаря РУСЛАН

ЗГЛ = СЛОЖНЫЙ

КАТ[категория] = ЭТИКЕТКА_ПРИЗНАКА

ГХ[грам. хар-ка] = прилагат : с_опр

СХ[сем. хар-ка] = ОЦЕНКА & МОДАЛЬН & СОДЕРЖ & Magn АНГ = complicated; comlex; difficult ВАЛ [валентности] = ОЦЕНКА,С,А1; АСПЕКТ ,А2,С СХ1[сем. хар-ка 1-го актанта] = АБСТР[актность] || ИНТ[интеллектуальность] || ОДЕЯТ[область деятельности] || АРТ[ефакт] || ПРОСТР[анственное] || СИТ[уация]

ГХ1 = Х! : ИГ [пассивная валентность на именную группу]

СХ2 = ДЕЙСТВ[ие] || АБСТР || ОДУШ[евленность]

ГХ2 = ОБСТ_ГР [обстоятельственная группа] : для + Р; в + П ЛФ[лекс. ф-ии] = Adv0 (сложно); 80(сложность); Anti (простой);

CausMagn = усложнять ВАР[вариант] = трудный; составной СЛСЧ [словосочетания] = от простого к сложному ВЕС = 4

КАЧ [качественность] = +

КР[краткая форма] = +

ПО = общ.

ИЛЛ [иллюстрации] = сложная задача;

сложная геометрическая форма;

сложная международная обстановка;

автоматический поиск сложных изображений;

вопрос, сложный для понимания;

эта задача слишком сложна для младшего школьника;

изделия, сложные в изготовлении.

2. База данных «Русский глагол» системы «Лексикограф»

Экспериментальная система «Лексикограф» и, в частности, ее крупная часть — БД «Русский глагол», начала свое развитие в 90-е годы в ВИНИТИ под началом Е.В.Падучевой (сейчас разработки ведутся также и в МИНМО; часть коллектива работает и в других организациях). БД была задумана как инструментарий для структурированного представления лексических значений. Система адресована прежде всего специалистам в области лексической семантики (каковыми являются, в том числе, и сами ее разработчики) и может использоваться как для извлечения информации об отдельных словах, так и

для выявления семантических классов с теми или иными инвариантами.

В основу концепции словарного описания положена теория лексического значения глагола, предложенная Е.В.Падучевой (22—24 и др.), и, в частности, ее идея о том, что смысловые различия глагольных лексем связаны с варьированием четырех параметров значения. Эти параметры таковы: 1) тематический класс (ср.: глаголы движения, обладания, восприятия, речи и др.); 2) таксономическая категория, близкая к категориям З.Вендлера, классифицирующая тип и фазу обозначаемой ситуации (выделяются и, в свою очередь, более мелко классифицируются действия /«говорить»/, состояния /«спать»/, происшествия /«уронить»/ и др.); эти категории связаны и с аспекту-альными (видовыми) значениями глагола, ср. «сохнуть» — процесс; «высохнуть» — результат; 3) диатеза, т.е. расширенно понимаемые залоговые свойства глагола; как показано в статье Падучевой Е.В. (22) и других работах, они ассоциированы со способом «наблюдения» за глагольной ситуацией, т.е. с коммуникативными аспектами значения;

4) таксономические категории участников ситуации (деятели, предметы, вещества, факты и т.п.).

Соответственно, значения этих параметров отражаются в формате записей БД, где для этого (а также для толкований, для описания аспектуальных характеристик, для парадигмы значений лексем данного слова и для иллюстраций) отведены специальные поля.

Вносимые в базу толкования построены как структурновременные декомпозиции ситуаций, обозначаемых глаголами: сначала экспозиции — для действий, например, это описание того, что было до совершения действия, какие прототипические фоновые обстоятельства способствовали/ препятствовали его совершению, каковы были цели субъекта действия; затем собственно действие (так называемый категориальный компонент толкования) — какие конкретные процессы происходили с участниками ситуации во время совершения действия, и наконец, импликации — то, какие прототипические последствия данного действия можно наблюдать. При этом участники, кроме своей таксономии, характеризуются коммуникативными ролями в ситуации (они градуированы на «центр», «периферию» и так называемое положение «за кадром»), а также синтаксическими моделями управления.

Язык, на котором пишутся толкования, является полуформа-лизованным: он включает ряд клишировнных моделей, в толкованиях

используется ряд базовых метаслов, в той или иной мере близких к примитивам («совершить», «удалить», «сказать», «плохой», «польза» и др.); при этом совершенно избежать свободного текста в толкованиях не удается.

Большое внимание уделяется механизмам семантической деривации. В отличие от словарей для АОТ, оправданно «боящихся» мелко дробить слова на лексемы, в задачи данной системы входит описание возможно более широкого круга значений/типов употреблений глагола. Разработчики стремятся зафиксировать в отдельной записи — «карточке» каждый метонимический и метафорический переход, каждый сдвиг в коммуникативной структуре ситуации. Рассмотрение явлений семантической деривации в их многообразии оказывается плодотворным для выявления на материале базы новых аналогий и обобщений.

База разделена на несколько самостоятельных тематических разделов, ведение которых поручено разным лексикографам (в частности, автор занимается описанием в ней глаголов речи) (31).

При составлении статей речевых глаголов используется опыт, отраженный в известной семантической и лексикографической литературе: учитываются толкования речевых актов, предложенные

А.Вежбицкой и М.Я.Гловинской, словарные статьи МАС и некоторые другие источники.

Речевые глаголы в базе разделяются на ряд таксономических категорий, из которых типовыми являются: «действие моментальное» («спросить 1»), «действие обычное /длительное/ («рассказать»), «действие гетерогенное /подразумевающее диалог/» («обсудить 1»), «происшествие» («проговориться») и нек. др. Наряду с тремя типовыми семантическими ролями Говорящий (Агенс), Адресат, Содержание, бывают задействованы еще некоторые участники: участник, условно именуемый Контрагентом (например, для лексемы «просить 2» /за друга/), участник Документ (для лексемы «заявить 3»/в милицию на соседа/), участник Текст (для «сформулировать») и др. В экспозиции обычно отмечается эпистемическое и волитивное состояние Говорящего — то, что именно он знал и чтохотел сообщить Адресату. У речевых актов в базе фиксируется и такие признаки, свойственные именно этому тематическому классу, как возможность перформативного употребления и возможность насыщения актанта Содержание прямой речью. В табл. 2 приведены примеры описания двух лексем речевого глагола.

Таблица 2

Пример описания глагола в системе «Лексикограф» СЛОВО: ПОКЛЯСТЬСЯ

1.1. ЛЕКСЕМА: ПОКЛЯСТЬСЯ 1 (сделать ч.-л.)

Иванушка Бездомный поклялся Мастеру никогда больше не писать стихов.

2. МОРФОЛОГИЯ: СВ

3. АКТАНТЫ:

1) X |Сб |Номинатив \Агенс |Лицо

2) У\ОбИнф/Придат./Прямая речь|Содержанне|Пропозиция описывает Действие Сб-а в будущем

3) Ъ |Периф Датив Адресат |Ли1 ю/Аудитория/Высшая сила

4) Т |Периф |Инструм Ценность |Лицо/Абстракция: дороги Сб-у

5) У|Синтаксически невыразим| \Способ |Интонация/другие экспрессивные средства

4. Т-КАТЕГОРИЯ: действие: моментальное

5. ТОЛКОВАНИЕ:

[экспозиции:]

0) до КМН [момент наблюдения] Сб считал, что должен совершить Действие; Действие важное/трудное для Сб-а

1) Сб знал, что если он скажет 2 Адр-у, что совершит Действ., используя Способ, и не совершит его, Адр/другие лица/ он сам

будут

считать его плохим

2) волитивное состояние Сб-а: Сб хотел, чтобы Адр знал, что он сделает

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

все возможное, чтобы совершить Действие

3) дальняя цель Сб-а: совершить Действие [категориальный компонент:]

4) в КМН Сб совершил моментальный акт

5) :используя Способ, Сб сказал 2 Адр-у, что сделает все возможное, чтобы совершить Действие, и что его намерение

так же истинно,

как то, что Ценность дорога ему

6) каузация: (4) КАУЗИРУЕТ (7)

[импликации /выводы/:]

7) результат: началось и в МН имеет место состояние: Адр знает о волитивном состоянии и дальней цели Сб-а

8) Вероятный результат: Сб совершил Действие

6. АСПЕКТУАЛЬНАЯ ХАРАКТЕРИСТИКА: СВ;

НСВ: КЛЯСТЬСЯ 1: перфектное состояние: предельное [ограничено во времени] {перформатив}

7. ТЕМА: речь

II. ЛЕКСЕМА: ПОКЛЯСТЬСЯ 2 (что факт имеет место)

« — ... так поклянись, что этого не бышо. — Чем хочешь ты,

чтоб я поклялся? — спросил, очень оживившись, развязанный. — Ну, хотя бы жизнью твоею, — ответил прокуратор» (Булг.)

2. МОРФОЛОГИЯ: СВ

3. АКТАНТЫ:

1) X |Сб |Номинатив \Агенс |Лицо

2) У |Об |что+Придат/Прямая речь\Содержание |Пропозиция: описывает Факт

3) Ъ |Периф |Инструментатив Ценность | Лицо/Абстракция: дороги Сб-у

4) Т |Периф Датив Адресат |Лицо/Аудитория

5) V |невыразим | \Способ |Интонация/ др. экспресс. ср-ва

4. Т-КАТЕГОРИЯ: действие: моментальное

5. ТОЛКОВАНИЕ:

0) до КМН Сб считал,что Адр считает Содерж. ложныш;

Сб считал,что если он не скажет2 Адр-у, что Содерж. истинно /скажет 2, не используя Способ/, то Адр не будет считать, что Содержание истинно

1) Адресату важно знать, истинно ли Содержание;

2) волитивное состояние Сб-а: Сб хотел, чтобы Адр считал,

что Содержание истинно

3)

4) в КМН Сб совершил моментальный акт:

5) :используя Способ, Сб сказал 2 Адр-у,что Содержание истинно; сказал 2, что Содержание так же истинно, как то, что Ценность дорога ему

6) (4) КАУЗИРУЕТ (7)

7) результат: началось и в МН имеет место состояние: Адр знает о волитивном состоянии Сб-а

8) вероятный результат: Адр считает, что Содержание истинно и считает, что Сб сказал 2 правду

6. АСПЕКТУАЛЬНАЯ ХАРАКТЕРИСТИКА: СВ

НСВ: КЛЯСТЬСЯ 2: перфектное состояние: не предельное [не ограничено во времени] {перформатив}

7. ТЕМА: речь

3. База данных новых предметных рубрик ПРЕДМНОВ

Данная система тезаурусного типа ведется в Отделе каталогизации и электронный каталогов ФБ ИНИОН с первой половины 90-х годов. В ней описываются предметные рубрики, которые включаются в предметный каталог (ПК) начиная с этого периода. У концептуальный истоков системы стояли сотрудники Отдела С.К.Виленская и

В.А.Глинский; вклад в разработку этого и других лексикографических электронныгх продуктов ИНИОН внес М.П.Данилов; в настоящее время в развитии системы ПРЕДМНОВ принимает участие весь коллектив Отдела, постоянно пополняющий ПК новыши рубриками (2—

4).

Первоначально планировалось, что данная БД станет прообразом национального авторитетного файла ПР по гуманитарным и со-циальныш наукам (2, 3), но затем пальма первенства в этой деятельности перешла к РНБ, и ПРЕДМНОВ фактически осталась локальной справочной информационной системой, привязанной к конкретному библиотечному фонду.

Запись в БД соответствует оформлению разделителя в традиционном «бумажном» предметном каталоге ИНИОН. Формат в целом близок к коммуникативным форматам семейства ИШМАЯК для ПР. Уникальным заголовком записи в общем случае служит комплекс «Рубрика с двумя вложенными подрубриками»; указываются их смысловые роли: тематическая рубрика, персоналия, географическая рубрика, хронология, формальная подрубрика; приводятся коды рубрикатора ГАСНТИ, иноязычные эквиваленты главной заголовочной рубрики (пока это поле реально заполняется только для иностранных персоналий, но в дальнейшем возможен и английский перевод тематических рубрик); отражается принадлежность рубрики к некоторым прагматически выделенным тематическим разделам (таким, как «Политические партии», «Вторая мировая война» и др.).

Указываются и некоторые формальные данные о рубрике — коды каталогизатора и редактора, дата ввода.

Важный раздел записи — зона тезаурусных связей описываемого комплекса: гиперонимы («ссышки от»), гипонимы («ссышки к»), неканонические синонимы («отсылки»); ссылки в общем случае также производятся на комплекс из рубрики с двумя подрубриками (хотя на практике вторая подрубрика бывает задействована довольно редко). Кроме того, имеется зона справочной информации о рубрике: справки, справки-отсылки («см. также»), примечания; у всех есть внутренние подполя для размещения рубрик, к которым отсылают справки и которые в принципе могут служить точками перехода. Предусмотрен и другой, упрощенный вариант формата — для случаев, когда заголовком записи служит отсылочная рубрика, а запись содержит ссышку на каноническую.

Тезаурусные связи в данной (библиотечной) системе понимаются несколько шире, чем в чисто терминологических системах. Критерием связывания двух рубрик может выступать не только иерархия самих терминов, но и соответствие между литературой, реально размещаемой в рубриках с этими названиями. Кроме того, связь между рубриками, классифицируемыми как вышестоящая и нижестоящая по отношению к данной, может быть проведена по разным аспектам описываемого понятия, так что иерархия в ряде случаев получается нестрогой.

Примеры записей БД ПРЕДМНОВ можно видеть в табл. 3. Словарная база такого типа может быть полезна читателям при библиографическом поиске, может служить ориентиром в предметиза-торской деятельности других заинтересованные библиотек (как в форме печатных изданий, так и виде Интернет-версий), использоваться в терминологических исследованиях (в частности, диахронических, ведь в числе изначальныгх целей создания данного продукта бышо отражение резких терминологических изменений в гуманитарных и социальных науках, наблюдаемых в постсоветскую эпоху). Разумеется, важна эта система и для самих разработчиков — предмети-заторов ИНИОН, поскольку способна помочь в организации ряда конкретных процедур ведения ПК.

В перспективе, при наличии определенныгх человеческих и материальных ресурсов, данная система, пока что охватывающая только «новейшую» часть ПК ФБ ИНИОН, может быть дополнена описанием более старых (но в тех или иных отношениях актуальных) масси-

вов ПР и в таком обогащенном виде влиться в состав ресурсов электронного каталога.

Наряду с данной, более или менее обстоятельной и «объемной» информационной системой (на конец 2002 г. она насчитывала около 4 тыс. записей) и как бы в помощь ей в Отделе ведется дополнительная "малая" база данный, где в краткой форме фиксирующая решения методических совещаний отдела, на который обсуждаются и утверждаются описания новыгх рубрик. Данная небольшая система, предназначенная для внутренних нужд коллектива предметизаторов, в определенной мере повышает оперативность ведения и самого ПК, и его частичного электронного «слепка» — БД ПРЕДМНОВ.

При всем этом ПРЕДМНОВ (как, по-видимому, и другие отечественные информационные продукты, создаваемые в бюджетных организациях) нуждается в дополнительных стимулах к развитию, в первую очередь, материальных.

Таблица 3

Примеры записей БД ПРЕДМНОВ -описаний предметных рубрик

1. Роль= Персоналия | Рубрика: Нилус Сергей Александрович ДАТА ВВОДА: 28.01.1999 АВТОР: 13

ИНДЕКСЫ: 1709 ССЫЛКА ОТ: Церковь

— Россия

— — Биографии Писатели русские

СПРАВКА: русский религиозный писатель, 1862—1929

2. Роль= География | РУБРИКА: Украинская ССР ДАТА ВВОДА: 28.01.1999 АВТОР: 09 ИНДЕКСЫ: 0319

ССЫЛКА ОТ: Украина ССЫЛКА К: Украина

СПРАВКА: В рубрике собирается литература об административном делении, границах, Конституции и т.п. за период с 1917 по 1991 г. Остальной материал, включая литературу по истории, военной истории, культуре, экономической истории и т.п., см. в рубрике:

* Украина

3. Роль= Тема | Рубрика: Информационные войны ДАТА ВВОДА: 1.10.2002 АВТОР: 18 ИНДЕКСЫ: 1945

ССЫЛКА ОТ: Идеологическая борьба Идеологическая экспансия Информационная безопасность Информационная политика Информационный империализм ОТСЫЛКА: Войны, информационные ССЫЛКА К: Дезинформация Массовое сознание — Манипулирование Средства массовой информации и политика

Список литературы

1. Модуль универсального сетевого языка (и]ЧЬ) в составе системы ЭТАП-3 / Богуславский И.М., Иомдин Л.Л., Крейдлин Л.Г. и др. // Труды Международного семинара Диалог'2000 по компьютерной лингвистике и ее приложениям. — Протвино, 2000. — Т. 2. — С. 48— 58.

2. Технология построения авторитетного файла предметных рубрик в ИНИОН РАН / Виленская С.К., Глинский В.А., Лейбович В.Л. и др. // Библиотеки и ассоциации в меняющемся мире: новые технологии и новые формы сотрудничества: Материалы 4-й Международной конференции «Крым-97». — Судак: ГПНТБ России, 1997. — Т. 2. — С. 626—628.

3. Виленская С.К. Некоторые соображения по созданию национальной версии авторитетного файла предметных рубрик // Предметный поиск в традиционных и нетрадиционных информационно-поисковых системах. — М., 1998.

4. Виленская С.К., Глинский В.А. Предметный каталог Фундаментальной библиотеки ИНИОН РАН: История и перспективы развития на основе информационных технологий // Библиотечно-информационное обеспечение в области социальных и гуманитарных наук на пороге XXI века. — М., 1999. — С. 55—67.

5. Воскресенский А.Л., Воскресенский В.А., Семенова-Флюр В.Э. Интернет-версия Каталога российских коллективов и разработок в области автоматизированной обработки речи и текстов на естественном языке // Труды Международного семинара Диалог'2001 по компьютерной лингвистике и ее приложениям. — Аксаково,

2001. — Т. 2. — С. 64—73.

6. Методы автоматического построения специализированного тезауруса / Герасимов М.Б., Пунтиков Н.П., Перегудова М.В. и др. // Труды Международного семинара

Диалог'2000 по компьютерной лингвистике и ее приложениям. — Протвино,

2000. — Т. 2. — С. 86— 98.

7. Городкова Н.В., Рахилина Е.В. О валентной структуре предметных имен // НТИ. Сер. 2. — 2000. — N 3. — С. 25— 36.

8. Зализняк А.А., Шмелев А.Д. Об аспектологическом словаре русского языка // Труды Международного семинара Диалог'2000 по компьютерной лингвистике и ее приложениям. — Протвино, 2000. — Т. 1. — С. 82— 87.

9. Зализняк А.А., Шмелев А.Д. Новые материалы к аспектологическому словарю русского языка // Компьютерная лингвистика и интеллектуальные технологии: Труды Международного семинара Диалог'2002. — Протвино, 6—11 июня 2000 г. — М.: Наука, 2002. — Т. 1. — С. 134— 144.

10. Информационно-поисковый тезаурус ИНИОН по экономике и демографии. — М.: ИНИОН РАН, 2001. — 493 с.

11. Казакевич О. А. Мультимедийная база данных исчезающего языка // Труды Международного семинара Диалог'2001 по компьютерной лингвистике и ее приложениям. — Аксаково, 2001. — Т. 1. — С. 108— 110.

12. Красильщик И.С., Рахилина Е.В. Предметные имена в системе «Лексикограф» // НТИ. Сер. 2. М., 1992. — № 9.

13. Кустова Г.И., Падучева Е.В. Словарь как лексическая база данных. — Вопр. языкознания. — М., 1994. — N 3. — С. 96— 105.

14. Леонтьева Н.Н. Категоризация единиц в русском общесемантическом словаре (РОСС). // Труды Международного семинара Диалог'98 по компьютерной лингвистике и ее приложениям. — М., 1998. — Т. 2. — С. 519— 532.

15. Леонтьева Н.Н. К теории автоматического понимания естественных текстов. Ч. 2: Семантические словари: состав, структура, методика создания. — М.: Изд-во Моск. ун-та, 2001. — 41 с.

16. Леонтьева Н.Н., Семенова С.Ю. Об отражении полисемии в прикладном семантическом словаре // Компьютерная лингвистика и интеллектуальные технологии: Труды Международного семинара Диалог'2002. — Протвино, 6—11 июня 2000 г. — М.: Наука, 2002. — Т. 2. — С. 489— 496.

17. Лукашевич Н.В., Добров Б.В. Тезаурус для автоматического концептуального индексирования как особый вид лингвистического ресурса // Труды Международного семинара Диалог'2001 по компьютерной лингвистике и ее приложении -ям. — Аксаково, 2001. — Т. 2. — С. 273— 279.

18. Мальковский М.Г., Соловьев С.Ю. Универсальное терминологическое пространство // Компьютерная лингвистика и интеллектуальные технологии: Труды Международного семинара Диалог'2002. — Протвино, 6—11 июня 2002 г. — М.: Наука,

2002. — Т. 1. — С. 266—270.

19. Модина Л.С., Шаляпина З.М. Принципы организации лингвистических знаний в объектно-ориентированной модели лексико-морфологической системы японского языка // Труды Международного семинара Диалог'95 по компьютерной лингвистике и ее приложениям. — Казань, 1995. — С. 198—205.

20. Нариньяни А.С. Кентавр по имени Теон: тезаурус + онтология // Труды Международного семинара Диалог'2001 по компьютерной лингвистике и ее приложениям. — Аксаково, 2001. — Т. 1. — С. 184— 188.

21. Нариньяни А.С. Теон-2: от тезауруса к онтологии и обратно // Компьютерная лингвистика и интеллектуальные технологии: Труды Международного семинара Диалог'2002 (Протвино, 6—11 июня 2002 г.). — М.: Наука. — Т. 1. — С. 307— 313.

22. Падучева Е.В. О роли метонимии в концептуальных структурах // Труды Международного семинара Диалог'99 по компьютерной лингвистике и ее приложении-ям. — Таруса, 1999. — С. 215— 225.

23. Падучева Е.В. О семантической деривации: слово как парадигма лексем // Русский язык сегодня. — М., 2000. — С. 395— 417.

24. Падучева Е.В. Наблюдатель как Эксперимент «за кадром» // Труды Международного семинара Диалог'2000 по компьютерной лингвистике и ее приложениям. — Протвино, 2000. — Т. 1. — С. 212— 222.

25. Поминов А.В. Некоторые вопросы построения многоязычных автоматических словарей // Труды Международного семинара Диалог'2001 по компьютерной лингвистике и ее приложениям. — Аксаково, 2001. — Т. 2. — С. 318— 322.

26. Предметный поиск в традиционных и нетрадиционных информационнопоисковых системах. — СПб., 2001. — Вып. 15. — 303 с.

27. Светова С.Ю. Этапы создания специализированного словаря для системы ПРОМТ на заказ // Труды Международного семинара Диалог'2001 по компьютерной лингвистике и ее приложениям. — Аксаково, 2001. — Т. 2. — С. 347— 352.

28. Семенова С.Ю. Прилагательные в семантическом словаре одной прикладной системы // Труды Международного семинара Диалог'98 по компьютерной лингвистике и ее приложениям. — М., 1998. — С. 553— 564.

29. Семенова С.Ю. Наречия и предикативы в прикладном семантическом словаре // Труды Международного семинара Диалог'99 по компьютерной лингвистике и ее приложениям. — Таруса, 1999. — С. 256—264.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

30. Семенова С.Ю. Семантические поля словаря РОСС: опыт заполнения, анализ дескриптивных возможностей. (Материалы к унификации словарных описаний) // Труды Международного семинара Диалог'2000 по компьютерной лингвистике и ее приложениям. — Протвино, 2000. — Т. 2. — С. 308— 316.

31. Семенова С.Ю. Порождение текста как выход из хаоса (в печати).

32. Сокирко А.В. Обзор зарубежных систем автоматической обработки текста, использующих поверхностно-семантическое представление, и машинных семантических словарей // НТИ. Сер. 2. - М., 2000. - № 2. - С. 1- 14.

33. Сокирко А.В. Семантические словари в автоматической обработке текста: По материалам системы ДИАЛИНГ: Автореф. ... дис. канд. техн. наук. - М., 2001. -26 с.

34. Трушков Д.Л. Создание базы данных в среде MS Access как переходный этап к SQL на примере базы данных по языкам РФ // Труды Международного семинара Диалог '2001 по компьютерной лингвистике и ее приложениям. - Аксаково,

2001. - Т. 2. - С. 353- 355.

35. Цинман Л.Л., Сизов В.Г. Лингвистический процессор ЭТАП: дескрипторное соответствие и обработка метафор // Труды Международного семинара Диалог'2000 по компьютерной лингвистике и ее приложениям. - Протвино, 2000. - Т. 2. -С. 366- 369.

36. Лексико-семантическая информация в словаре для автоматического перевода (в рамках сущностного подхода к лингвистическому описанию) / Шаляпина З.М., Канович А.В., Костыркин А.В. и др. // Материалы 3-й международной школы-семинара «Словари в современном мире». - Иваново, 2000.

i Надоели баннеры? Вы всегда можете отключить рекламу.