Лексико-семантическая основа информационно-поискового тезауруса /ИПТ/ метаязыка лингвистики
С.В. Лесников (Шр://ЛСВ.РФ), Сыктывкарский гос. университет, доц. каф. математического моделирования и кибернетики Института точных наук и информационных технологий СыктГУ, [email protected]
В статье рассмотрена лексико-семантическая основа моделируемого гипертекстового /ИПТ/ метаязыка лингвистики. ИПТ создается при финансовой поддержке Российского фонда фундаментальных исследований по проекту N11-07-00733 (2011-2013) (научный руководитель -С.В. Лесников).
Моделирование, разработка, создание, конструирование лексико-семантической основы ИПТ обязательно включает следующие основные этапы: 1. Формирование Генерального (в т.ч. - базового) словника -отбор лексических единиц. 2. Нормализация лексики. 3. Систематизация и группировка лексических единиц. 4. Построение классификационных схем понятий. 5. Организационное оформление лексики ИПТ [1] ( 1 Гендина Н.И., 1991, с.24).
Идея Генерального словника русского языка восходит к научной программе "Машинный фонд русского языка /МФРЯ/" (главный конструктор Владислав Митрофанович Андрющенко): первым компонентом МФРЯ "является Генеральный словник русских словарей, который может быть создан как семейство однородных баз данных на основе Сводного словника, созданного в Словарном секторе Института русского языка АН СССР, и других "словнико-подобных" словарей, таких, как "Грамматический словарь русского языка" А.А. Зализняка, Орфографический словарь и др. Объектом хранения в этой базе данных является вокабула, т.е. слово, являющееся потенциальным заголовком какой-либо словарной статьи и именем определенного лексического значения, а его атрибутами - номера или идентификаторы значений, а значениями атрибутов - имена и входы баз данных, в которых данное слово или его формы зафиксированы в качестве значений атрибутов каких-либо объектов - словарных статей, текстов, грамматических правил, статистических сводок, научных статей и т.п. Очевидно, что многоаспектный поиск по заданным значениям атрибутов с соответствующими логическими условиями может давать ответы на такие запросы, как: "Найти перечень словарных статей определенных словарей, для которых имеется информация в терминологической базе данных", "Найти значения вокабулы, стилистически маркированные в словарях", "Найти все глаголы с дефектными парадигмами и сопоста-
вить структуры их словарных статей" и т.п." [2]. Андрющенко В.М. Концепция и архитектура МФРЯ / МФРЯ: идеи и суждения. М., 1986. С.31
Формирование Генерального словника - важнейший этап в создании любого ИПТ, т.к. именно лексические единицы являются тем фундаментом, на котором можно смоделировать метаязык лингвистики. Именно от качества выполнения этого этапа во многом зависят как поисковые, так, прежде всего, смыслоразличительные возможности ИПТ, его семантические возможности. Этому этапу обязательно предшествует изучение типологии лингвистики. Необходимо собрать в Генеральный словник не любые слова вообще, а именно «ключевые слова», т.е. слова и словосочетания, несущие наибольшую смысловую нагрузку.
Ключевое слово - это полнозначное слово или словосочетание, являющееся носителем существенной в конкретном тексте (или запросе) информации с точки зрения информационного поиска.
К разряду ключевых слов относятся в первую очередь термины, важнейшими свойствами которых, как известно, является номинатив-ность (способность называть предмет), однозначность, точность, отсутствие экспрессии.
Основы терминоведения и классификация макро- и микрокомпозиционных параметров терминологических толковых справочников представлена в работах таких ученых, как Авербух К.Я., Ахманова О.С., Бергер М.Г., Блинова О.И., Васильева Н.В., Гак В.Г., Гвишиани Н.Б., Герд А.С., Гринев С.В., Даниленко В.П., Иванов А.В., Канделаки Т.Л., Комарова З.И., Котелова Н.З., Крыжановская А.В., Кутина Л.Л., Лей-чик В.М., Маткина И.В., Марчук Ю.Н., Моисеев А.И., Подольская Н.В., Полторацкий А.И., Реформатский А.А., Суперанская А.В., Табанакова В.Д., Циткина Ф.А., Шелов С.Д., Шкатова Л.А.
ТеРМИН (лат. terminus - "предел, граница", англ. term, фр. terme, нем. der Terminus, Fachausdruck, Fachbegriff, Begriff, Fachwort, исп. termine, tecnicismo). Слово или словосочетание специального, научного и/или технического языка, создаваемое (принимаемое и/или заимствуемое) для точного, как правило, однозначного выражения специальных понятий и обозначения специальных предметов. "Термин - это выраженная посредством слова или словосочетания языковая единица, которая представляет собой системно организованный, функционально значимый, семантически целостный, конвенционально воспроизводимый в рамках конкретной научной или производственной сферы и потенциально стандартизируемый элемент лексической системы языка" [3 Иванов А.В., 2005, с.162].
В результате изучения различных областей специальной лексики было установлено, что наряду с терминами существуют и другие специ-
альные лексические единицы, которые были выделены и описаны: но-мены (наименования единичных понятий, а также конкретной массовой продукции, воспроизводимой по одному и тому же образцу заданное число раз) [Винокур Г.О.], арготизмы [Скворцов Л.И.], жаргонизмы (не способны приобретать нормативный характер, и их условность ясно ощущается говорящими) [Гладкая Н.М.], квазитермины [Лейчик В.М.], предтермины (специальные лексемы, используемые в качестве терминов для называния новых сформировавшихся понятий, но не отвечающие основным требованиям, предъявляемым к термину) [Лейчик В.М.], прототермины [Гринев С.В.], профессионализмы [Кузьмин Н.П.], тер-миноиды (используются для называния недостаточно устоявшихся, формирующихся и неоднозначно понимаемых понятий, не имеющих чётких границ и дефиниций) [Хаютин А.Д.], терминоэлементы (международные словообразовательные элементы) [4 Лесников С.В. Основные латинские терминоэлементы].
ТЕРМИНОЭЛЕМеНТ = а) компонент, выделяемый в структуре термина; б) интернациональные морфемы, входящие в состав многих лингвистических терминов; в) значащая часть производного слова (аффикс, интерфиксы, морфема, формант, форматив), регулярно воспроизводимая в готовом виде при использовании уже существующих или создании новых терминов, обусловленная признаками выражаемого термином понятия [5 Васильева Н.В., Виноградов В.А., Шахнарович А.М., 1995, с.154-160]. Ещё в 1976 году С.Г. Бархударов сожалел, что у нас нет словаря международных терминоэлементов [5 Проблематика определений терминов в словарях различных типов, 1976, с.12].
Для нашей предметной области можно выделить как минимум три группы терминов:
1. Специальные термины, употребляемые только в языкознании, являющиеся ее опознавательными знаками, символами. Например, по употреблению в тексте такой группы терминов, как, напр., грамматика, алфавит, фонология, словообразование, морфология, ученый практически безошибочно решит, что речь идет о проблемах лингвистики.
2. Термины смежных отраслей знания, «привлеченные» термины, обозначающие необходимые для данной предметной области понятия из смежных отраслей науки. Они отражают важнейшую закономерность развития современной науки: интеграцию, взаимопроникновение научных идей.
3. Общенаучные термины, бытующие в любой отрасли знания, например: метод, анализ, исследование, объект, справочник, обзор, рукопись, теория, закон и др. т.н. общая лексика.
При моделировании ИПТ приходится всякий раз решать, к какой группе терминов относится то или иное слово, насколько целесообразно
его включение в состав Генерального словника ИПТ, так как пропуск лексических единиц влечет за собой неизбежные потери информации при поиске, а излишнее расширение словарного состава делает его громоздким, неудобным и затрудняющим поиск.
Очевидно, что в первую очередь в состав лексики разрабатываемого ИПТ метаязыка лингвистики включаются термины первой группы. Именно они являются ключевыми. Отсутствие же формальных критериев значимости или незначимости терминов второй и третьей групп для моделируемого ИПТ существенно осложняет этап их отбора.
Связав понятие «лексическая единица» с понятиями «ключевое слово» и «термин», целесообразно указать категории неключевых слов, т.е. слов, которыми можно (на данном этапе исследования) пренебречь в условиях создания лексико-семантической основы ИПТ. К ним относятся служебные слова (частицы, предлоги, союзы, междометия), а также часто употребляемые общенаучные термины типа теория (без конкретизации какая теория), закон, проблема, актуальность, значение и т.п., т.е. термины, не относящиеся непосредственно к понятийному аппарату языкознания.
В качестве важных источников отбора лексических единиц можно назвать следующие: 1) уже существующие, ранее разработанные ИПТ [7-10 Кузнецова И.В., Лесников С.В. Разработка], располагающие фиксированным словарем: таблицы УДК, ББК, списки предметных рубрик, классификаторы, тезаурусы и т.п.; 2) научные терминологические словари, справочники, ГОСТы, словари толковые, энциклопедические и аналогичные нормативно-справочные издания; 3) массив документов по тематике моделируемого ИПТ, объемом несколько тысяч первоисточников (статей, монографий, учебников и т.п.) [11]. Такой объем позволяет получить репрезентативный, представительный массив лексики, достаточно полно характеризующий языкознание; 4) массив запросов, полученных от потенциальных потребителей информации, содержащий, как правило, наиболее новые термины (этот массив предполгается формировать в интерактивном режиме, когда первые вервии ИПТ будут доступны в Интернете).
При моделировании ИПТ все эти источники отбора лексики используются одновременно, в комплексе.
Отобранные в результате анализа лексические единицы образуют Генеральный словник - базовый терминологический массив. Важнейшее требование к формируемому Генеральному словнику - полнота охвата лексических единиц.
Нормализация лексики
По мере того, как лексические единицы (ключевые слова, термины) отбираются и загружаются в реляционную базу лексикографических
данных, возникает задача их единообразной записи, нормализации. Строго говоря, проблема нормализации решается одновременно с отбором лексических единиц, однако для удобства рассмотрения целесообразно нормализацию лексики охарактеризовать как самостоятельный этап создания лексико-семантической основы ИПТ.
Нормализация лексики реализуется посредством двух операций: 1) представлением ключевых слов в единообразной грамматической форме (морфологический уровень нормализации лексики); 2) выявлением синонимии и полисемии (семантический уровень); 3) приведением к единому формату (напр., с целью единообразия в базу лексикографических данных все вокабулы преобразуются в верхний регистр, т.е. всё заглавными буквами, а пробелы в словосочетаниях заменяются на символ «_» (подчеркивания), для того, чтобы терминологическое словосочетания программно обрабатывалось аналогично отдельным словам).
На практике в качестве единой лексической единицы иногда используются устойчивые словосочетания, выражающие целостные (неделимые) понятия, - предлагаем называть их «терминологизмами» (по аналогии с фразеологизмами). Может показаться странным, каким образом появляются такие сочетания, если по определению «термин (позднелат. terminus — термин, от лат. terminus — предел, граница) - это слово или словосочетание, призванное точно обозначить понятие и его соотношение с другими понятиями в пределах специальной сферы. Термины служат специализирующими, ограничительными обозначениями характерных для этой конкретной сферы предметов, явлений, их свойств и отношений. Они существуют лишь в рамках определённой терминологии. В отличие от слов общего языка, термины не связаны с контекстом. В пределах данной системы понятий термин в идеале должен быть однозначным, систематичным, стилистически нейтральным» (БСЭ). ГОСТ 7.25-2001 прямо предписывает, что «4.4.2 Допускается включать словосочетания в словник, если в качестве опорного слова они содержат существительное и если выполнено одно из следующих условий:
— значение словосочетания не выводится из значений его компонентов.
Примеры ЧЕРНЫЙ ЯЩИК, АБСОЛЮТНО ЧЕРНОЕ ТЕЛО, ЦАРСКАЯ ВОДКА».
Однако критериев, позволяющих четко и однозначно отделять устойчивые словосочетания от неустойчивых, в настоящее время не существует, а имеющиеся рекомендации носят неформализованный характер. Чаще всего решение о сохранении словосочетания как отдельной лексической единицы принимается на основании статистиче-
ских данных (наблюдений о частоте встречаемости словосочетания в анализируемом массиве текстов) либо при условии, что в данном ИПТ очень мала вероятность использования компонентов словосочетания по отдельности.
В нашем случае, т.к. в моделируемом ИПТ принято использовать в качестве лексических единиц не только отдельные слова, но и словосо-четания-терминологизмы, возникает необходимость определения порядка записи слов в словосочетании. Применительно к словосочетаниям, состоящим из прилагательного(ных) и существительного(ных) возникает дилемма: использовать прямой или обратный (инвертированный) порядок записи. На этот счет также отсутствуют убедительные и достаточно формализованные критерии, носящие универсальный характер. Решение по этому вопросу принимается индивидуально в каждом конкретном случае составителями ИПТ. Для обеспечения экономичности и единообразия формулировок лексических единиц существуют рекомендации о целесообразности инвертированной формы записи, обеспечивающей выдвижение на первое место в словосочетании существительного. Однако абсолютизировать принцип инверсии нельзя, так как зачастую его использование влечет за собой образование лексических единиц, первое слово которых не выполняет эвристической функции, либо разрушает общепринятый термин.
Уточнение полисемии и омонимии на этапе нормализации лексики достигается двумя способами. Первый, наиболее простой способ заключается в развертывании многозначного слова до словосочетания. Второй способ, именуемый лексикографическим, связан с использованием специальных ограничительных или пояснительных помет. Для устранения полисемии и омонимии могут использоваться следующие типы пояснений, помещаемых в скобках рядом с многозначным словом: - пояснение ЛЕ с помощью синонима; - отнесение ЛЕ к соответствующему разделу (подразделу); отнесение ЛЕ к соответствующей категории; указание на соответствующее ЛЕ родовое понятие; - указание на соответствующие объекты действия.
Систематизация лексики
На этом этапе все отобранные и записанные в стандартной форме лексические единицы необходимо систематизировать, упорядочить, установить между ними смысловые связи, образовать классы близких по значению слов. В силу избыточности естественного языка в составе полученного словника ключевых слов неизбежно будут иметь место слова, находящиеся в отношениях эквивалентности, смысловой близости. Поэтому важнейшей задачей этапа систематизации лексики является установление парадигматических отношений между отобранными
лексическими единицами и построение классов условной эквивалентности.
Класс условной эквивалентности - это совокупность лексических единиц, которые считаются условно синонимичными в данной области знания и используются в данном ИПТ как равнозначные с точки зрения поиска информации. Между ЛЕ, входящими в один класс условной эквивалентности, могут существовать следующие отношения: 1) равнозначности, тождества, выражаемые синонимами; 2) пересечения - частичного совпадения объемов понятий, т.е. отношения, связывающего слова, между которыми существует ассоциативная связь, семантическое родство; 3) подчинения, т. е. отношения типа «род—вид», «целое— часть», «выше—ниже».
Построение классификационных схем понятий
Классификационная схема понятия - это графическое средство фиксирования парадигматических связей между понятиями. Ее основное назначение — обозначение границы того или иного понятия, определение объема, содержания и структуры понятия, установление его связей с другими понятиями. Разработка классификационной схемы включает: выделение наиболее существенных признаков понятия в качестве основания деления; построение частных схем, отражающих взаимосвязь понятий и использующих выделенные признаки. В соответствии с правилами формальной логики деление объема понятий, осуществляемое при построении классификационной схемы, должно быть обоснованным, взаимоисключающим, адекватным по объему, непрерывным.
Классификационные схемы понятий позволяют учитывать действительные связи, существующие между понятиями, получать строго упорядоченную систему понятий, наглядно представлять смысловые отношения, объединяющие лексические единицы ИПТ.
Таким образом, в составе моделируемого ИПТ выделяются логико-лингвистические универсалии, к которым относятся алфавит, лексика, парадигматические и синтагматические отношения.
Знание структуры ИПТ позволяет рационально использовать ИПТ, в частности, проводить сопоставительный анализ источников ИПТ (напр., хронологию появления и фиксации тех или иных терминов в научном обиходе), осуществлять эфективный поиск и решать определенный круг задач в соответствии с выполняемыми ИПТ функциями [12-15].
Литература
1. Гендина Н.И., 1991, с.24. Гендина Н.И. Лингвистическое обеспечение автома-
тизированных библиотечных систем. Алма-Ата: Гылым, 1991. 222с
2. Андрющенко В.М. Концепция и архитектура МФРЯ / МФРЯ: идеи и сужде-
ния. М., 1986. С.31.
3. Иванов А.В., 2005, с.162.
4. Лесников С.В. Базовые латинские терминоэлементы метаязыка лингвистики //
Актуальные проблемы современного научного знания. Пятигорск: ПГЛУиз-дат, 2011. С. 112-118.
5. Васильева Н.В., Виноградов В.А., Шахнарович А.М., 1995, с.154-160.
6. Проблематика определений терминов в словарях различных типов, 1976, с.12.
7. Кузнецова И.В., Лесников С.В. Разработка и описание гипертекстового ин-
формационно-поискового тезауруса по алгебре. Вестник Российского университета дружбы народов. Серия: Информатизация образования. 2011. N3. С.70-76.
8. Roget P.M. Thesaurus of English Words and Phrases. New ed. N.Y., 1964. //
[http://www.gutenberg.org/files/10681/10681 -body.txt]
9. Тезаурус научно-технических терминов. Под ред. Ю.И.Шемакина. М.: Воен-
издат, 1972. 672 с.
10. Герд А.С, Богданов В.В, Буторов В.Д, Роменская В.Ф, Тисенко Э.В, Андреева Е.С Информационно-поисковый тезаурус как объект лексикографии / Структурная и прикладная лингвистика. Межвузовский сб. Вып.1. / Отв. Ред. А.С. Герд. Л.: Наука, 1978. С.160-172.
11. Лесников С.В. Словарь русских словарей. М. : Азбуковник, 2002. 334 с.
12. Лесников С.В. Типология программного обеспечения для компьютерного анализа текстов // Русский язык в современном мире. Биробиджан: Изд-во ГОУВПО "ДВГСГА", 2011. С.80-85.
13. Лесников С.В. Интерактивное моделирование информационно-поискового тезауруса метаязыка науки на персональном компьютере в режиме реального времени // Роль иностранного языка в модернизации современного образовательного процесса. Барнаул: Изд-во "Концепт", 2011. С.69-74.
14. Лесников С.В. Проект конструирования русского тезауруса // Славянские языки и культуры. Иркутск: ИГЛУ, 2011. С.153-163.
15. Лесников С.В. Лесников С.В. Гипертекстовый словарь базовых дефиниций, интерпретаций, объяснений, определений, понятий, пояснений, разъяснений, толкований, трактовок, формулировок, экскурсов и эксцерпций терминов метаязыка лингвистики (языковедения, языкознания) // Медиадискурс и проблемы медиаобразования. Омск, 2011. С.146-151.