© Вестник Военного университета. 2012. № 2 (30). С. ?- ?.
Поветкина Юлия Васильевна, ассистент кафедры германских языков и методики их преподавания
института иностранных языков ФГБОУ ВПО «Рязанский государственный университет им. С.А. Есенина», г. Рязань.
390000, г. Рязань, ул. Свободы, д. 46.
Тел.: (4912) 28-13-14. E-mail: [email protected]
Поветкина Ю.В.
КРИТИЧЕСКИЙ АНАЛИЗ СУЩЕСТВУЮЩИХ ЛИНГВИСТИЧЕСКИХ МОДЕЛЕЙ
«Язык, будучи средством коммуникации и одновременно средством реализации мысли, должен в своем статическом и динамическом проявлении, в своих формах и их применении отражать закономерности мыслительного процесса, который в свою очередь отражает явления объективной действительности», - отмечал И.Р. Гальперин [3, с. 20]. Однако язык, оставаясь главным «средством реализации мысли», тем не менее, не позволяет исследователям увидеть его механизмы непосредственно в действии, что вынуждает лингвистов строить образ объекта (на основе сопоставления исходных и конечных данных выдвигать гипотезу о его возможном устройстве).
Естественный язык является сложнейшим объектом для моделирования1, в то же время попытки исследования текста с помощью моделей предпринимались многими учёными. Необходимо отметить, что изучение коммуникативной природы языка вызвало к жизни множество направлений, применяющих метод моделирования главным образом с позиции сферы общения. Ведь с помощью моделирования можно воссоздавать не только коммуникационную составляющую языка, но и анализировать различные происходящие в нём процессы, а также моделировать саму языковую структуру.
Цель данной статьи - выделить и описать существенные признаки наиболее известных лингвистических моделей, используемых в практических реализациях, и привести оценочные суждения автора, сделанные на основании результатов критического анализа каждой из них.
1 Сущность моделирования заключается в реализации построенной гипотезы в виде логического устройства, способного перерабатывать некоторый материал так же, как это делает реальный механизм в естественных условиях, и естественный язык вполне может выступать в качестве объекта моделирования. - Ю.П.
В качестве объекта для анализа были выбраны модели, предлагающие варианты исследования языковой системы в целом и структуры связного текста в частности. Анализ проводился на основе параметров, предложенных Р. Шенком2.
В модели порождения по непосредственно составляющей (далее - модель порождения по НС) для анализа предложений применяются правила свёртывания по НС, получаемые в синтаксической модели исследования, но только обращённые и в обратном порядке. Варианты таких правил фактически используются в большинстве разрабатываемых и уже действующих моделей порождения по НС. Наиболее интересной из них, на взгляд автора, является модель, предложенная В. Ингве [4, с. 126-138]. Она состоит из грамматики (конечного неупорядоченного множества правил развертывания по НС) и механизма (вычислительной машины, состоящей из четырех взаимосвязанных частей).
В начале порождающего процесса символ засылается в решающее устройство, а оно подает поступивший в него символ в устройство вывода для печати и обращается к грамматике, хранящейся в постоянной памяти, чтобы развернуть символ по какому-либо из её правил. Все порождаемые предложения обязаны быть «грамматически правильными», но не обязаны быть осмысленными, что приводит к порождению таких предложений, как «Не has four polished sand-domes» - «У него (человека) есть четыре блестящих песчаных купола» или «Engineer Small is polished» - «Инженер Смол отполирован» [4, с. 131]. Из этого следует, что модель В. Ингве, реализованная машиной, довольно успешно строит грамматически правильные предложения на ЕЯ, но эта грамматическая модель неизбежно является лишь гипотезой о том, как устроен в действительности механизм, работу которого она имитирует. Из этого следует вывод, что модель В. Ингве не учитывает смысловую составляющую языка.
Модель порождения по НС может быть верной лишь в определённых
2 Р. Шенк считал, что, во-первых, моделирование естественного языка предполагает наличие словаря и синтаксиса. Применительно к каждому из них в отдельности также существуют критерии:
- расклассифицированность словаря (отражает ли он глубинную семантику языка);
- количество единиц синтаксиса (описывают ли указанные правила способы сочетаемости и преобразования единиц);
во-вторых, степень формализованности модели (укладывается ли она в схему, которую можно изобразить наглядно);
в-третьих, полнота схематической информации (легко ли читается формула, насколько добны выбранные обозначения и как они зрительно расположены) [10].
рамках, т.к. является предположением о возможном устройстве механизма порождения текстов. Однако она не вполне адекватна структуре языка в целом, поскольку не может породить некоторых типов предложений, а порождаемые предложения не всегда семантически корректны. Данная модель, направленная на осуществление машинного перевода, предлагает использование достаточно формализованной структуры, не предполагающей, однако, деления на словарь и синтаксис и не дающей полного представления о семантической структуре используемых единиц.
Еще одной лингвистической моделью является модель семантических падежей (ролей). Ее разработчик Ч. Филлмор принял гипотезу компонентной структуры значения и идею последовательного разложения смысла слова на все более простые компоненты вплоть до атомов смысла и, разделяя общепринятые взгляды на аргументную структуру предиката, пришёл к выводу, что необходимо указывать не только число аргументов данного предиката, но и их роли (их семантическое содержание): например, агент, объект, пациенс, источник и т.д. [8].
Ч. Филлмор также предложил более детальную концепцию лексического значения, выделив две сущности в прежде едином понятии собственно значения. Он выделил значение и пресуппозицию. Различия между пресуппозицией и значением в собственном смысле слова проявляются, например, в различном влиянии на них отрицания. В область действия отрицания попадает только значение, а не пресуппозиция. Так, например, в высказывании «Петр не холостяк» не утверждается, что Петр не мужчина. Другими словами, если считать, что значение слова «холостяк» примерно таково: «взрослый мужчина, никогда не состоявший в браке», то отрицанием отрицается только вторая часть (после запятой), которая и является собственно значением [8]. Полученный Ч. Филлмором результат позволяет утверждать, что пресуппозиции (входящие в лексическое значение) включают три принципиально различных класса семантических элементов:
- элементы экстралингвистических знаний о конкретном событии, которые ни при каких условиях не могут быть включены ни в толкование лексических значений слов, ни в описание их сочетаемости;
- элементы, которые могут быть включены непосредственно в толкование, но не в описание сочетаемости;
- элементы, которые могут быть включены скорее в описание сочетаемости
слов, чем в толкование их значения.
Основным результатом описанных исследований Ч. Филлмора явился пересмотр обычной схемы словарной статьи в толковом словаре. Он считает словарь основным средством задания семантических (ролевых) структур и правил их перевода в поверхностные структуры. Таким образом, разделив словарь и синтаксис в своей модели, Ч. Филлмор сосредоточил основное внимание на словаре, дав подробное описание его единицам, и на их основе вывел синтаксические правила сочетаемости, однако, не указывая подробно все способы сочетаемости и правила преобразования единиц.
Разработки модели «семантик предпочтения» (далее - СемП) проводились М. Уилксом, который ставил перед собой ряд задач. Модель, по его мнению, должна была: анализировать связные тексты; принимать для анализа любые осмысленные предложения; формализовать семантический анализ; разработать машинно-ориентированную процедуру анализа; выделять структурированную форму сообщения, выражающую смысл предложения; уметь обрабатывать предложения, содержащие неизвестные слова.
Для выражения сущностей, выделяемых моделью СемП, вводятся понятия «семантической формулы» (для определения смысла слова), «образца» сообщения и «правил следования» (для выражения правил семантической совместимости сообщений) [7, с. 38-43]. Семантические формулы, образцы и правила следования выражаются с помощью семантических элементов, классификаторов и маркеров. Формула представляет собой заключенные в скобки семантические элементы. М. Уилкс определил правила, по которым из элементов образуется формула, и правила ее интерпретации. В формулу входят не слова ЕЯ, а элементы (т.е. атомарные смыслы).
В ходе анализа текста данной моделью сначала с помощью специальных слов-маркеров выполняется фрагментация текста, затем словам анализируемого фрагмента текста приписывают из словаря все их значения. Далее (без использования морфологии и синтаксиса, что является, на наш взгляд, принципиальным недостатком данной модели) на анализируемый фрагмент текста поочередно накладываются простые шаблоны, известные системе, затем применяются специальные правила расширения, преобразующие простой образец в полный образец путём добавления слов, не вошедших в образец. После того, как получен полный образец, начинается обработка очередного
предложения. После получения полных образцов для всего фрагмента начинает работать процедура по установлению их семантической близости. В результате анализа формируется окончательное представление обрабатываемого текста.
Недостатком модели СемП, по мнению автора, является то, что она в основном ориентирована на анализ. Более поздние исследования М. Уилкса содержат развитие модели СемП за счёт использования сценариев и фреймов1. Данная модель подразумевает наличие формализованной структуры и направлена на машинно-ориентированную процедуру анализа. Она выполняет поэтапный анализ текста, начиная с его фрагментации, но не предполагает деления на словарь и синтаксис.
Модель «смысл-текст» (далее - СТ), предложенная И.А. Мельчуком, ориентирована, главным образом, на реализацию с помощью ЭВМ. Для описания существа и степени семантических сходств лексически различных слов авторами был предложен язык семантических множителей.
Смысл употребляется авторами теории как инвариант всех синонимичных преобразований, т.е. то общее, что имеется в равнозначных текстах [6]. Семантический уровень в виде семантического представления изображает содержание связного фрагмента текста без расчленения на фразы и слова. Это представление понимается как запись смысла.
Синтаксический уровень в модели СТ расчленен на два подуровня: глубинный синтаксис и поверхностный синтаксис. Глубинно-синтаксическое представление состоит из дерева синтаксического подчинения и узлов в виде знаменательных словоформ; сведений о коммуникативной организации и просодической характеристике фразы; сведений о тождестве именных групп, входящих в глубинно-синтаксическое представление; сведений о группировках слов, невыразимых в виде дерева зависимостей. Морфологический уровень модели СТ состоит из двух подуровней: глубинной морфологии и поверхностной морфологии.
В модели «смысл-текст» переходы от одного уровня представления высказывания к другому уровню выполняются тремя компонентами: семантической, синтаксической и морфологической. Семантическая компонента выполняет перефразирование с помощью лексических правил. При выполнении
1 В статье не приводятся описания данных работ, так как они имеют больше отношения к представлению знаний, чем к модели языка. - Ю.П.
преобразований широко используется разнообразная информация из словарной статьи толково-комбинаторного словаря. В задачу синтаксической компоненты входит перевод глубинно-синтаксического представления в глубинно-морфологическое представление фразы. Морфологическая компонента, в свою очередь, осуществляет преобразование глубинно-морфологического представления каждой словоформы в фонемную транскрипцию словоформы [5].
Существенными особенностями этого языка является «атомное» строение смысла, высокая структурированность значения и наличие элементарных правил преобразования. Однако у данной модели имеется ряд ограничений, несколько сужающий сферу её применения:
- хотя она задумана как модель, осуществляющая двустороннее преобразование, детальная проработка осуществлена в основном для синтеза (смысл текст);
- в модели описано исчисление, т.е. набор разрешений и запрещений, а не алгоритм, определяющий, что и как делать;
- язык моделируется как преобразователь «смысл текст» вне связи с другими аспектами;
- модель разработана только для отдельного предложения, а не для связного текста.
Попытка создать лингвистическую модель, которая бы точно описала внутренние отношения, существующие между словами в естественном высказывании, была предпринята и У.Л. Чейфом. Определяя язык как «систему, которая весьма сложным образом осуществляет посредничество между миром значения и миром звука» [9, с. 27], он рассматривает семантическую структуру как главный компонент языка. Семантическая модель У.Чейфа базируется на положении о главенстве глагола в предложении. На основе этого положения строятся и словарь, и синтаксис семантического языка. Глагол может быть определён, по У. Чейфу, в терминах таких семантических единиц, как состояние, процесс, действие и амбиентность [9, с. 93]. В качестве правил синтаксиса он приводит семантические конфигурации, которые каждый из видов глаголов может образовывать с существительными. У. Чейф делает вывод, что все процессы, происходящие в языке, можно разделить на три главных типа: символизация, с помощью которой постсемантические единицы в поверхностной структуре превращаются в исходные фонологические конфигурации, фонологические процессы, которые в конечном счёте приводят к образованию фонетической структуры, и самый первый процесс - постсемантический, посредством которого семантическая структура превращается в поверхностную структуру.
У. Чейф описывает не только глубинную, но и поверхностную структуру языка, вынося её отдельно. Они обе укладываются в схемы, которые можно изобразить наглядно. Несколько неясным остается только соотнесение (наложение) этих схем и способы их комбинирования в единое целое. Схемы обеих структур, представляющих собой единство лексических единиц, достаточно легки для прочтения и, несмотря на некоторую избыточность формализованности поверхностной структуры, легко восстанавливают отношения, существующие между данными понятиями в ЕЯ.
Теория концептуальной зависимости (далее - КЗ) также относится к числу наиболее известных. Разработка данной модели осуществлялась группой исследователей под руководством Р. Шенка. Именно он описал процессы понимания естественного языка человеком и искусственной системой и создал на её основе практическую систему программирования. Понимание языка, согласно этой теории, основывается, прежде всего, на формулировке внутреннего смыслового представления текстов на естественном языке. Такое представление, с одной стороны, является конечным результатом автоматического анализа текста, а с другой - служит отправной точкой при синтезе ответных высказываний на естественном языке.
Задачи данной модели трактуются следующим образом:
- по тексту в естественном языке требуется получить его концептуальное (семантическое) представление;
- модель должна обеспечить понимание и интерпретацию не только грамматически правильных фраз, но и аномальных;
- смысл должен представляться в терминах «атомов» смысла, чтобы вскрывать смысловые сходства и различия между словами;
- сходные фразы должны получать сходные семантические представления;
- объектом лингвистического исследования является текст, а не отдельно взятая фраза;
- необходимо создание действующих моделей, решающих задачи автоматического перефразирования машинного перевода.
Р. Шенк вводит понятие концептуальной структуры, состоящей из понятий (концептов) и отношений между этими понятиями и описывает набор примитивных действий - «актов». (Однако вопросу представления состояний в модели КЗ уделено значительно меньше внимания, чем вопросу представления
действий.) Категории сочетаются определёнными способами (правилами концептуального синтаксиса) при помощи модификаторов концептуализаций. В основе системы лежит представление смысла фраз естественного языка в терминах концептуальной зависимости. Р. Шенк рассматривает проблему обработки естественного языка в трёх аспектах: отображение предложений в их смысловое представление; хранение в памяти и осуществление умозаключений относительно полученного смысла; перевод смыслового представления на естественный язык [10, с. 14].
Необходимо отметить, что основными семантическими средствами, используемыми в модели КЗ, являются: знания о языке и об окружающем мире; детальная классификация английских слов и комплекс правил, позволяющих делать умозаключения об обрабатываемом тексте на основе знаний модели. Р. Шенк чётко разделяет в своей модели словарь и синтаксис, предлагая достаточно формализованную структуру для записи смысла. Анализируя поверхностные и глубинные структуры предложений естественного языка, он выстраивает точную и достаточную модель, с помощью которой можно смоделировать процессы человеческого общения. Хотя число концептуальных категорий и правил концептуального синтаксиса, по Р. Шенку, ограничено, а вся деятельность человека сводится к одиннадцати элементарным физическим актам, данная модель позволяет описывать любые понятия естественного языка.
Создание Ю.Д. Апресяном языка семантических множителей (далее -СМ) также явилось попыткой построить языковую модель, которая бы отразила все свойства естественного языка. Проанализировав предыдущие попытки, Ю.Д. Апресян пришел к собственной семантической модели (семантическому языку) как средству толкования лексических значений. По определению Ю.Д. Апресяна, «язык в своей основной функции есть средство общения, средство кодирования и декодирования определенной информации» [1, с. 3]. Он попытался построить фрагмент такой системы понятий, которая могла бы послужить теоретической основой для словаря нового типа, учитывающего все особенности слов данного языка. В состав словаря семантического языка входят: имена элементарных предикатов (аналоги глаголов естественного языка); имена элементарных предметов (аналоги существительных естественного языка); логические связки (или, и, не); имена предметных переменных (А, В, С).
Необходимо отметить, что Ю.Д. Апресян создавал свой семантический язык
как вспомогательный фактор при составлении словаря нового типа. Именно поэтому, несмотря на предложенное деление на синтаксис и словарь, большее внимание уделено автором словарному составу языка. Его словарь полностью охватывает все сферы естественного языка. Что касается синтаксиса, то правилам, определяющим сочетаемость лексических единиц с другими единицами, Ю.Д. Апресян даёт название «семантических валентностей» слова. По его мнению, для теоретической семантики представляют интерес активные семантические валентности слова, которые присоединяют к нему синтаксически зависимые слова, каждому из кторорых соответствует переменная в толковании его значения: Sub (субъект); Adr (адресат); Loc (место) и т.д. [2].
Ю.Д. Апресян также создал схему (так называемое «дерево»), в рамках которой находит своё графическое отображение то или иное предложение естественного языка, что позволяет получить полную информацию о лексических единицах, входящих в состав данного предложения, и об отношениях между ними. Такая схема легко трансформируется обратно в предложение естественного языка и может быть легко прочитана как машиной, так и человеком, интересующимся строением глубинных слоёв языка.
В начале статьи отмечалось, что попытки исследовать текст с помощью лингвистических моделей и использовать их в практических реализациях как с коммуникативной точки зрения, так и с точки зрения его структуры предпринимались многими учёными. Анализ приведенных в статье моделей показал, что каждая группа лингвистов подходила к формулированию модели особо, выбирая ведущий критерий. Каждая из вышеназванных лингвистических моделей обладает рядом существенных характеристик, своих собственных преимуществ и недостатков. И хотя идеальная модель или семантический язык, которые бы полностью отразили особенности употребления слов конкретного языка, особенности их сочетаемости друг с другом и которые бы точно описали внутренние отношения, существующие между словами в естественном высказывании, так и не были созданы, любая из вышеперечисленных моделей может быть использована в большей или меньшей степени эффективно для
описания предложений естественного языка.
* * *
1) Апресян Ю.Д. Идеи и методы современной структурной лингвистики. Краткий очерк. М., 1966.
2) Апресян Ю.Д. Лексическая семантика. Синонимические средства языка. М., 1995. 288 с.
3) Гальперин И.Р. Текст как объект лингвистического исследования. М., 1981.
4) Ингве В. Гипотеза глубины // Новое в лингвистике. Вып. 4. М., 1965. С. 126-138.
5) МельчукИ.А. Русский язык в модели «Смысл ^ Текст». Москва-Вена, 1995. 682 с.
6) Мельчук И.А. Опыт теории лингвистических моделей «Смысл ^ Текст». 2-е изд. М., 1999. 346 с.
7) Попов Э.В. Общение с ЭВМ на естественном языке. М., 2004.
8) Филлмор Ч. Дело о падеже // Новое в зарубежной лингвистике. Вып. X. М., 1981. С. 369-495.
9) Чейф У.Л. Значение и структура языка. М., 1975. 432 с.
10) Шенк Р. Обработка концептуальной информации. М., 1980. 360 с.