Научная статья на тему 'О методах оценки сочетаемости слов в моделях семантического предпочтения'

О методах оценки сочетаемости слов в моделях семантического предпочтения Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
349
39
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Петрова Наталья Петровна

В статье охарактеризованы структура и особенности моделей семантического предпочтения. Рассмотрены методы оценки сочетаемости слов русского языка на основе эвристически определяемых числовых показателей. Указанные методы могут быть использованы при изучении лингвистических моделей и при решении прикладных задач компьютерной лингвистики.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «О методах оценки сочетаемости слов в моделях семантического предпочтения»

зависящих от геометрии полости и ие зависящих от движения тела, и затем к расчету коэффициентов, характеризующих влияние жидкости на движение тела.

Вторая, динамическая, часть задачи сводится к решению уравнений движения твердого тела. Здесь существенным является то обстоятельство, что на характер возму-

щенного движения никаких ограничений ие накладывается. Этот подход делает возможным широкую постановку различных задач оптимального управления, определения оптимальных конструктивно-технологических параметров динамической системы, изучения устойчивости движения управляемого объекта.

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. Беллман Р. Некоторые вопросы математической теории управления / Р. Беллман, И. Гликсберг, О. Гросс. - М. : ИЛ, 1962. - 336 с.

2. Беллман Р. Прикладные задачи динамического программирования / Р. Беллман, С. Дрейфус. -М. : Наука, 1965. - 458 с.

3. Гурченков А. А. Вихревые движения жидкости в полости вращающегося тела / А. А. Гур-ченков. - М. : Нар. учитель, 2001.

4. Гурченков А. А. Момент сил внутреннего трения быстровращающегося цилиндрического сосуда, заполненного вязкой жидкостью / А. А. Гурченков // Изв. вузов. Приборостроение. - 2001. - Т. 44, № 2. - С. 44-49.

Поступила 26.10.10.

О МЕТОДАХ ОЦЕНКИ СОЧЕТАЕМОСТИ СЛОВ В МОДЕЛЯХ СЕМАНТИЧЕСКОГО ПРЕДПОЧТЕНИЯ

Н. П. Петрова

В статье охарактеризованы структура и особенности моделей семантического предпочтения. Рассмотрены методы оценки сочетаемости слов русского языка на основе эвристически определяемых числовых показателей. Указанные методы могут быть использованы при изучении лингвистических моделей и при решении прикладных задач компьютерной лингвистики.

Как известно [1; 3-6], в математической лингвистике различают модели, которые воспроизводят построение, или порождение, текста, и модели, которые воспроизводят восприятие текста. Модели первого рода называют порождающими, модели второго рода - анализирующими, или аналитически-

ми. Оба эти типа моделей можно объединить в один класс функциональных моделей речевой деятельности.

Под порождением текста понимается воплощение в данном тексте некоторого смысла посредством перехода «смысл -» текст». Восприятие текста - это извлечение опреде-

© Н. П. Петрова, 2010

ленного смысла из данного текста, или переход «текст —> смысл». Соответственно модели речевой деятельности должны устанавливать соотношение «смысл ^ текст». Порождающая и аналитическая модели воспроизводят каждая одну из сторон речевой деятельности, взятые вместе они отражают речевую деятельность в целом [1].

Модели речевой деятельности - не единственно возможный тип лингвистических моделей. Для того чтобы осуществлялась речевая деятельность, необходимо наличие языковой системы, создаваемой посредством моделирования.

О свойствах системы возможно судить по результатам ее функционирования, прежде всего тексту, по его характеристикам. Поэтому моделирование системы языка отражает переход «текст —> языковая система». Этот тип модели можно назвать исследовательским, так как здесь представлена прежде всего деятельность исследователя-лингвиста по выяснению системы языка.

Вопросы построения и классификации лингвистических моделей, а также особенности разработки языков представления знаний рассмотрены в [7-8] и др. работах.

К моделям типа «смысл - текст», представляющим наибольший практический интерес, относятся следующие модели: модель семантического предпочтения (preference semantics) (Уилкс); модель концептуальной зависимости (conceptual dependency) (Шенк); модель Жолковского «смысл - текст».

При разработке модели семантического предпочтения (модели СП) ставятся задачи:

1) анализировать связные тексты, а не отдельные предложения;

2) принимать для анализа любые осмысленные предложения, а не только грамматически правильные;

3) формализовать семантический анализ;

4) разработать машинно-ориентированную процедуру анализа;

5) рассматривать смысл предложения не просто как список значений слов с соответствующей синтаксической структурой, а выделять структурированную форму сообщения, выражающую смысл предложения;

6) уметь обрабатывать предложения, содержащие неизвестные слова.

При построении модели СП предполагается, что текст характеризуется следующими сущностями: смыслами слов (words-senses), сообщениями (message-form), фрагментами текста (text-fragments) и семантической совместимостью (= сочетаемостью) (semantic compatibility). Сообщения рассматриваются как теоретические построения, посредством которых для каждого слова, входящего во фрагмент текста, может быть выбран один из смыслов слова (т. е. снята многозначность). Слову назначается тот из его многих смыслов (значений), который образует «сообщение», согласующееся в конце концов с рассматриваемым фрагментом текста. При этом имеется в виду, что данное значение слова может подойти для нескольких сообщений, но выбирается то из них, которое согласуется с рассматриваемым текстом. Согласующимися считаются те сообщения, которые удовлетворяют правилам семантической совместимости, применяющимся к целому тексту.

Модель СП базируется на следующих положениях: существует конечное число всевозможных сообщений; существует формальный способ выражения сообщений; существует формальный метод объединения сообщений во фрагмент текста.

Для выражения сущностей, выделяемых моделью СП в тексте, вводятся следующие понятия: «семантическая формула» для представления смысла слова; «образец» для представления сообщения; «правила следования» для выражения правил семантической совместимости сообщений.

Важную роль при построении и использовании моделей СП играет проблема сочетаемости слов. Как известно, в формальных искусственных языках программирования правила комбинирования языковых знаков формулируются исключительно исходя из их смыслового содержания.

Особенностью естественных языков является нестандартная сочетаемость знаков на разных языковых уровнях, при которой возможность их комбинирования определяется не только их смыслом. Нестандартность лек-

сической сочетаемости означает, что одни слова допускают совместное употребление, а другие, пусть даже с тем же смыслом, - нет.

Лексическая сочетаемость слов частично представлена в словарях словосочетаний; в основном словари описывают сравнительно немногочисленные фразеологические (несвободные) словосочетания, смысл которых не выводится из смысла слов-компонентов. Задача отображения всех устойчиво сочетающихся слов, включая свободные сочетания, ими не решается. В то же время определение семантической допустимости различных сочетаний слов необходимо для решения ряда задач компьютерной лингвистики. В число указанных задач входят следующие задачи:

(A) автоматическая генерация текстов на естественном языке (использование устойчивых словосочетаний дает возможность получать идиоматичные тексты);

(B) синтаксический разбор предложений текста (учет допустимых в речи словосочетаний позволяет сократить число возможных вариантов разбора);

(C) автоматизация редактирования текстов (знание допустимых словосочетаний дает возможность выявлять некоторые виды лексико-семантических ошибок).

Основным источником словосочетаний и средством определения их допустимости в речи являются тексты на естественном языке. Для автоматизированного построения словарей словосочетаний могут применяться так называемые корпуса текстов - коллекции текстов, в которых лингвистами предварительно проведена морфосинтаксическая разметка слов. Однако создание представительного размеченного корпуса текстов - сама по себе длительная и кропотливая задача, поэтому в компьютерной лингвистике все более широко используется Интернет, рассматриваемый как огромный зашумленный текстовый корпус современного языка [2].

Рассмотрим метод оценки сочетаемости слов русского языка, который опирается на понятие коллокации, близкое к широко используемому в русистике понятию словосочетания. Под словосочетанием понимается соединение нескольких знаменательных слов на основе подчинительной грамматической свя-

зи (чаще всего связи согласования и управления). Такое определение не накладывает никаких ограничений на семантику сочетаемых слов. При использовании коллокаций рассматриваются только словосочетания, которые встречаются в осмысленных текстах, и тем самым считаем коллокацией любую синтаксически связанную и семантически допустимую пару знаменательных слов.

Компонентами коллокаций могут быть слова четырех главных частей речи: существительные, глаголы, прилагательные (включая причастия) и наречия (включая деепричастия). Наиболее часто встречаются следующие четыре синтаксических типа коллокаций:

1) определяемое слово —» определяющее слово;

2) существительное —> его дополнение;

3) глагол —> его дополнение;

4) сказуемое —» подлежащее.

Как показал анализ, большинство существующих в русском языке именных и глагольно-именных словосочетаний охватываются указанными типами коллокаций.

Синтаксические связи между знаменательными словами коллокаций могут реализоваться непосредственно (например, обнаружил изъяны) или через служебные слова (обычно через предлоги: учиться в университете), в последнем случае мы считаем эти служебные слова частью коллокаций.

Заметим, что в предложениях связного текста слова-компоненты коллокаций могут либо непосредственно соседствовать, либо разделяться другими словами, причем не только собственными служебными словами: учиться в недавно построенной школе. В то же время эти слова-компоненты могут случайно оказаться рядом, не образуя коллока-цию из-за отсутствия синтаксической связи: не любил учиться, в школе было неинтересно. Если же рассматриваются тексты сети Интернет, то в них в дополнение к таким встречам существуют многочисленные ошибки в употреблении словосочетаний и ошибки, вызванные некорректной разметкой страниц. Поскольку исследовать синтаксические связи во всех текстах сети Интернет не представляется возможным, для определения допусти-

мости словосочетаний применимы только статистические критерии [2].

Один из известных статистических критериев, применяемых в корпусной лингвистике, основан на так называемом показателе взаимной информации (ПВИ):

ПВИ(К, W) = In

5 • N(V, W) N(V) • N(W)

(1)

Согласно критерию, основанному на формуле (1), пара слов (V, V/) образует устойчивое сочетание, если относительная частота N(VJW)/S совместной встречи слов на близком расстоянии в пределах всего текстового корпуса больше произведения относительных частот ЛГ(У)/5 и ЛГ(И0/5 слов V и IV, рассматриваемых по отдельности (5 - размер корпуса):

ПВИ(У, ТУ) > 0.

встречаемости слов. В то же время, как и ПВИ, ПСС сохраняет свое значение при пропорциональном изменении величин Л^ТУ) и 7У(У, IV) и тем самым практически не зависит от непрерывного роста массивов данных поисковой машины во времени.

Как показано в [2], для практического применения ПСС удобно взять основание логарифма равным 2 и подобрать константу Р так, чтобы большинство устойчивых коллока-ций любого синтаксического типа имели неотрицательное значение ПСС. Таким образом, уточненная формула для ПСС имеет вид

UCC(V, W)

16 . bp- ,

to2 yjN(V)'N(W) '

если N(V, W) > 0 (3)

—oo,

если N(V, W) = 0,

Указанный критерий неприменим в слу- где — оо соответствует большей по абсолютной величине отрицательной константе, которая берется в случаях, когда оцениваемые слова вообще не встречаются вместе в изуча-

чае интернет-корпуса, поскольку, во-первых, поисковые машины измеряют статистику встреч запрашиваемого слова (или комбинации слов) только в количестве содержащих эти слова страниц, а во-вторых, размер интернет-корпуса (понимаемый как полное число страниц, индексируемых поисковой машиной) - сложно вычисляемая величина. В работе [2] авторы решили использовать в качестве меры устойчивости и допустимости сочетания слов величину, сходную с ПВИ:

емых массивах.

С учетом формулы (3) критерий семантической совместимости пары слов N(1/, V/)

примет вид

ПСС(У, W) > Q,

ПСС {V, W) = In

P-N(V, W) y/N(V) • N(W)'

(2)

где Р - некоторая положительная константа. Величина (2), названная показателем семантической совместимости (ПСС), придает большее, чем ПВИ, значение совместной

где (} - константа, близкая к нулю и подбираемая экспериментально.

Описанную методику, базирующуюся на эвристически введенных показателях семантической совместимости (ПСС), целесообразно использовать для решения задач (А), (В), (С) и для исследования моделей семантического предпочтения.

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. Апресян Ю. Д. Идеи и методы современной структурной лингвистики / Ю. Д. Апресян. -М. : Наука, 1966. - 280 с.

2. Большакова Е. И. Метод оценки сочетаемости слов на базе текстов сети Интернет / Е. И. Большакова, А. П. Котляров // Вестн. Москов. ун-та. - Сер. 15, вычисл. математика и кибернетика. - 2008. -№ 4. - С. 46-60.

3. Гладкий А. В. Формальные грамматики и языки / А. В. Гладкий. - М. : Наука, 1973. - 368 с.

4. Вежбицкая А. Семантические универсалии и описание языков / А. Вежбицкая. - М. : Наука, 1999. - 780 с.

5. Касевич В. Б. Элементы общей лингвистики / В. Б. Касевич. - М. : Наука, 1977. - 177 с.

96

ВЕСТНИК Мордовского университета | 2010 [ № 4

6. Мельчук И. А. Толково-комбинаторный словарь современного русского языка. Опыты семан-тико-синтаксического описания русской лексики / И. А. Мельчук, А. К. Жолковский. - Wien : Wiener Slawistischer Almanach, 1984.

7. Петрова H. П. О построении и классификации лингвистических моделей, используемых при разработке систем искусственного интеллекта / Н. П. Петрова // Избр. вопр. соврем, естествознания. Сб. науч. тр. - М. : МИИТ, 2009. - С. 157-163.

8. Петрова Н. П. Сравнительный анализ математических моделей лингвистики и особенности разработки языков представления знаний / Н. П. Петрова // Материалы XII науч. конф. МГТУ «Станкин» и «Учебно-научного центра математического моделирования МГТУ "Станкин" - ИММ РАН» по математическому моделированию и информатике. - М. : МГТУ «Станкин», 2009. - С. 143-146.

Поступила 20.10.10.

i Надоели баннеры? Вы всегда можете отключить рекламу.