Научная статья на тему 'Компьютерное моделирование лингвистических объектов'

Компьютерное моделирование лингвистических объектов Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
489
107
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КОМПЬЮТЕРНАЯ ЛИНГВИСТИКА / ОБРАБОТКА ЕСТЕСТВЕННОГО ЯЗЫКА / МОДЕЛИРОВАНИЕ ЛИНГВИСТИЧЕСКИХ ОБЪЕКТОВ / СОЧЕТАЕМОСТЬ ЯЗЫКОВЫХ ЕДИНИЦ / LINGUISTIC UNITS' COLLOCATION / COMPUTER LINGUISTICS / NATURAL LANGUAGE PROCESSING / MODELING OF LINGUISTIC OBJECTS

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Воронина И. Е., Львович Я. Е.

Рассматриваются вопросы проведения лингвистических исследований по формализации естественного языка в условиях моделирования недостаточно определенного объекта. Предлагается подход к решению задачи исследования сочетаемости языковых единиц, выявления и подтверждения правил сочетаемости. Представлены результаты вычислительного эксперимента с использованием разработанных инструментальных средств моделирования поведения лингвистических объектов

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

COMPUTER MODELING OF LINGUISTIC OBJECTS

The paper examines the problem of Natural Language Processing research in the context of underspecified object modeling. The approach offered in the paper is aimed at the problem of linguistic units' collocation. The rules of collocation are developed and tested. The author applies developed instrumental tools to the modeling of linguistic objects' behavior and presents results of the experiment

Текст научной работы на тему «Компьютерное моделирование лингвистических объектов»

УДК 001.103:002

КОМПЬЮТЕРНОЕ МОДЕЛИРОВАНИЕ ЛИНГВИСТИЧЕСКИХ ОБЪЕКТОВ

И.Е. Воронина, Я.Е. Львович

Рассматриваются вопросы проведения лингвистических исследований по формализации естественного языка в условиях моделирования недостаточно определенного объекта. Предлагается подход к решению задачи исследования сочетаемости языковых единиц, выявления и подтверждения правил сочетаемости. Представлены результаты вычислительного эксперимента с использованием разработанных инструментальных средств моделирования поведения лингвистических объектов

Ключевые слова: компьютерная лингвистика, обработка естественного языка, моделирование лингвистических объектов, сочетаемость языковых единиц

Введение

Прикладные лингвистические задачи отличает их заказной характер. Их реализация протекает в диалоге «заказчик-разработчик». Еще одной особенностью прикладных лингвистических задач является их проверяемость, при этом проверяемость повторная, неоднократная и каждый раз на новом материале.

Для того, чтобы разобраться в

структуре языка, необходимо проводить исследования на каждом уровне языковой структуры. Уровни структуры языка - это синтаксические предложения, слова, морфемы, фонемы. Трудности проведения подобных исследований связаны с нетривиальностью самой задачи

формализации естественного языка,

неочевидность правил сочетаемости

языковых единиц каждого уровня, которые приходится выявлять и подтверждать программно.

Все языковые уровни

характеризуются наличием базовых

элементов. Так, например, на

комбинаторику фигур букв и слогов накладываются ограничения сочетаемостью простых знаков - морфем. В свою очередь, комбинаторика морфем ограничивается сочетаемостью знаков более высокого порядка - слов. Затем, по мере

развертывания текста, на комбинаторику слов напластовываются ограничения в сочетаемости словосочетаний и

Воронина Ирина Евгеньевна - ВГУ, канд. техн. наук, доцент, тел. (4732)208698

Львович Яков Евсеевич - ВГТУ, академик РАЕН, МАИ, Заслуженный деятель науки РФ, д-р техн. наук, профессор, тел. (4732)437704

предложений, а на это последнее накладываются экстралингвистические композиционно-сюжетные ограничения [1]. Тем самым определяется, в каком

направлении можно укрупнять

лингвистические объекты, моделируя и

изучая языковое общение. Таким образом, речь идет о выявлении и программном подтверждении правил сочетаемости

языковых единиц. Выявлению правил может эффективно способствовать наличие

программно реализованного набора

инструментов, позволяющего максимально автоматизировать данный процесс.

Формализация качественного оценивания

Рассмотрим задачу порождения правильных языковых цепочек на заданном языковом уровне. Еще раз отметим, что предлагается формировать правила в виде запретов на сочетаемость базовых единиц каждого языкового уровня. Формулировать правила могут только эксперты. Мы имеем дело с ситуацией, когда выбор, обоснование и оценка последствий решений не могут быть выполнены на основании точных расчетов вследствие их качественной новизны и сложности. Принятие решений обычно предполагает, что информация, используемая для их обоснования, достоверна и надежна. Но для задач, которые по своему характеру являются качественно новыми, это предположение либо заведомо не реализуется, либо в момент принятия решения его не удается доказать. Основные трудности обусловлены неполнотой имеющейся информации или ее недостаточно высоким качеством.

В тех случаях, когда правила сочетаемости тех или иных элементов еще

не выявлены, необходимо пойти навстречу исследователю, предоставить ему средства отбора материала, которые бы не вступали в противоречие с его индивидуальностью и интуицией. Далеко не во всех случаях хороши методы, основанные на учете мнения коллектива экспертов. Это касается, прежде всего, проблем, в отношении которых информационный потенциал знаний недостаточен для уверенности в справедливости указанных гипотез. Именно своеобразная «усредненность» мнений может не позволить индивидууму найти правильное решение. Например, мнение одного эксперта, сильно отличающегося от мнения остальных экспертов, может оказаться правильным. Поэтому для

проблем такого класса должна применяться качественная обработка. Следует также заметить, что проведение групповой

экспертизы требует значительных

организационных затрат: издание

руководящего документа, формирование группы управления, отбор экспертов, разработка методики и организации опроса, анализ экспертного оценивания и т.д.

В недостаточно определенных

ситуациях исследователь может

самостоятельно оценить возможности сочетания тех или иных структурных единиц. Эта оценка может носить лингвистический характер и иметь следующие возможные значения: ДА; НЕТ; НЕ УВЕРЕН; СКОРЕЕ ДА, ЧЕМ НЕТ; СКОРЕЕ НЕТ, ЧЕМ ДА. Все это очень напоминает анкеты, которые заполняют респонденты в ходе социальных исследований, что позволяет использовать методы детерминационного анализа [2], а также воспользоваться идеями, изложенными

в [3].

В нашем случае первичные эмпирические данные будут представлять собой совокупность отображений вида Е ^ Х;, 1 е 1...П, где Е - множество

объектов, Х^ - множество значений

переменной , 1 - индекс, нумерующий

переменные, участвующие в эмпирическом обследовании или эксперименте.

Используется всего одна переменная

X = {Х1, X2, X3, X4, X5 }:

XI - да (+);

х2 - нет (-);

Х3 - не знаю (0);

Х4 - скорее да, чем нет (±);

Х5 - скорее нет, чем да (+).

Мы имеем дело с функцией, которую можно представить таблично (рис. 1). У нас множество строк - это множество исследуемых объектов: слов (как сочетаний морфем), словосочетаний, предложений и вообще любых других объектов, для которых уместны подобные оценки.______________

объекты оценка

е (1) Х М

е(2) Х (2 >

е (ы> Х (ы>

е (к) Х (к)

Рис. 1. Табличное представление функции

Множества Е, Х^, 1 е 1...П,

дискретны и конечны. Данный метод оценивания не может существовать вне процесса коммуникации (диалога), поэтому проводимые измерения являются

номинальными или качественными.

Используя положения, изложенные выше, рассмотрим метод, обеспечивающий принятие решения в случае недостаточно определенной сочетаемости структурных единиц - метод интуитивной оптимизации. Под оптимизацией при этом будем понимать сокращение числа шагов, предшествующих принятию решения.

Рассматриваются объекты уровня п. Это те объекты, которые обеспечивают универсальный контекст. Для каждого из этих объектов определяется значение

переменной Х, что означает задание

отображения Е Х^ j е 1...п. При этом

значение переменной х задается путем опроса. Исследователь принимает решение самостоятельно, используя собственный опыт и интуицию. Следует заметить, что объекты, обеспечивающие универсальный контекст, носят категориальный,

нетерминальный характер.

Вторым шагом будет являться сужение контекста, то есть выделение тех

составляющих объекта, сочетание которых представляет интерес. Сочетаемость, собственно говоря, и определяется правилом

ЕСЛИ а ТО Ь (а ^ Ь). Здесь а - это утверждение вида Сошр! & Сотр2, где Сошр! и Сошр2 - это те составляющие объекта, о сочетаемости или несочетаемости которых надо принять решение; Ь и есть утверждение о том, что такое сочетание имеет место.

Следует заметить, что в нашем случае правило на самом деле имеет вид: ЕСЛИ а ТО возможно Ь (а —> Ь).

Интерпретация правила:

СОЧЕТАЕМОСТЬ(<фиксированная единица (объект) уровня п - 1 > И < единица (объект) уровня п - 1 >) ИМЕЕТ МЕСТО С

ОПРЕДЕЛЕННОЙ ДОЛЕЙ УВЕРЕННОСТИ.

Для большей наглядности, не изменяя семантику правила, будем записывать его следующим образом: Сошр! —> Сошр2, или, при необходимости,

___

Сошр1 Сошр2, когда

подразумевается степень уверенности Х;.

К данному моменту известны интенсивности правил для каждого объекта. В зону определенности попадают отображения со значениями переменной Х1 и х2; все остальные отображения попадают в зону неопределенности.

Лингвистические оценки (значения переменной Х) наделяются весами (коэффициентами уверенности). При этом шкала весов должна быть настраиваемой. Настройки должен осуществлять сам исследователь. Определены лишь диапазоны для каждой из переменных зоны неопределенности: 0...1. Вполне понятно, что коэффициент «1» соответствует значению «ДА», а «0» - значению «НЕТ». Далее, используя интенсивность каждого правила и соответствующий весовой коэффициент, можно получить усредненную картину по всем исследуемым объектам. Исследователь может, опять же интуитивно, установить для себя пороговое значение, которое должен превысить полученный результат, для того чтобы считаться положительным, и если он имеет место, то это явная «команда» начать поиски объяснения сочетаемости, используя собственные знания и опыт. Если эти поиски увенчаются успехом, то будет получено очередное правило, которое в дальнейшем станет составляющей фильтра.

Учитывая вышеизложенное, можно считать, что мы имеем качественную шкалу рассматриваемого показателя X, подобно [3]. Эта шкала может стать и количественной при задании весовых коэффициентов. Поскольку у нас под объектом понимается сочетаемость двух структурных

составляющих, мы можем сопоставить одной из альтернатив выбор (предпочтение) конкретного объекта. Полученные

результаты могут быть представлены в виде табл.1 (на пересечении строки и столбца можно поставить либо 1, либо 0, что будет означать наличие или отсутствие оценки Х1).

Таблица 1

Оценки сочетаемости

Сошр! Сошр2 Compj Сошрш

Х1

Х3

Х3

Х4

Х5

ито го

Итоговое значение для каждого столбца будет представлять собой суммарный вес каждого правила, а выделенная итоговая строка представляет результаты распределения по шкале Х.

Если обозначить через д(хг) значение весового коэффициента для переменной Х1, а количество объектов, для которых было определено значение переменной Х; как Щхг), то каждый элемент строки «итого» будет содержать величину

8Ссшр , = Е 9 (Хг )Щ (] \хг ),

г=1

где к - количество переменных, участвующих в эмпирическом обследовании (в данном случае к = 5).

Строго говоря, существует лишь один случай, когда имеется полная и однозначная определенность: это те ситуации, когда значение Х есть «ДА», то есть речь идет о Х1. При этом можно вынести точный вердикт о сочетаемости структурных единиц, которая не подвергается сомнению. Однако такой случай очень редок, поскольку работа происходит в условиях изучения объекта, эволюционирования модели, когда полная формализация правил образования объекта (модели) еще не произошла.

Заметим, что предполагается

Z q(x>)=1'

xi e X

Введем некоторые обозначения.

Sel(Compj) - это множество,

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

состоящее только из тех переменных Xj, которые реально были задействованы в эмпирическом обследовании для

компонента Compj.

Ясно, что

Sel (Comp j) с X = U x i .

i=i

Напомним, что N(e) - это общее количество правил универсального контекста, то есть практически это количество объектов уровня n, которые приняли участие в эмпирическом обследовании. При проведении

исследования на сочетаемость

представляется разумным фиксировать один из компонентов (тот, в отношении которого надо принять решение о его сочетаемости или несочетаемости с какими-либо другими компонентами). Обозначим его как Compflxed. Можно сказать, что изучение поведения Compflxed является целью исследования. В таком случае, общее количество правил вида

Compflxed —> Compj, j e 1...m (m -количество компонентов, которые проверяются на сочетаемость с Compflxed ) совпадет с N(e). Сюда войдут правила и с отрицательным заключением (в случае положительного заключения ответ однозначен и дальнейшие действия теряют смысл). Отрицательное заключение «НЕТ» не приводит к прекращению процесса исследования и отбрасыванию Compj как возможного претендента на сочетаемость, поскольку данное заключение выносится в отношении объекта более высокого уровня (универсального контекста). Количество правил, когда Compflxed с той или иной долей уверенности демонстрировал тип поведения Compj, есть z N (j) (x-). Тогда

Sel (Comp j )

суммарная интенсивность правил для отдельного компонента Comp_j есть

IZ (Comp fixed — > Comp j )= Z N {j)(xi )/N (e)

Sel (Comp j ) J

(если не рассматривать ее в процентном отношении). Но у нас суммарная

интенсивность состоит из интенсивностей правил

CoШpf1xed - CoШPj,

причем каждая переменная Х1 имеет свой

вес (коэффициент уверенности) ц(х. ).

Назовем взвешенной интенсивностью

правила с переменной Х1 произведение

интенсивности и весового коэффициента данного правила:

Ч = Щ(хг VЩе) - 9(хг ) = ^Сошрш^ —СошЦ ^ - 9(хг )

, V 1 е 1...к, V j е 1...ш.

Тогда суммарная взвешенная интенсивность будет следующей:

ЕЩ))(хг )- q(хг )

1Е w = /К(е) = Рщ(е) =

Исследователь сам может установить пороговое значение, сравнение с которым поможет отсеять часть претендентов на сочетаемость, оставив материал для размышления и изучения. Принятие решения будет заключаться в формулировке правила сочетаемости (фильтра).

Но и отвергнутый материал может быть подвергнут исследованию.

Визуализация распределения по значимости каждого правила, то есть взвешенных интенсивностей I w . , позволит получить

картину, которая может косвенно быть полезна при принятии решения.

Пример вычислительного эксперимента

Проиллюстрируем применение

представленного инструментария для задачи выбора предпочтительного словосочетания из заданного набора альтернатив. Требуется выбрать наиболее подходящее

словосочетание, исходя из экспертных оценок.

Будем хранить результаты экспертизы в следующем виде (табл. 2):

X - дискретная качественная шкала, состоящая из пяти вариантов ответов. Множество альтернатив А будет состоять из набора словосочетаний А с Е . Для каждого элемента качественной шкалы Xг е X определим весовой коэффициент ц (Xi). Обозначим:

N(а )(хг.), где а е А и Xг е X, - вес, приписываемый элементу качественной

шкалы Xj в зависимости от рассматриваемой альтернативы (то есть столбец

вышеуказанной таблицы);

Sel (a ) е X = е X : N(a ) (xt) > 0 } -множество активных оценок.

Таблица 2

Введем критерий предпочтительности альтернативы a Є A, тогда

Pr (a )= X N (a)q(xi )'

Xj є £е/ (a )

Сравнение величин Pr(a) для различных альтернатив приводит к установлению транзитивных отношений между ними.

Теперь рассмотрим более детально суть вычислительного эксперимента, а именно те моменты, которые легли в основу автоматизированных расчетов с

последующей визуализацией результатов.

Выберем в качестве фиксированного компонента слово «свобода». Табл.3 содержит фрагмент результатов работы экспертов.

Таблица 3

Следует заметить, что слова-альтернативы воспроизведены в словарной форме, то есть единственном числе, мужском роде и именительном падеже, что не должно вводить нас в заблуждение. Совершенно понятно, что, например, речь идет о сочетании «счастливая свобода», «благодатная свобода» и т.д.

В данном случае Х представляет собой все ту же дискретную качественную шкалу, состоящую из пяти вариантов ответов, что и ранее. Множество альтернатив А в представленном фрагменте - набор из словосочетаний: счастливая свобода,

благодатная свобода, великолуцкая свобода и т. д .

Далее для каждого элемента качественной шкалы х. е X зададим

значения весовых коэффициентов ц (х. ),

например так, как это представлено в табл.4.

Таблица 4

Определение весовых коэффициентов

Xi X2 X3 X4 X5

q (xi) 0,4 0,25 0,05 0,10 0,20

В табл. 5 приведены дальнейшие

расчеты: напомним, что N(а)(х) (а е А и

Xг е X) - это вес, приписываемый

элементу качественной шкалы х1 в

зависимости от рассматриваемой альтернативы.

Таблица 5

Расчет весов

N '■ )(x ) Xi X2 X3 X4 X5

счастливая свобода N <0(x ) 0 1 1 0 0

благодатная свобода N (2 )<x ) 1 0 0 1 0

великолуцкая свобода N <3 >(*) 0 9 0 0 1

В табл. 6 представлены множества активных оценок для трех словосочетаний -Sel (Comp j), где j = 1...3.

В табл. 7 рассмотрены расчеты

критериев предпочтительности для каждого из словосочетаний. Согласно расчетам наиболее предпочтительным является сочетание «благодатная свобода».

Таблица 6

Множества активных оценок

Sel(Compj)

счастливая свобода Sel (Comp 1 ) X (N X

благодатная свобода Sel (Comp 2 ) x ! x 4

великолуцкая свобода Sel (Comp 3 ) x 2 x 5

Таблица 7

Всего было обработано 4810 словосочетаний со словом «свобода». В качестве источника информации был взят «Морфемно-морфонологический словарь языка А. С. Пушкина» (около 23 000 слов) [4]. Результаты обработки были рассмотрены с различными выставленными порогами. Результаты иллюстрируют применение математических оценок в ситуации неформализованной сочетаемости.

Воронежский государственный университет Воронежский государственный технический университет

Принятие решения основано исключительно на субъективных экспертных оценках при полном отсутствии правил формирования словосочетаний.

Для проведения вычислительного

эксперимента был создан программный инструментарий, позволяющий создавать персональный отчет для каждого исследователя, в котором накапливаются экспертные оценки (веса) рассматриваемых сочетаний слов, настраивать весовые

коэффициенты, приписываемые элементам качественной шкалы, просматривать,

добавлять, удалять оценки для

соответствующих словосочетаний, а также на основе полученных результатов для

списка заданных словосочетаний

рассматривать его как набор альтернатив и оценивать указанный выше критерий для каждого из словосочетаний, что

устанавливает транзитивные отношения между значениями критерия для каждого словосочетания из списка.

Литература

1. Пиотровский Р. Г. Инженерная лингвистика и теория языка / Р. Г. Пиотровский. - Л.: Наука, 1979. - 112 с.

2. Чесноков С. В. Детерминационный анализ социально-экономических данных / С. В. Чесноков. -М.: Наука, 1982. - 168 с.

3. Жаке-Лагрез Э. Применение размытых отношений при оценке предпочтительности распределенных величин / Э. Жаке-Лагрез // Статистические модели и многокритериальные задачи принятия решений. - М.: Статистика, 1979. - С. 168183.

4. Кретов А. А. Морфемно-морфонологический словарь языка А. С. Пушкина : ок. 23 000 слов / А.А. Кретов, Л.Н. Матыцина. - Воронеж: ЦентральноЧерноземное книжное изд-во, 1999. - 208 с.

Расчеты критериев предпочтительности

расчет значения критерия значение критерия

счастлив ая свобода 0,03

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

благодат ная свобода N2)(x>)- 4x2)+ 4x4) 0,5

великолуц кая свобода 2,45

COMPUTER MODELING OF LINGUISTIC OBJECTS I.Ye.Voronina, Ya.E. Lvovich

The paper examines the problem of Natural Language Processing research in the context of underspecified object modeling. The approach offered in the paper is aimed at the problem of linguistic units’ collocation. The rules of collocation are developed and tested. The author applies developed instrumental tools to the modeling of linguistic objects’ behavior and presents results of the experiment

Key words: Computer Linguistics, Natural Language Processing, modeling of linguistic objects, linguistic units’ collocation

i Надоели баннеры? Вы всегда можете отключить рекламу.