Научная статья на тему 'Семантический компонент анализатора предложений на естественном языке'

Семантический компонент анализатора предложений на естественном языке Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
95
17
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ПРЕДСТАВЛЕНИЕ ЗНАНИЙ / СЕМАНТИЧЕСКИЕ СЕТИ / ЕСТЕСТВЕННЫЙ ЯЗЫК / KNOWLEDGE REPRESENTATION / SEMANTIC NETS / NATURAL LANGUAGE

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Головко Александр Павлович

в статье рассматривается компонент автоматического анализатора текста на естественном языке, отвечающий за разрешение конфликтов семантического характера, возникающих при разборе предложения. описывается базовый формализм представления семантики, структура модуля, порядок его функционирования.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Головко Александр Павлович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

SEMANTIC COMPONENT OF THE SENTENCE ANALYZER IN THE NATURAL LANGUAGE

In the article a module of the natural language sentence analyzer is considered. The module is used for solution the ambiguities typical of natural languages. The paper describes basic formalism for the semantic representation, structure of the module, and its functioning.

Текст научной работы на тему «Семантический компонент анализатора предложений на естественном языке»

табной оси вейвлет-спектра локализованы преимущественно в зоне нормального износа инструмента. Яркие вспышки на спектре соответствуют диссипациям энергии, это говорит о том, что в данном режиме устойчивость системы повышается. Таким образом, можно сделать вывод о том, что использование методов нелинейной динамики и вейвлет-анализа оправдано для численной оценки устойчивости систем.

Список литературы

1. Павлов А.Н. Методы анализа сложных сигналов: Учеб. пособие для

студ. физ. фак. - Саратов: Научная книга, 2008. - 120 с.: ил.

2. Симонов А.М., Остапчук А.К., Овсянников В.Е. Основы обеспечения

качества поверхности деталей машин с использованием динамического мониторинга: Монография. - Курган: Изд-во Курганского гос. ун-та, 2010. - 117 с.

УДК 004.225 А.П. Головко

Курганский государственный университет

СЕМАНТИЧЕСКИЙ КОМПОНЕНТ АНАЛИЗАТОРА ПРЕДЛОЖЕНИЙ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ

Аннотация. В статье рассматривается компонент автоматического анализатора текста на естественном языке, отвечающий за разрешение конфликтов семантического характера, возникающих при разборе предложения. Описывается базовый формализм представления семантики, структура модуля, порядок его функционирования.

Ключевые слова: представление знаний, семантические сети, естественный язык.

A.P.Golovko

SEMANTIC COMPONENT OF THE SENTENCE ANALYZER IN THE NATURAL LANGUAGE

Annotation. In the article a module of the natural language sentence analyzer is considered. The module is used for solution the ambiguities typical of natural languages. The paper describes basic formalism for the semantic representation, structure of the module, and its functioning.

Key words: knowledge representation, semantic nets, natural language.

1. Постановка задачи

В [1] рассматривается комбинированный семанти-ко-синтаксический подход к анализу предложений на естественном языке (ЕЯ). Дается общая схема и алгоритм построения синтаксической структуры анализируемого предложения; при этом относительно семантического компонента указывается только, какие функции он должен выполнять по ходу синтаксического разбора. Данная работа посвящена именно семантическому компоненту.

Ставя задачу исследования, мы будем исходить из следующих соображений.

Во-первых, целью анализа является именно понимание (в некотором смысле этого слова) смысла анализируемого предложения, то есть построение семантической структуры, максимально правдоподобно отражающей смысл, который вкладывал в предложение его автор. При этом остаются в силе все сделанные в [1 ] оговорки относительно возможности понимания смысла: на практике мы нередко наблюдаем ситуации, когда и сам автор не вполне понимает, что он хотел сказать.

Во-вторых, в рамках данного подхода анализ предложения ведется, в первую очередь, как синтаксический, а при возникновении конфликтов может использоваться информация о смысле тех понятий, экземпляры которых фигурируют в предложении, и/или конкретных объектах, о которых говорится (в текстах, посвященных теоретическим вопросам, два указанных случая могут совпадать).

Следовательно, семантический компонент анализатора должен

1) позволять представлять смысл анализируемого предложения;

2) предоставлять синтаксическому анализатору семантическую информацию о классах явлений в форме, удобной для проведения синтаксического анализа (как правило, на этапе разрешения конфликтов).

Разумеется, не ставится задача охватить все многообразие текстов. Обобщенно можно сказать, что речь идет о представлении объективных, а не субъективных реальностей. То есть будут анализироваться тексты в стиле учебников, научных публикаций, технической (в широком смысле слова) документации по областям знаний, относящимся к точным, естественным, техническим наукам. Во многих случаях такие области, как психология, экономика, социология вполне могут оказаться приемлемыми. Безусловно, не отражаются такие моменты, как одобрительное или неодобрительное отношение автора к излагаемому, ирония, всякого рода эмоциональные посылы к читателю и тому подобное во всем многообразии форм подобных элементов и аспектов текста. При этом, например, не создаст проблем представление семантики написанного академическим языком текста по психологии общения.

Таким образом, необходимо:

1. Представить семантическую информацию в форме, удобной для достижения поставленной цели.

2. Определить структуру семантического модуля языкового анализатора и механизм его взаимодействия с модулем синтаксического разбора.

3. Произвести программную реализацию семантического модуля на уровне, позволяющем выявить саму возможность реализации и получить как минимум ориентировочную оценку эффективности (демонстрационный прототип).

2. Модель знаний

Для целей настоящего исследования разработана специальная модель знаний - LSN-модель. Ниже приводятся только основные положения модели и те подробности, которые необходимы непосредственно для процедуры отбора синтаксических конструкций по признаку их семантического правдоподобия.

2.1. LSN-модель: общие положения

LSN (language semantic net) является моделью знаний - семантической сетью, организованной в стиле некоторого подражания структуре человеческого естественного языка.

Мы исходим из трехкомпонентной модели знаний: факты, процедуры, управляющая структура [2]. Данная модель предназначена для представления в основном фактов, но не правил и не управляющих структур. Другими

словами, объекты хранения в базе, построенной на этой модели, представляют собой высказывания в смысле математической логики: повествовательными предложениями, о содержании которых можно (хотя бы в принципе) сказать, истинно оно или ложно. В общем случае оценка истинности является нечеткой логической величиной.

Представление некоторой совокупности фактов средствами LSN-модели - это, в основном, (гипер)граф, вершинами которого являются некоторые сущности, а ребра - связи между сущностями. Причем понятие «сущность» трактуется достаточно широко. Например, в утверждении (факте) «Иванов является начальником Петрова» связь между Ивановым и Петровым (отношение по схеме «начальник - подчиненный») также, скорее всего, будет рассматриваться как некоторая сущность. Можно сказать, что идеологически данная модель восходит к работам РШен-ка [3], однако практически различия весьма велики.

Считается, что сущности фактически не имеют внутренней структуры, а их свойства проявляются и могут быть поняты только через их связи с другими сущностями.

Предполагается, что мир состоит из объектов, которые обладают определенными свойствами и совершают некоторые действия (реализуют некоторые процессы), при этом, изменяются свойства этих и/или других объектов. С другой стороны можно считать, что мир - это совокупность процессов, в которых объектам отведены некоторые роли. Обе точки зрения в модели равноправны.

Принимается, что не существует ничего уникального, а только типовое: есть некоторые типы (классы) объектов, процессов, отношений. Любой конкретный объект -это экземпляр некоторого класса, конкретный процесс -экземпляр какого-то класса процессов, то же относится к свойствам и отношениям. Классы образуют, вообще говоря, иерархическую структуру.

Классы (объектов, процессов) и понятия - это одно и то же. Следует иметь в виду разницу между классом объектов (то есть понятием) и множеством всех объектов данного класса.

Можно сказать, что все это очень сходно с объектной парадигмой программирования, кроме того, много аналогий с моделью «сущность-связь» (ER-модель). Наконец, такой подход полностью согласуется с представлениями современной когнитивной психологии.

2.2. Общая структура модели: концептуальный уровень

2.2.1. Базовые элементы

Представление некоторой совокупности знаний в данной модели - это

1) (гипер)граф, содержащий л-арные ребра (вообще говоря, л>2), в дальнейшем для краткости будем называть его «граф»;

2) некоторая дополнительная информация, непосредственно связанная с графом.

Все представление в целом, вообще говоря, уже не является графом в точном смысле, так как могут иметься вершины, идентичные некоторым подмножествам этого же графа; присоединенная информация, в частности, осуществляет привязку этих вершин к подмножествам.

Поскольку, как говорилось выше, связи между объектами также рассматриваются как отдельные сущности, то дуги на графе являются чисто синтаксическими элементами. Дуги включают две или несколько стрелок.

Ребра будем графически изображать

а узлы (вершины)

Вершины и дуги могут быть нескольких типов.

Основные типы вершин:

1) класс (объектов, процессов, свойств, связей);

2) экземпляр (аналогично);

3) суррогат (представляет вершину из другого макрографа, см.ниже);

4) шлюз (см.ниже).

Основные типы дуг:

1) класс-экземпляр: показывает, к какому классу относится объект;

2) целое-часть (несколько разновидностей);

3) оценка значения: позволяет соотнести некоторые «физические» (в широком смысле) величины с определенными значениями, то есть представляет результат выполнения процедуры измерения. Значение может быть измерено в числовой, порядковой, номинативной шкалах; в первом случае может иметь/не иметь размерность;

4) ассоциативная связь (столько разновидностей, сколько может быть разных арностей).

Таким образом, LSN-граф G может быть представлен в виде

G = (V, E, VT, ET, VET), (1)

где V - множество вершин, E- множество ребер, VT - множество типов вершин, ET - множество типов ребер, VET - отображение V и E на VT и ET соответственно.

В дальнейшем, говоря об LSN-графах, будем опускать три последних компонента как подразумеваемые.

2.2.3. Макрограф

Единицей, с которой в конечном счете ведется работа, является макрограф. Например, семантическая сеть БЗ1 [4] по конкретной дисциплине - это отдельный макрограф, сеть фактов по какому-то конкретному вопросу - отдельный макрограф, семантическая сеть самых общих понятий - макрограф. Естественно, трудно предполагать, что можно поддерживать некий единый граф, который содержал бы вообще всю информацию.

Элементы одного макрографа могут ссылаться на элементы другого.

Дополнительная информация (2) из п.2.2.1 находится именно на уровне макрографа.

2.2.4. Шлюзы

Теоретически с помощью сетевой модели можно выразить все. Но практически это не всегда целесообразно. Например, представление вычислений по длинным формулам легче представить обычным программным кодом и т.д. Поэтому реальная база знаний, скорее всего, гетерогенная. Для перехода из фрагмента БЗ, реализованного в одной модели, к фрагменту, выполненному в другой, служат межмодельные шлюзы. С точки зрения данной модели - это просто узлы определенного типа.

2.2.5. Общая схема

В целом имеются

1) один или несколько макрографов с самыми общими понятиями, используемыми всеми базами, и

2) базы по конкретным темам.

Например, база по конкретной теме - учебник по математической логике - содержит макрографы по БЗ1 (содержание математической логики как науки), БЗ2 (то же, но в аспекте логики освоения знаний человеком). СК (структура курса - аналог рабочей программы), БЗУ (знания по методике преподавания матлогики) [4]. В БЗ1 и БЗ2, в ос-

новном, фигурируют понятия и в меньшей степени - экземпляры; СК - (почти) исключительно экземпляры.

2.2.6. Пример.

Первоначально рассмотрим пример, так сказать, на бытовую тему.

Дано утверждение: «Иванов ростом выше 182 см». На рис.1 приведено его представление в LSN-модели. Следует отметить, что здесь не фигурирует время: то ли он сейчас такого роста, то ли был когда-то, или как-либо еще.

Отдельные факты

Общие понятия

Рис.1. Пример представления простейшего утверждения

Описывая множества вершин и ребер, образующих данный граф, будет пользоваться следующими правилами записи.

Вершина будет задаваться списком вида

(Номер; Тип, Глобальный идентификатор; Значение // Комментарий),

здесь «Глобальный идентификатор» существует для уникальных объектов: общих понятий и просто отдельных предметов, «Значение» задается для констант.

Ребро задается списком

(Номер; Тип; адресуемые вершины // Комментарий).

Получаем:

Вершины = { (1; ЭО; 12345; // Иванов), (2; С; ; // Состояние (набор свойств) Иванова, о котором идет речь), (3; ЭС; ; // Свойство «Рост» Иванова в описываемом состоянии), (4; Ц; 140303; // Идентификатор модификатора сравнения «Больше»), (5; АР; ; 182 см // (единица «см», практически, кодирована, здесь дается с упрощением)), (6; СЭ; ; // Свойство «Имя» Иванова), (7; Ц; 140301; // Идентификатор модификатора сравнения «Равно»), (8; Стр; ; "Иванов"), (9; КО; 4000011; // Понятие (класс объектов) Homo sapiens), (10; С; ; // Возможные свойства Homo sapiens^), (11; К; 4321 ; // Понятие «Рост»), (12; К; 140817; // Понятие «Имя»), (13; Ф; ; // Факт: Состояние Иванова) }

Здесь типы вершин: ЭО - экземпляр объекта, С -состояние, СЭ - свойство-экземпляр, Ц - Целая безразмерная константа, АР - Размерная арифметическая константа, Стр - константа строкового типа, С - состояние, К - класс (понятие), Ф - факт-состояние.

Ребра = { (1; Ф-С; 13; 2), (2; Э-К; 1; 9), (3; ИСП; 2; 3 / / Связывает состояние объекта со значением параметра (свойства), характеризующего это состояние), (4; Э-К; 3; 11), (5; ОЗ; 3; 4; 5), (6; ИСП; 2; 6), (7; Э-К; 6; 12), (8; ОЗ; 6; 7; 8), (9; О-С; 9; 10), (10; ИСП; 11; 10 ), (11; ИСП; 10; 12 ), (12; Ф-О; 13; 1) }.

Здесь типы ребер: Ф-С - факт-состояние, Э-К - экземпляр-класс, ИСП - имеет свойство-параметр, ОЗ -оценка значения, О-С - объект-состояние, Ф-О - факт-объект.

2.3. Логическая структура объектов

Логическая структура модельных образов реальных объектов определяется следующими положениями.

2.3.1. Объекты могут представлять собой сущности разного рода: физические, информационные и т.д. Обычно объекты обозначаются существительными.

2.3.2. Объекты когда-то возникают (рождаются), когда-то прекращают существование.

2.3.3. Начиная с появления и до исчезновения объекты в каждый момент времени находятся в каком-нибудь состоянии. Состояние характеризуется набором свойств.

Свойства могут быть различных видов. В частности, можно выделить:

1) свойства-параметры. Отличаются тем, что их можно измерить в какой-либо шкале (количественной, порядковой, номинативной), или просто задать текстом (например, название), или задать набором (агрегатом) из элементов такого рода. Наиболее часто свойства этого рода представлены прилагательными: большой, кислый и т.п.;

2) свойства - связи (отношения). Например, если имеется факт «Иванов является начальником Петрова», то это обстоятельство характеризует как текущее состояние Иванова (он имеет Петрова в своем подчинении), так и состояние Петрова (работает под началом Иванова). То есть эта связь является текущим свойством как Иванова, так и Петрова. Подобные связи могут иметь различную арность;

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

3) состав. Набор всех элементов, входящих в объект без различия природы этих элементов и иерархии вхождения в объект. Так, можно сказать, что в состав автомобиля входят и двигатель, и коленчатый вал, и программное обеспечение бортового компьютера. В состав теоремы входят формулы, цепочки силлогизмов, ссылки на различные понятия и на другие теоремы и т.п. В терминах данной модели состав объекта является гетерогенным множеством (см.), так сказать, «кучей»;

4) структура. Определяет взаимосвязи между элементами состава. Естественно продолжая пример об автомобиле и теореме, отметим, что характер связей между их элементами будет различный.

Можно отметить, что, например, может меняться организационная структура предприятия, личный состав, адрес, финансовое состояние и др., но как объект для модели оно сохранится тем же.

Вопрос о том, что является критерием сохранения объекта как такового, и когда он прекращает существование и возникает другой объект, выходит за рамки модели и решается на уровне целей моделирования. Примером подобной ситуации может служить эпизод из приключенческого фильма, где герой на глазах превращается в вампира.

2.3.4. Говоря об объектах, в ряде случаев необходимо использовать понятие «Аспект объекта» («Семантическая проекция»). Поясним это на примере.

Объект - книга РСтивенсона «Остров сокровищ», такого-то издательства, такого-то года выпуска, конкретный экземпляр. Ее можно рассматривать:

- как физический объект: масса, геометрические размеры;

- как информационный объект: изложение событий и обстоятельств (с определенной мерой доверия к излагаемому);

- как психический объект: элемент (одностороннего) общения автора с читателями, передающий некоторые эмоции, оценки, возможно, побуждающий к каким-то действиям;

- в разных других аспектах: это и полиграфическая

продукция, и объект литературной критики (жанр, композиция, стиль), и предмет коммерции, и так далее.

Каждый аспект - это тоже объект, но, так сказать, более плоский, точнее - специализированный: например, чисто физический. Естественно, каждый аспект как объект характеризуется своими свойствами, которые не должны пересекаться. Поэтому свойства некоторого аспекта объекта - это и свойства самого объекта (здесь снова аналогия с объектно-ориентированным программированием), и во многих случаях можно не уточнять, к какому аспекту объекта относится свойство.

Это положение порождает, в частности, специфическую бинарную связь «объект - аспект».

2.4. Логическая структура процессов

2.4.1. Аналогично объектам, процессы могут иметь различную природу: химические, социальные, производственные и т.д. Обычно процессы обозначаются глаголами или отглагольными существительными.

2.4.2. Так же процессы когда-то возникают (рождаются), когда-то прекращают существование.

2.4.3. Для того, чтобы охарактеризовать процесс, необходимо задать

1) падежи;

2) структуру;

3) свойства - параметры;

4) свойства - связи.

Падежи подразделяются на роли и прочие.

Типичные роли - это:

1) субъект (деятель);

2) объект (на кого направлено действие), здесь можно говорить, например, о входных, выходных, промежуточных результатах процесса;

3) средства: инструменты и т.п.;

4) инфраструктура - то, что необходимо для реализации процесса.

Например, в процессе вычисления программа является субъектом, входные, выходные, промежуточные данные - объектами, компьютер - инфраструктурой.

4.2. Падежи-не роли - это, например, цели. Вообще, отнести или нет тот или иной падеж к ролям - дело достаточно условное, поэтому роли и отнесены в одну группу с прочими падежами.

5. Свойства-параметры - это характеристики типа «Скорость» и т.п. Им соответствуют слова - наречия.

6. Свойства-связи - это связи с другими процессами, которые почему-либо не попали в падежи.

7. Структура процесса описывает подпроцессы и связи между ними, промежуточные результаты и т.п.

2.6. Логическая структура отношений

Структура отношений достаточно проста. Экземпляр отношения представляется узлом типа «Экземпляр»; ребро типа «Многоарная ассоциативная связь» связывает входящие в отношение элементы и сам узел экземпляра связи.

Этот момент может вызвать очевидные возражения. Обоснование такого решения состоит в том, что часто связь нагружается дополнительной информацией: временем существования связи, правдоподобием ее существования и т.п.

2.7. Факты

Факт состоит в том, что процесс или объект находятся в некотором состоянии, то есть обладают набором свойств. На приведенном выше примере это хорошо видно. Практически с фактом часто связывается фактор времени, так как логика реальной жизни - темпоральная.

3. Компьютерная реализация LSN-модели и семантического модуля

3.1. Логический уровень модели и программная реализация

На логическом уровне каждый самостоятельный блок модели (макрограф) представляет собой совокупность таблиц в соответствии с формулой (1). Пример из п.2.2.6 иллюстрирует распределение информации, соответствующей различным компонентам формулы (1) между таблицами.

Программно данная конструкция реализована на языке Си++. Здесь следует отметить, что описанный подход к реализации несколько не соответствует принятому сейчас стилю программирования, в соответствии с которым вершины следует представлять объектами, а ребра - наборами указателей, автору неоднократно указывали на это обстоятельство, отмечая, что это было бы эффективнее в плане быстродействия. Однако был сделан выбор в пользу гибкости модели на логическом уровне обеспечения переносимости, в частности, возможности реализации на разных языках программирования. Практически преимущества такого подхода сказались даже в рамках использования Си++ благодаря использованию средств STL, использование которых в данном случае оказывается совершенно естественно, что снижает трудоемкость программирования и повышает надежность программы без заметной потери быстродействия.

3.2. Организация семантического модуля и его связь с синтаксическим модулем

3.2.1. Информационная база Информационная база включает следующие компоненты: общие понятия, конкретные факты, стереотипные ситуации. Каждый компонент - набор LSN-графов.

Общие понятия не нуждаются в комментариях. Конкретные факты - это отдельные графы, например: в такой-то день и время, в таком-то месте, автомобиль с таким-то номером попал в ДТП с такими-то последствиями, или нечто вроде «Чехия расположена в Европе». Конкретные факты необходимы для умозаключений; данная возможность в настоящее время не реализована.

Стереотипные ситуации - это наиболее важная для наших целей информация. Например, для предложения «Автомобиль губернатора задавил мэра песика» [1] пригодится такая информация (идентификаторы общих понятий приведены условно):

Вершины = {(1,Э), (2,Э), (3,Э), (10001, К "Homo sapiens"), (100002, К "Отношение собственности"), (100003, К "Животное") }

Ребра = { (1, Э-К, 1, 100001), (2, Э-К, 2, 100002), (3, ЭК, 3, 100003), (4, Асс3, 2, 1, 3) }.

Здесь подразумевается, что в 3-арной ассоциативной связи «Отношение собственности» используется следующий порядок связываемых объектов: (Экземпляр отношения, субъект, объект). Другими словами: «Homo sapiens^ свойственно иметь в собственности животных».

Для каждого графа в базе всегда задана точка входа- ребро, задающее отношение, являющееся по смыслу ключевым. Например, в приведенном выше примере точка входа - ребро номер 4.

3.2.2. Правила продукции.

Правила продукции имеют традиционную структуру ППр = (Антецедент, Консеквент). Здесь Антецедент - логическое выражение вида A = F(Ar ..., An), (2)

где F - логическая формула, A1, ..., An- графы из

информационной базы (п.3.2.1, представленные своими идентификаторами. Консеквент - число на отрезке [0: 1], являющееся нечетко-логической оценкой [5] семантической возможности (правдоподобия) входного графа. Если Антецедент = Истина для некоторого входного графа, то степень его правдоподобия равна значению консеквен-та данного правила. Если Антецедент = Ложь, то семантическая возможность графа пока остается неопределенной.

Вычисление значения антецедента (2) происходит следующим образом. Анализируемый граф всегда имеет ровно одну точку входа - аналогично графам в базе. При вычислении антецедента каждый операнд сопоставляется входному графу, результатом является логическое значение, которое и подставляется в формулу антецедента вместо соответствующего операнда. Конкретно логическое значение - результат интерпретации антецедента для анализируемого графа

Р(А) = Р1 & ... & Р,

где р, = G ^ А,= & (х, ^ уд, I = 1,...,п, (3)

X , у-вершины G и А1 соответственно, причем нумерация вершин для каждого типа ребра жестко фиксирована. В частности, у ассоциативных связей вершина №1 -всегда экземпляр отношения; например, для отношения «Собственность»: № 2 - всегда субъект, а №3 - объект собственности.

Импликация (3) считается истинной, если в базе существует путь от левой части импликации к правой.

Практически при вычислении (2) используются следующие обстоятельства, позволяющие существенно ускорить вывод:

1) графы в базе, у которых ребро-точка входа имеет арность, отличную от G - не учитываются,

2)вычисление по формуле(2)выполняется в порядке возрастания /, поэтому отношения другого типа (но той же арности) немедленно отбрасываются,

3) в базу включен индекс всех экземпляров бинарных отношений, по которому можно непосредственно выяснить наличие отношения (2) для любой вершины.

В связи с этим вопрос о быстродействии практически не вставал.

В примере с «песиком мэра» [1] будут, в частности использованы графы - стереотипные ситуации: пример из п.3.2.1 и аналогичный, объект и субъект собственности будут переставлены. В этом случае система будет содержать, в частности два правила продукции:

ППр1 = (П1, 1), ППр2 = (П2, 0),

где П1 - идентификатор графа из п.3.2.1, П2 - идентификатор альтернативного графа. Решая конфликт, порожденный словосочетанием «мэра песика» [1], выясним, что пострадал песик, а не мэр.

3.3.3. Связь с синтаксическим модулем.

В ходе разбора предложения в семантический модуль передается граф, соответствующий каждому из конкурирующих вариантов. Для них вычисляется степень достоверности, как это показано выше. Полученное значение возвращается в синтаксический модуль.

3.3. Оценка эффективности

Оценка эффективности производилась на тестовых примерах. При этом алгоритм работы модуля был реализован упрощенно, главный интерес представляли вопросы правильности и однозначности результатов (правила продукции располагались в базе случайным образом), а также динамика затрат оперативной памяти с ростом числа используемых понятий.

Для тестирования использовались предложения на русском языке: «Автомобиль губернатора задавил мэра песика» [1] и еще 9 аналогичных, все на «транспортную»

тематику. Каждое предложение анализировалось 10 раз, при этом правила располагались, как уже говорилось, случайным образом.

Во всех случаях результат работы модуля был правильным, независимо от расположения в базе. Репрезентация смысла фразы занимала приблизительно в 100 раз больше памяти, чем запись фразы (в однобайтной кодировке). Необходимая база понятий имела объем 19,8 Кб. База стереотипных ситуаций, необходимая для работы с 1 фразой, имела объем 3,4 Кб; для 10 фраз -10,2 Кб; то есть рост ее объема был приблизительно пропорционален квадратному корню из числа фраз, которые могли быть обработаны. Безусловно, необходимы дальнейшие эксперименты. Предварительные результаты, однако, можно считать удовлетворительными.

4. Обсуждение результатов

Разработана модель знаний, относящаяся к классу семантических сетей и предназначенная для представления смысла текстов на естественном языке, написанных в академическом стиле по тематике точных, естественных, технических наук.

На основе модели разработан семантический модуль синтаксического анализатора на уровне демонстрационного прототипа. Проведенное тестирование показало что

1) метод практически работоспособен;

2) область целесообразного использования анализатора можно предварительно определить как тексты по темам указанной выше специфики;

3) объем исходного текста может составлять порядка 1 миллиона знаков (по соображениям расхода памяти и возможности эффективно управлять информацией), однако при этом результирующая семантическая конструкция представляет собой только совокупность отдельных утверждений относительно некоторых объектов;

4) возможность представления именно связного текста на основе данной модели видится реальной, однако практически для этого необходима доработка алгоритма разбора; это представляется перспективным направлением дальнейших исследований.

Список литературы

1. Головко А.П. Автоматический анализ предложения на естественном

языке на основе комбинированного семантико-синтаксического

подхода //Вестник Курганского государственного университета.

- Серия «Технические науки». - Вып.5 - Курган: Изд-во Курганского гос. ун-та, 2010.- С.156-159.

2. Элти Дж., Кумбс М. Экспертные системы: концепции и примеры. -

М.: Финансы и статистика, 1987. - 191 с.

3. Шенк Р. Обработка концептуальной информации. - М.:Энергия, 1978.

- 361 с.

4. Головко А.П. Электронный учебник как гетерогенная экспертная

система. Концепция и подходы к реализации //Информатика.

Программирование. ИКТ: Межвузовский сборник научных статей. -

Шадринск: Изд-во ОГУП «Шадринский Дом Печати», 2007. - С.11-18.

5. Нечеткие множества в моделях управления и искусственного

интеллекта/ Под ред. Д.А.Поспелова - М.:Наука, 1986. - 312 с.

i Надоели баннеры? Вы всегда можете отключить рекламу.