Научная статья на тему 'Извлечение смысла из предложений естественного языка'

Извлечение смысла из предложений естественного языка Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
434
75
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Извлечение смысла из предложений естественного языка»

Основные отличительные свойства разработанного редактора:

- использование абстрактного уровня (метау-ровня) представления продукций, обеспечивающего поддержку наиболее распространенных языков представления знаний (CLIPS, JESS и др.); ме-тауровень реализован в виде модели для хранения знаний, включающей классы БЗ, шаблон, факт, слот, правило, условие, предусловие, действие;

- ориентация на непрограммирующего специалиста; свойство реализовано с помощью набора мастеров, обеспечивающих описание знаний в виде продукций, оно расширяет область пользователей редактора за счет экспертов и системных аналитиков, не обладающих навыками программирования и знаниями специализированных языков представления знаний;

- модульность - возможность расширять поддержку редактором различных языков представления знаний; в настоящий момент реализован модуль поддержки языка представления знаний CLIPS, обеспечивающий преобразование знаний из универсальной структуры в CLIPS и обратно.

Редактор использован при создании БЗ для решения задачи прогнозирования технического состояния и остаточного ресурса деталей уникальных машин и аппаратуры в нефтехимии [4] и автоматизированного построения деревьев отказов и событий на основе модели динамики технического состояния [5].

Дальнейшие исследования связаны с расширением функциональности разрабатываемого программного средства с целью его интеграции в единую систему управления знаниями, обеспечи-

вающую их концептуализацию, формализацию, извлечение, верификацию, хранение и повторное использование.

Литература

1. Частиков А.П., Гаврилова Т.А., Белов Д.Л. Разработка экспертных систем. Среда CLIPS. СПб: БХВ-Петербург, 2003. 608 с.

2. Николайчук О.А., Павлов А.И., Юрин А.Ю. Компонентный подход: модуль продукционной экспертной системы // Программные продукты и системы. 2010. № 3. С. 41-44.

3. Берман А.Ф., Николайчук О.А., Павлов А.И., Юрин А.Ю. Онтология надежности механических систем // Искусственный интеллект. Донецк: Наука I освга, 2004. № 3. С. 266-271.

4. Берман А.Ф., Николайчук О.А., Юрин А.Ю. Автоматизация прогнозирования технического состояния и остаточного ресурса деталей уникальных машин и аппаратуры // Заводская лаборатория. Диагностика материалов. 2009. № 3. С. 48-57.

5. Берман А.Ф., Николайчук О.А., Юрин А.Ю., Павлов Н.Ю. Автоматизированное построение деревьев отказов и событий на основе модели динамики технического состояния и методов искусственного интеллекта // Проблемы безопасности и чрезвычайных ситуаций. 2011. № 1. С. 40-52.

References

1. Chastikov A.P., Gavrilova T.A., Belov D.L., Razrabotka jekspertnykh sistem. Sreda CLIPS [Development of expert systems. CLIPS], St. Petersburg, BHV-Petersburg, 2003, 608 p.

2. Nikolaychuk O.A., Pavlov A.I., Yurin A.Yu., Program-mnye produkty i sistemy, 2010, no. 3, pp. 41-44.

3. Berman A.F., Nikolaychuk O.A., Pavlov A.I., Yurin A.Yu., Iskusstvenny intellekt [Artificial Intelligence], 2004, no. 3, pp. 266-271.

4. Berman A.F., Nikolaychuk O.A., Yurin A.Yu., Zavod-skaya laboratorija. Diagnostika materialov [Plant Laboratory. Diagnostics of Materials], 2009, no. 3, pp. 48-57.

5. Berman A.F., Nikolaychuk O.A., Yurin A.Yu., Pavlov N.Yu., Problemy bezopasnosti i chrezvychaynykh situatsiy [Emergency problems], 2011, no. 1, pp. 40-52.

УДК 004.82 (045)

ИЗВЛЕЧЕНИЕ СМЫСЛА ИЗ ПРЕДЛОЖЕНИЙ ЕСТЕСТВЕННОГО ЯЗЫКА

А.И. Вавиленкова, к.т.н., ассистент кафедры (Национальный авиационный университет, просп. Космонавта Комарова, 1, г. Киев, 03058, Украина, [email protected])

Предложена унифицированная форма логико-лингвистической модели, в основе которой лежит синтаксическая структура предложения естественного языка, определяющего отношения между подлежащим (субъектом) и сказуемым (предикатом). Исследованы различные типы предложений с помощью построения их логико-лингвистических моделей. Это позволило убедиться в том, что предложенная автором унифицированная форма является своеобразным шаблоном, благодаря которому можно формализовать все типы предложений. Семантические связи между словами прослеживаются в разрезе сформировавшихся словосочетаний. Построение таких моделей дает возможность сравнивать тексты по смыслу, извлекать знания из текстовой информации, а также искать в них противоречия. Верификацией предложенной идеи представления текстовой информации в виде логико-лингвистических моделей унифицированной формы является интеллектуальная система САФЛЛМ (система автоматизированного формирования логико-лингвистических моделей), в основе которой лежат принципы работы экспертных систем.

Ключевые слова: семантика, логико-лингвистическая модель, извлечение смысла, предикат, унифицированная форма, структурная лингвистика, формализация.

EXTRACTING MEANING FROM SENTENCES OF NATURAL LANGUAGE VavilenkovaA I., Ph.D., Teaching Assistant (National Aviation University, 1, Kosmonavta Komarova Av., Kiev, 03058, Ukraine, [email protected]) Аbstract. It was proposed a unified form of logical-linguistic model, which is based on the syntactic structure of a sentence of natural language, the meaning of which is to determine reference between the subject (the subject) and the predicate (predicate). The research of various types of sentences was carried out by means of constructing their logical-linguistic models. This proves that the author's proposed unified form is a kind of template owing by we can formalize all types of sentences. Semantic references between words can be traced in the context formed phrases. The construction of these models allows to compare the texts in the context and to extract knowledge from text information, as well as to find out among them the controversy. Verification of the proposed ideas to represent text information in the form of logical-linguistic models of unified form is an intellectual system CSOFLLM (computer-aided system of forming logical-linguistic models), which is based on the principles of expert systems.

Keywords: semantics, logical-linguistic model, the extraction of meaning, a predicate, unified form, structural linguistics, formalization.

Следуя основным положениям структурной семантики и когнитивной лингвистики, можно сделать вывод, что лексические единицы передают смысл либо за счет непосредственно вещей, о которых идет речь (экстенция), либо за счет их общих свойств (интенция) [1]. Но, если основываться на том, что анализу подлежат тексты, в которые заведомо заложен определенный смысл, то нет необходимости проверять истинность каждого высказывания. Тогда, абстрагируясь от необходимости подтверждения корректности употребления в тексте тех или иных слов, то есть переходя к формализму, можно сказать, что извлечение смысла из предложений естественного языка предусматривает понимание и выявление основного свойства каждого предложения - его предикативность.

В математике абсолютно точно установлено, что смысл высказывания - это предикат, который выражается данным высказыванием, аргументами такого предиката являются переменные, присутствующие в нем. В этом случае предложение естественного языка можно отождествить с математической формулой, записанной по определенным правилам, а смысл предложения - с предикатом. Способом формализации текстовой информации, математической формулой, с помощью которой можно представить предложения естественного языка и извлечь из него смысл, является логико-лингвистическая модель.

Такая формула базируется на синтаксической структуре предложения естественного языка: р(Ч А ) с } Д Г Л К{ Л ) с^ }]]), а)

а1 е С (х1) 1 д1 е J (5 ) д еХ (5 ) а2 е С2 (хд ) 2

где Р - предикат, отображающий смысл предложения; Х\ - предикатная переменная (субъект), находящаяся в предикативном отношении с Р; -

предикатная константа, указывающая на признак субъекта; - номер предикатной константы, указывающий на признак субъекта; С-[(х-[) - множество предикатных констант субъекта XI; Xq - предикатная переменная (аргумент); q - номер преди-

Каждое высказывание может быть полностью описано в терминах лексических и грамматических форм.

Л. Блумфилд

катной переменной (аргумента), начальное значение которого q=2; Х(5) - множество предикатных

переменных (аргументов); с^ - предикатная

константа, указывающая на признак q-й предикатной переменной (аргумента или объекта); й2 - номер предикатной константы, указывающий на признак предикатной переменной (аргумента); С2(хд) - множество предикатных констант предикатной переменной х9; J(S) - множество предикатных переменных, исполняющих в предложении равносильную роль; ql - номер предикатной переменной из множества J(S); если предложение не имеет иерархического строения или в нем не встречаются аргументы, равносильные по своей роли, то J(S)=0 [2].

Так, логико-лингвистическая модель простого предложения «Главным грамматическим средством формирования предикативности является категория наклонения» согласно предложенной формуле будет иметь вид:

( \

является

категория [наклонения], средством {главным, грамматическим} формирования [предикативности]

(2)

Р [Х2 ], Х3 {с31, Сз2 }[х [х ]])• (3)

Учитывая возможные типы отношений между простыми предложениями естественного языка в сложном, можно сформулировать следующую унифицированную форму записи логико-лингвистической модели:

(В & С„) V (В ® С„) V (В V С„) V (В ~ С„) V А ,(4) где Бу и Су - логические выражения, описывающие части сложного предложения; Бу - логическое высказывание, описывающее простое предложение с помощью формулы (1).

Например, сложноподчиненное предложение «Гибридный поход предполагает, что синергети-

(5)

ческая комбинация моделей достигает полного спектра возможностей» согласно формуле (4) будет представлено следующей логико-лингвистической моделью:

Предполагает (подход {гибридный®

'комбинация {синергетическаяр ® достигает [моделей],спектра{полного}

[возможностей] 0

(с;,)) ® р;(хК)м, хг{<1}[<])- (6)

Логико-лингвистическая модель сложноподчиненного предложения «Смысл отдельного предложения может пониматься как условие, при котором информация, содержащаяся в данном предложении, передается надлежащим образом» будет иметь вид:

(

Может пониматься

смысл

предложения {отдельного}

условие

® передается

информация

условии

образом {надлежащим}

& (7)

&содержится

(8)

г информация, предложении ^ данном} 0

Р1 _ Р2 [Х2 {с21

® р;;(х;;[х;;{с;1}], х) & Р'"(хг: х"К1}).

В модели (7)-(8) присутствуют слова, которые несут один и тот же смысл, поэтому некоторые предикатные переменные можно отождествить: х3" х3", X х'", X X . Но, поскольку на данном этапе каждое предложение рассматриваются отдельно, эта замена не делается. Однако в дальнейшем при учете вхождения предложений естественного языка в контекст некоторого текста или абзаца и отслеживания смысла всего документа такое преобразование будет считаться необходимым.

Таким образом, продемонстрированные примеры показывают, что формирование логико-лингвистических моделей для различных типов предложений естественного языка осуществляется по единому принципу: общая форма, шаблон, который заполняется для каждого предложения предикатными переменными и константами в соответствии с тем, какую синтаксическую роль выполняет то или иное слово. То есть смысл каждого предложения естественного языка фактически представляет собой определение отношений между подлежащим (субъектом) и сказуемым (предикатом), а также их общее отношение к тому, что они выражают в действительности, и формируют основное грамматическое свойство предложения -

его суть, предикативность. Семантические связи между словами прослеживаются в разрезе сформировавшихся словосочетаний.

В формализованном виде характеристики каждого слова можно представить как одномерный массив:

Zi = (Cm,1, gi2 , «,3 , k2,4 > t5 > hi6 , li7 } , (9)

где даны грамматические характеристики, обозначающие: cmn, i1 = 1,11 - часть речи (существительное, прилагательное, числительное, местоимение, глагол, причастие, деепричастие, наречие, предлог, союз или частица соответственно); gi2,12 = 1,7 - падеж; ni3,i3 = 1,2 - число; k2i4,i4 = 1,4 -род; ti5, i5 = 1,3 - время; hi6,/6 = 1,3 - способ действия; li7, И = 1,3 - лицо.

Таким образом, каждое слово рассматриваемого предложения характеризуется набором цифр, например, если слово S имеет характеристики {1, 1, 1, 1, 0, 0, 3}, значит, это существительное в именительном падеже, в единственном числе, мужского рода, третьего лица.

Для того чтобы проследить связи между словами, используется система продукций, в которую входят формализованные правила формирования словосочетаний типа: if ((<cm(S,.) = 2) & &(cm(SM) = 1) & &

& & (g(S,.) = g(S,.+i)) & & (n(S,) = n(S,+i)) & &

& & (k2(S,) = k2(S,+i)) & & (l(S,) = I(S,+1))

then (S, и S,+i).

Это правило читается следующим образом: «Если два слова, которые рассматриваются, употреблены в одном падеже, роде, числе и лице, причем первое из них прилагательное, а второе существительное, то слова образуют словосочетание». Примером может быть словосочетание «информационная система». Такие правила дают возможность установить парадигматические отношения между словами предложений естественного языка.

Верификацией предложенной идеи представления текстовой информации в виде логико-лингвистических моделей унифицированной формы является интеллектуальная система автоматизированного формирования логико-лингвистических моделей (САФЛЛМ), в основе которой лежат принципы работы экспертных систем. САФЛЛМ не базируется на стандартных шаблонах, в которых содержатся основные слова, касающиеся конкретной предметной области, например медицины, диагностирования, продаж и т.д., поэтому пользователь не должен ограничивать себя в употреблении определенной терминологии. Пример преобразования предложения естественного языка «Вона ходить до дитячого садочку» в формулу:

(10)

Всего предложений 1 Ходить(Вона.. [садочку{дитячого}]) Рг(хо.ро1{ 021}]

Здесь Рг - «ходить» - предикат, который отображает смысл предложения; х0 - «вона» - предикатная переменная (субъект), находится в предикативном отношении с Рг; Do1 - «садочку» -предикатная переменная (аргумент, объект); 021 - «дитячого» - предикатная константа, указывающая на признак объекта.

Содержание высказывания - это вся семанти-ко-прагматическая информация, которую пользователь передает на вход системы. Лингвистический процессор САФЛЛМ осуществляет анализ текстовой информации, выделяя сущности, свойства и концептуальные связи между ними, что обеспечивается наличием трех баз знаний, которые содержат правила формирования словосочетаний, определения синтаксических ролей и типов предложений.

Полученные вследствие автоматизированного построения логико-лингвистические модели решают проблему структурной лингвистики - задачу описания того, как произвольный текст, написанный на естественном языке, может быть порожден единицами речи с помощью конечного набора формальных правил касательно действий с этими единицами (словами).

Построение таких моделей в дальнейшем может использоваться для сравнения текстов, в машинном переводе, при извлечении знаний из текстовой информации, а также для поиска в них противоречий. Получение практических результатов работы САФЛЛМ дает возможность выдви-

гать гипотезы о том, как порождается язык человеком. Произвольная модель может рассматриваться как кибернетическое устройство, которое строится по определенным правилам цепочки элементов. Очевидно, что человек также руководствуется конкретными правилами [3]. Поэтому, если определенная модель достаточно простым и логическим способом порождает фразы естественного языка, можно допустить, что аналогично работает и мозг человека.

Литература

1. Шiроков В.А., Бугаков О.В., Грязнухша Т.О. Корпусна лшгвктика. К.: Довiра, 2005. 471 с.

2. Звягинцев В.А. Новое в зарубежной лингвистике. Лингвистическая семантика. М.: Прогресс, 1981. 566 с.

3. Вавшенкова А.1. Обробка текстово! шформацп через призму ан&тзу та штерпретацп елемен™ формально! системи // Системи шдтримки прийняття ршень. Теорiя i практика: зб. доп. наук.-практ. конф. з мiжнар. участю. Ки1в: 1ПММС НАНУ, 2009. С. 198-201.

4. Вавшенкова А.1. Лопко-лшгвктична модель як засiб вiдображення синтаксичних особливостей текстово! шформацп // Математичш машини та системи. 2010. № 2. С. 134-137.

5. Гладкий А.В. Синтаксические структуры естественного языка в автоматизированных системах общения. М.: Наука. Физматлит, 1985. 144 с.

References

1. Shirokov V.A., Bugakov O.V., Gryaznukhina T.O.,

Korpusnaya lingvistika, Kiev, 2005, 471 p.

2. Zhvyagintcev V.A., Lingvisticheskaya semantika, Moscow, 1981, 566 p.

3. Vavilenkova A.I., Proc. Konf. Systemy podderzhki prinya-tiya resheniy [Decision Support System], Kiev, 2009, pp. 198-201.

4. Vavilenkova A.I., Matematicheskie mashiny i systemy, 2010, no. 2, pp. 134-137.

5. Gladkiy A.V., Moscow, Nauka, 1985, p. 144.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

УДК 336.763

ВОЗМОЖНОСТИ ПРОГНОЗИРОВАНИЯ ДИНАМИКИ ФОНДОВОГО ИНДЕКСА S&P 500 С ПОМОЩЬЮ НЕЙРОСЕТЕВЫХ И РЕГРЕССИОННЫХ МОДЕЛЕЙ

М.А. Осколкова, преподаватель; П.А. Паршаков, преподаватель (Национальный исследовательский университет «Высшая школа экономики» в г. Перми, ул. Студенческая, 38, Пермь, 614070, Россия, [email protected], [email protected])

В статье проводится сравнительный анализ нейросетевого моделирования и регрессионного анализа для целей прогнозирования индекса S&P 500. Изначально строится прогноз абсолютного значения индекса, обосновывается необходимость использования стационарных данных, то есть доходности S&P 500. Сравнение методов прогнозирования осуществляется в два этапа. Сначала методы сравниваются по коэффициенту детерминации за 3 и 12 месяцев и качеству предсказания тренда доходности. Отметим, что выбор модели и ее тестирование производятся на разных временных промежутках (так называемых периодах in-sample и out-of-sample). Исходя из того, что первостепенным желанием трейдера является извлечение прибыли, на втором этапе выбираются такие трейдинговые критерии, как прибыль и прибыль, взвешенная на риск, мерой которого является дродаун. На более длинном временном промежутке (12 месяцев) лучшую доходность показала факторная регрессия, однако по показателю экономической прибыли выиграла нейросеть. При рассмотрении более короткого промежутка (3 месяца) нейросеть опередила факторную и авторегрессию по обоим сравниваемым показателям. Таким образом, нейросети хорошо подходят для оценки биржевой динамики за счет своей гибкости и умения находить нелинейные закономерности.

Ключевые слова: нейросетевое моделирование, S&P 500, прогнозирование доходности индекса, искусственный интеллект.

i Надоели баннеры? Вы всегда можете отключить рекламу.