Научная статья на тему 'Модели сообщений, представленных на естественном языке, в информационно-аналитических системах бизнес-разведки'

Модели сообщений, представленных на естественном языке, в информационно-аналитических системах бизнес-разведки Текст научной статьи по специальности «Математика»

CC BY
133
38
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по математике, автор научной работы — Миргалеев А.Т., Соколов А.В.

В работе представлена система моделейестественно-языковых сообщений, позволяющаяобрабатывать текстовые сообщения на рус-ском языке в информационно-аналитических си-стемах бизнес-разведки.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Модели сообщений, представленных на естественном языке, в информационно-аналитических системах бизнес-разведки»

Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 2 - Курск:

Науком, 2011. - 93 с., ил. ISBN 978-5-4297-0003-8

УДК528 + 519.72

Работа выполнена в рамках ФЦП «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2007-2013 годы», государственный контракт № 07.514.11.4115.

Миргалеев А.Т., Соколов А.В.

МОДЕЛИ СООБЩЕНИЙ,

ПРЕДСТАВЛЕННЫХ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ, В ИНФОРМАЦИОННО-АНАЛИТИЧЕСКИХ СИСТЕМАХ БИЗНЕС-РАЗВЕДКИ

В работе представлена система моделей естественно-языковых сообщений, позволяющая обрабатывать текстовые сообщения на русском языке в информационно-аналитических системах бизнес-разведки.

С учетом особенностей обработки текстов на естественном языке (ЕЯ), представленных в работах [1-4], информационные модели текстовых сообщений для обработки в информационно-аналитических системах (ИАС) бизнесразведки (БР) можно представить следующим образом.

1. Морфологическая модель текста на ЕЯ, учитывающая ориентацию ИАС БР на обработку текстов на русском языке имеет вид:

О Text =(ParJI О ft»- =!0fferjJ =(Gramnth

О Gmmjt =(WordIjiplr (1)

^itp =( < Lemma,ip,MorPhw, > )u

ОMorPk,i„ =<PartM'Sort,tp,'Case,tp, >

где Pari - i -й абзац текста, I - количество абзацев текста, при этом множество абзацев в тексте считается упорядоченным;

18

Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 2 - Курск:

Науком, 2011. - 93 с., ил. ISBN 978-5-4297-0003-8

°fferv - j -е предложение i -го абзаца текста, J - количество предложений в i -м абзаце, при этом множество предложений в абзаце считается упорядоченным;

Gramijk - к -е составное слово У -го предложения, K - количество составных слов в У -м предложении, при этом множество составных слов в предложении считается упорядоченным;

Wordykp - Р -е слово ijk -го составного слова, P - количество простых слов в составном слове, при этом множество простых слов в составном слове считается упорядоченным;

Lemmaykpu - и -я возможная лемма (словарная форма) слова, U - количество возможных лемм данного слова (если у Wordykp отсутствуют омонимы, то и =1);

Morphijkpu - и -й набор морфологических признаков слова, соответствующих и -й возможной лемме, состоящий из части речи Part (существительное, глагол, прилагательное, наречие, местоимение, предлог, союз, частица), рода Sort (мужской, женский, средний) и падежа Case (именительный, родительный, винительный, дательный, творительный и предложный).

2. Модель факта, извлеченного из текста на ЕЯ, имеет вид фрейма следующей структуры:

fact =<subj,pred,obj >, (2)

где subj - слот, содержащий субъект(ы) факта, являющийся активным участником действия, например, subj ={name1 и noun1 и (noun n noun)u (noun n adj)} (в таблице 1 приведено описание подстановочных элементов);

pred - слот, содержащий предикат, выражающий семантическое отношение между субъектом и объектом, pred G Term , например, pred =verb u (verb n adj);

obj - слот, содержащий или объект(ы) факта, являющийся пассивным участником действия, например, obj ={name2 Unoun2 U (noun2 nnoun2) U (noun2 nadj)}, или значение свойства факта, например, obj = prepos n (name u пшп u (noun n adj)) или obj = prepos n (time U adv) .

Таблица 1 - Описание подстановочных элементов для слотов фрейма

Элемент Значение

name1 имя собственное в именительном падеже

name2 имя собственное в любом падеже, кроме именительного

noun1 существительное в именительном падеже

noun2 существительное в любом падеже, кроме именительного

verb глагол

adj прилагательное

adv наречие

prepos предлог

19

Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 2 - Курск:

Науком, 2011. - 93 с., ил. ISBN 978-5-4297-0003-8

3. Совокупность связанных по слотам subj или obj экземпляров фреймов вида (2), построенных на основе одного или нескольких текстов, образует описание текста (текстов) на ЕЯ в виде нечеткой семантической сети. Далее такое описание одного или нескольких текстов будем называть частной ситуацией. Предложена следующая модель текста на ЕЯ, позволяющая формализовать текстовые сообщения, поступающие в ИАС БР:

Ps =(Obj,Pred,Values) , (3)

где Obj ={objl,..., objn} - множество объектов, являющихся узлами семантической сети, n - количество объектов;

Pred - отношения вида «субъект obji инициировал действие по отношению к объекту objb» или «объект obji имеет свойство со значением objb» (время t описываемого события является свойством), заданные на объектах Obj,

i, j =1, n i Ф j Pr ed z Obj У-Obj •

Values - характеристика отношения Pred , Values : Obj xOfy ^ predvalueij , здесь obji инициировал действие predvaluev с объектом objь » или «объект obji имеет свойство predvaluey со значением objь ».

Разработаны модели, позволяющие в ИАС БР представить и обрабатывать текстовые естественно-языковые сообщения. Модели ориентированы на обработку текстовых сообщений, представленных на русском языке, а также на отображение логических взаимосвязей между реальными объектами, процессами и явлениями.

Библиографический список

1. Бутов А.Л., Миргалеев А.Т., Сизов А.С. Анализ состояния бизнес-разведки в современных фирмах и пути автоматизации процессов ее ведения//«Телекоммуникации». М: Машиностроение, 2006, №11.

2. Бутов А.Л. Модель данных и знаний информационно-аналитических систем органов власти субъектов РФ //«Телекоммуникации» в печати, 2011.

3. Миргалеев А.Т., Аникин С.В., Бутов А.Л., Кониченко А.В., Сизов А.С. Подход к устранению неопределенности в данных мониторинга, формируемых подразделениями МЧС субъектов РФ //Телекоммуникации, - М.: Машиностроение, №12, 2009.

4. Миргалеев А.Т. Метод формирования распределенных онтологий в многоагентных системах поддержки принятия решений органов власти субъектов России. Диссертация на соискание ученой степени кандидата технических наук. Курск: Курский государственный технический университет, 2005, 135 с.

20

i Надоели баннеры? Вы всегда можете отключить рекламу.