Научная статья на тему 'Об одной метамодели предложения естественного языка для семантической интерпретации научно-технических текстов'

Об одной метамодели предложения естественного языка для семантической интерпретации научно-технических текстов Текст научной статьи по специальности «СМИ (медиа) и массовые коммуникации»

CC BY
253
35
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МЕТАМОДЕЛЬ / СЕМАНТИЧЕСКАЯ ИНТЕРПРЕТАЦИЯ / НАУЧНО-ТЕХНИЧЕСКИЙ СТИЛЬ / ИНФОРМАЦИОННЫЙ ПОИСК АВТОМАТИЧЕСКАЯ ОБРАБОТКА ТЕКСТОВ / META-MODEL / SEMANTIC INTERPRETATION / SCIENTIFIC AND TECHNICAL STYLISTICS / INFORMATION RETRIEVAL / TEXT MINING

Аннотация научной статьи по СМИ (медиа) и массовым коммуникациям, автор научной работы — Вишняков Ренат Юрьевич, Вишняков Юрий Мусович

Обосновывается необходимость учета семантической составляющей для повышения эффективности обработки текстовой информации в задачах информационного поиска. Предлагается метамодель предложения научно-технического стиля естественного языка, включающая такие ключевые понятия как единичная s-проекция, единичная м-проекция, а также Σ-схема предложения, которые представляют собой разложение предложения на семантическую и метаописательную составляющие. Применение метамодели поясняется на конкретных примерах предложений научно-технического стиля.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

NATURAL LANGUAGE SENTENCE META-MODEL FOR THE S

This article explains the necessity of a semantic component in the information retrieval domain. The semantic component improves the efficiency of the text information processing. We propose the sentence meta-model for scientific and technical style in natural language. This metamodel includes such key concepts as unit sand mprojections, as well as the Σ-scheme of a sentence, which represent a decomposition of the sentence on the semantic and meta-descriptive components. We demonstrate the application of meta-model by specific sentence examples of scientific and technical style.

Текст научной работы на тему «Об одной метамодели предложения естественного языка для семантической интерпретации научно-технических текстов»

Раздел IV. Новые информационные технологии

УДК 004.912

Р.Ю. Вишняков, Ю.М. Вишняков

ОБ ОДНОЙ МЕТАМОДЕЛИ ПРЕДЛОЖЕНИЯ ЕСТЕСТВЕННОГО ЯЗЫКА

ДЛЯ СЕМАНТИЧЕСКОЙ ИНТЕРПРЕТАЦИИ НАУЧНО-ТЕХНИЧЕСКИХ

ТЕКСТОВ

Обосновывается необходимость учета семантической составляющей для повышения эффективности обработки текстовой информации в задачах информационного поиска. Предлагается метамодель предложения научно-технического стиля естественного языка, включающая такие ключевые понятия как единичная s-проекция, единичная м-проекция, а

- ,

семантическую и метаописательную составляющие. Применение метамодели поясняется на конкретных примерах предложений научно-технического стиля.

Метамодель; семантическая интерпретация; научно-технический стиль; информационный поиск автоматическая обработка текстов.

R.Yu. Vishnyakov, Yu.M. Vishnyakov NATURAL LANGUAGE SENTENCE META-MODEL FOR THE SEMANTIC INTERPRETATION OF SCIENTIFIC AND TECHNICAL TEXTS

This article explains the necessity of a semantic component in the information retrieval domain. The semantic component improves the efficiency of the text information processing. We propose the sentence meta-model for scientific and technical style in natural language. This metamodel includes such key concepts as unit s- and m- projections, as well as the -scheme of a sentence, which represent a decomposition of the sentence on the semantic and meta-descriptive components. We demonstrate the application of meta-model by specific sentence examples of scientific and technical style.

Meta-model; semantic interpretation; scientific and technical stylistics; information retrieval; text mining.

Проблема. В настоящее время в информационном поиске необходимо усиливать роль учета семантической составляющей при обработке текстовой информации. Это обусловлено тем, что широко распространенные в практике информационного поиска модели, основанные на частотных свойствах слов, уже не удовлетворяют пользователей по точности выдачи и релевантности информации. Поэтому разработка моделей поиска, ориентированных на выделение и интерпретацию семантической составляющей текстов является на сегодня одной из актуальных проблем [1]. Однако следует отметить, что в области семантической интерпретации текстовой информации существуют множество проблем, которые обусловлены как сложностью самого естественного языка (ЕЯ), так и отсутствием приемлемых и адекватных интерпретирующих его моделей [2].

Касаясь текстовой обработки, можно выделить в отдельную профессиональную область научно-технические произведения (статьи, рефераты, монографии, тезисы и т.д.), которые отличает научно-технический стиль (НТС) изложения со-

держания. Такие произведения всегда призваны нести новое знание, поэтому они построены в виде правдоподобного рассуждения. Чем более корректно, логически и непротиворечиво формально организовано рассуждение, тем оно более убедительно и правдоподобно. Эта схема хотя и приблизительна, но, тем не менее, носит общий характер и в целом характеризует и отличает произведения НТС.

В настоящей работе предлагается метамодель предложения естественного языка, направленная на семантическую интерпретацию научно-технических текстов.

Метод решения. Выдвигаемая нами гипотеза состоит в том, что предложения текстов НТС в основном являются проективными [3-5]. Причем, чем более текст научного произведения соответствует научно-техническому стилю, тем более усиливается выполнение этого утверждения.

Понятие проективности основано на представлении предложений в виде системы составляющих (СС) [5], смысл которой состоит в следующем. Пусть некоторое предложение а представляется непустой цепочкой из множества слов {хх,X2,...,Хп}

и имеет вид а = х1 х2...хп. Пусть также задана цепочка 3 = хг...х1 ...хр, которая является подцепочкой цепочки а, что записывается математически в виде условия включения:

3с«, если I < р, 1< t, р < п. (1)

Пусть множество В = Х3,32,...,3т } представляет собой множество всевозможных подцепочек цепочки а. Говорят, что цепочка а представлена системой ( ) , : цепочка а; все однословные (дайны 1) подцепочки; любые другие подцепочки, которые попарно либо не пересекаются, либо одна из них включается в другую.

Система составляющих представляет собой не что иное, как отношение непосредственного включения вида:

Ос(а) сВ2, (2)

заданное на множестве подцепочек цепочки а.

Для наглядного представления СС приведём пример предложения (рис. 1), в котором все подцепочки размечены парными квадратными скобками, а сами пары перенумерованы по порядку номером соответствующей подцепочки. Такую форму представления СС будем называть скобочной.

.Ы й.

16 16 17 17

]ЫМЛМЫ1

Профессиональная | является | международного | образовательных| российских

аккредитация основой признания ^^программ вузов

Рис. 1. Пример представления СС

Итак, пусть задано некоторое предложение а. На множестве его проекций построим два непересекающихся подмножества отрезков А и 2 ви да:

А = Х1,$2,...,дп}; (3)

Х = {<^1,^2,...,^п} (4)

Во множество А включим только такие отрезки 8, которые имеют макси-

мальную длину, не содержит внутри себя метасимволов или мета-конструкций, а их правые и левые концевые символы являются смежными справа и слева с метасимволами или являются концами и/или началами предложений. Также осуществим нумерацию элементов множества А в соответствии с их порядком следования в предложении а.

Определение 1. Единичной ^-проекцией предложения а будем называть отрезок е А предложения а.

Отметим, что слово «единичная» в названии означает то обстоятельство, что данный отрезок предложения несет в себе целостный смысл, который можно было бы назвать единичным смыслом. Этот смысл представлен в номинативном значении вне связи с другими смыслами.

Рассмотрим теперь отрезки множества 2. Включим в это множество такие отрезки 81, которые имеют максимальную длину, ограничены слева и/шш справа

единичными ^-проекциями, или началом, или концом предложения и представляют собой либо метасимволы, либо метасловосочетания, либо части метаконструкций. Для отрезков множества 2 также ведем нумерацию в порядке их следования в предложении а.

Определение 2. Отрезок 8 е А предложения а будем называть единичной -.

, -не несут, они являются только средством встраивания единичных ^-проекций предложения и самого предложения в рассуждение. Поэтому выбор обозначения м означает только то обстоятельство, что отрезок 81 в предложении а представляет

- .

Графически понятия единичной ^-проекции и единичной ж-проекции поясняются на примере предложения (рис. 2), показанного ниже:

Следует отметить, что, в общем случае, предложения могут содержать более одной единичной ^-проекции и единичной м-проекции. Это обстоятельство иллюстрирует приведенный ниже пример:

Рис. 3. Пример предложения с несколькими единичными б- и м- проекциями

Единичная м-проекция

Единичная я-проекция

Единичная м-проекция

Учитывая сказанное,

, что и требовалось доказать

X10 Xу у Х-12

X з Х4 X 5 Х6 X 7

Рис. 2. Примеры единичных б- и м- проекций предложения

Единичная м-проекция

Единичная м-проекция

Если исходный посыл верен , то теорема доказана

Единичная 8-проекция

Единичная ч-проекция

В предложении примера (рис. 3) каждая единичная .«-проекция представлена всего одним метасловом (метамаркером), которые совместно образуют логическую метаконструкцию вида:

ЕСЛИ ... , ТО ... (5)

3. - -

упорядоченную по номерам последовательность всех ее единичных .«-проекций множеств £ и ^-проекций множества Л вида:

5](^) — 0'iSi...0'mSm;

8п ::—8п |Л; (6)

8m ::—8m №

где X - пустая цепочка.

Так, Х-схема предложения примера (см. рис. 2) имеет вид:

Т(а) — ст18сг2 , (7)

здесь а1 = “учитывая сказанное”; а2 = “что и требовалось доказать”; 8 = “правило

”.

X-схема предложения примера (см. рис. 3) имеет вид:

Е(«) — о181а181, (8)

где ох = “если”; CTj = “то”; 8Х= ^^^^^одный посыл верен”; 82= ^^фема доказана”.

Рассматривая некоторое предложение, следует указать, что его семантика сосредоточена во множестве А его единичных s-проекций, а множество 2 его еди--

.

,

,

s-проекция, единичная .«-проекция, а также Z-схему предложения, которые представляют собой разложение предложения на семантическую и метаописательную .

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. Вишняков Ю.М., Вишняков Р.Ю. Проблемы семантического информационного поиска // Труды международных научно-технических конференций «Интеллектуальные системы» (AIS’06) и «Интеллектуальные САПР» (CAD-2006). Научное издание в 3-х томах. Т. 2.

- М.: Физматлит, 2006. - C. 308-314.

2. . . . -

ных языков. - М.: Наука, 1979. - 303 с.

3. . . : . . - .: - ,

А/О "Росвузнаука", 1992. - 120 с.

4. . .

системах общения. - М.: Наука. Главная редакция физико-математической науки, 1985.

- 144 с. - (Серия «Проблемы искусственного интеллекта»).

5. .. . .- .: -

гуманитарного университета, 2001. - 830 с.

Статью рекомендовал к опубликованию д.т.н., профессор В.П. Карелин.

Вишняков Ренат Юрьевич

Технологический институт федерального государственного автономного образовательного учреждения высшего профессионального образования «Южный федеральный университет» в г. Таганроге.

E-mail: [email protected].

347928, г. Таганрог, пер. Некрасовский, 44.

Тел.: 88634371885.

Кафедра системного анализа и телекоммуникаций; ассистент.

1бб

Вишняков Юрий Му со вич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

E-mail: [email protected].

Факультет автоматики и вычислительной техники; декан.

Vishnyakov Renat Yur’evich

Taganrog Institute of Technology - Federal State-Owned Autonomy Educational Establishment of Higher Vocational Education “Southern Federal University”.

E-mail: [email protected].

44, Nekrasovskiy, Taganrog, 347928, Russia.

Phone: +78б34371885.

The Department of System Analysis and Telecommunications; Assistant.

Vishnyakov Yuriy Musovich

E-mail: [email protected].

College of Automation and Computer Engineering; Dean.

УДК 002.53:004.89

Ю.А. Кравченко

КОНЦЕПТУАЛЬНЫЕ ОСНОВЫ РЕФЛЕКСИВНО-АДАПТИВНОГО ПОДХОДА К ПОСТРОЕНИЮ ИНТЕЛЛЕКТУАЛЬНЫХ ИНФОРМАЦИОННЫХ СИСТЕМ*

Рассмотрены концептуальные основы рефлексивно-адаптивного подхода к построению интеллектуальных информационных систем. Данный способ предполагает максимальное саморазвитие и самоорганизацию обучаемых в условиях гибкого воздействия на основе индивидуальной траектории обучения. Описаны основные принципы предлагаемой концеп-.

обучения позволит сформулировать требования к созданию адаптивных информационных .

Рефлексивно-адаптивный подход; интеллектуальные информационные системы; са-; ; ; .

Y.A. Kravchenko

THE CONCEPTUAL FOUNDATIONS OF REFLEXIVE-ADAPTIVE APPROACH FOR INTELLIGENT INFORMATION SYSTEMS CREATION

This article describes the conceptual foundations of reflexive-adaptive approach to building intelligent information systems. This method assumes the maximum self-development and selforganization of students in a flexible impact on an individual learning path. The basic principles of the proposed conception were described. The implementation of concept proposed in this paper will specify the requirements for the creation of educational adaptive information systems for intellectual learning process.

Reflexive-adaptive approach; intelligent information systems; self-organization; selfdevelopment; individual trajectory; competence.

.

активизация процессов обучения в целях обеспечения выполнения синергетического метапринципа открытого образования и формирования у обучаемых необходимого уровня профессиональной компетентности. Компетентность любого специалиста складывается из набора компетенций, представляющих собой совокуп-, , -шать различные действия. Данное понятие определяет меру профессионализма

* Работа выполнена при частичной поддержке РФФИ (проекты: № 1G-G7-GG538, № 11-G7-GGG64).

1б7

i Надоели баннеры? Вы всегда можете отключить рекламу.