Научная статья на тему 'Анализ текстов: лингвистика, семантика, прагматика в рамках когнитивного подхода'

Анализ текстов: лингвистика, семантика, прагматика в рамках когнитивного подхода Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
209
50
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
АВТОМАТИЧЕСКАЯ ОБРАБОТКА ТЕКСТОВ / AUTOMATIC TEXT PROCESSING / КОГНИТИВНЫЙ ПОДХОД / COGNITIVE APPROACH / МОРФОЛОГИЧЕСКАЯ ОБРАБОТКА / MORPHOLOGICAL PROCESSING / ЛЕКСИЧЕСКАЯ ОБРАБОТКА / LEXICAL PROCESSING / СИНТАКСИЧЕСКАЯ ОБРАБОТКА / SYNTACTIC PROCESSING / СЕМАНТИЧЕСКАЯ ОБРАБОТКА / SEMANTIC PROCESSING / ПРАГМАТИЧЕСКАЯ ОБРАБОТКА / PRAGMATIC PROCESSING / ЦЕПОЧКА РАСШИРЕННЫХ ПРЕДИКАТНЫХ СТРУКТУР / CHAIN OF EXTENDED PREDICATE STRUCTURES

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Харламов А.А., Ермоленко Т.В.

В статье рассматривается когнитивный подход к анализу лингвистической информации человеком. Рассматриваются процессы обработки информации разных лингвистических уровней: морфологического, лексического, синтактико-семантического для отдельного предложения, и, наконец, семантического и прагматического для всего текста в целом. В качестве примера упомянутой обработки выявляется представление прагматического уровня цепочка расширенных предикатных структур конкретного текста.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Text Analysis: Linguistics, Semantics, Pragmatics in the Cognitive Approach

This paper considers the cognitive approach to linguistic information analyzed by the human. The processes of information processing are studied at various linguistic levels: morphological, lexical, syntactic and semantic levels for separate sentences, and finally, semantic and pragmatic levels for the text as a whole. As an example of the said processing, representation of the pragmatic level is identified as a chain of extended predicate structures of a particular text.

Текст научной работы на тему «Анализ текстов: лингвистика, семантика, прагматика в рамках когнитивного подхода»

УДК 004.89:004.93

А. А. Харламов1, Т. В. Ермоленко2

1Институт высшей нервной деятельности и нейрофизиологии РАН, г. Москва

117485, г. Москва, ул. Бутлерова, 5а

2Донецкий национальный университет, г. Донецк

83001, г. Донецк, ул. Университетская, 24

АНАЛИЗ ТЕКСТОВ: ЛИНГВИСТИКА, СЕМАНТИКА, ПРАГМАТИКА В РАМКАХ КОГНИТИВНОГО ПОДХОДА

A. A. Kharlamov1, T. V. Yermolenko2

11nstitute for Higher Nervous Activity and Neurophysiology RAS, c. Moscow 117485, c. Moscow, Butlerova str., 5a 2Donetsk National University, c. Donetsk 83001, c. Donetsk, University str., 24

TEXT ANALYSIS: LINGUISTICS, SEMANTICS, PRAGMATICS IN THE COGNITIVE APPROACH

О. О. Харламов1, Т. В. Срмоленко2

Институт вищоТ нервовоТ дiяльностi та нейрофiзiологiï РАН, м. Москва 117485, м. Москва, вул. Бутлерова, 5а 2 Донецький нацюнальний уыверситет, м. Донецьк 83001, м. Донецьк, вул. Уыверситетська, 24

АНАЛ1З ТЕКСТ1В: Л1НГВ1СТИКА, СЕМАНТИКА, ПРАГМАТИКА В РАМКАХ КОГН1ТИВНОГО П1ДХОДУ

В статье рассматривается когнитивный подход к анализу лингвистической информации человеком. Рассматриваются процессы обработки информации разных лингвистических уровней: морфологического, лексического, синтактико-семантического для отдельного предложения, и, наконец, семантического и прагматического - для всего текста в целом. В качестве примера упомянутой обработки выявляется представление прагматического уровня - цепочка расширенных предикатных структур конкретного текста. Ключевые слова: автоматическая обработка текстов, когнитивный подход, морфологическая обработка, лексическая обработка, синтаксическая обработка, семантическая обработка, прагматическая обработка, цепочка расширенных предикатных структур.

This paper considers the cognitive approach to linguistic information analyzed by the human. The processes of information processing are studied at various linguistic levels: morphological, lexical, syntactic and semantic levels for separate sentences, and finally, semantic and pragmatic levels for the text as a whole. As an example of the said processing, representation of the pragmatic level is identified as a chain of extended predicate structures of a particular text. Key words: automatic text processing, cognitive approach, morphological processing, lexical processing, syntactic processing, semantic processing, pragmatic processing, chain of extended predicate structures.

Розглядаеться когнггивний пщхщ до аналiзу лшгвютичноТ шформаци' людиною, а також процеси обробки шформаци рiзних лшгвютичних рiвнiв: морфолопчного, лексичного, синтактико-семан-тичного для окремого речення, i, нарешт^ семантичного та прагматичного - для всього тексту в цтому. Як приклад зазначеноТ обробки виявляеться подання прагматичного рiвня - ланцюжок розширених предикатних структур конкретного тексту.

Ключовi слова: автоматична обробка текс^в, когытивний пщхщ, морфолопчна обробка, лексична обробка, синтаксична обробка, семантична обробка, прагматична обробка, ланцюжок розширених предикатних структур.

Введение

В настоящий момент два основных подхода главенствуют в автоматическом смысловом анализе текстов: лингвистический и статистический. Первый - дает очень точный анализ смысла предложений текста [1], второй - позволяет сформировать семантическое представление целого текста [2]. Они не очень дружно живут вместе -практически не существует работ, описывающих их совместное применение, что объясняется существенным различием механизмов их реализации. В первом случае это - чистая лингвистика, во втором - чистая математика. Тем не менее, их объединение могло бы позволить получить семантические представления целого текста с помощью быстрых алгоритмов статистического анализа с точностью, характерной для лингвистического анализа.

Существует возможность примирения лингвистического и статистического подходов к анализу текстов. Для этого воспользуемся представлениями об обработке информации (в том числе, текстовой) человеком. В двух словах, обработка специфической информации в мозге человека сводится к накоплению ее в колонках коры полушарий большого мозга [3], и к ее ранжированию в гиппокампе [4]. В колонках коры формируются и хранятся словари образов событий (квазислов из квазитекстов, в том числе - и обычных текстов) различной частоты встречаемости различных модальностей. В гиппокампе происходит ранжирование этих представлений, характеризующее значимость этих представлений в рамках отдельных ситуаций (квазитекстов).

1 Обработка лингвистической информации человеком

Рассмотрим обработки текстовой информации разных уровней (лингвистической - морфология, лексика, синтаксис, и надлингвистической - семантической и прагматической) в терминах структурного анализа, с естественными переходами с одного уровня обработки на другой уровень.

Ассоциативное преобразование. Нейроны колонок коры в совокупности моделируют многомерное пространство и осуществляют отображение входных сенсорных последовательностей в траектории в этом пространстве [2], [9].

Пусть мы имеем п-мерное сигнальное пространство Rn и в нем единичный гиперкуб Gn е Rn.

Обозначим через G(и, N) - множество последовательностей длины N, элементы которых - точки пространства Rn - являются вершинами единичного гиперкуба Gn. Здесь G(1,Щ е Rn - множество последовательностей длины N (N -произвольное натуральное число), элементами которых являются бинарные числа.

Определение 1. Траектория - это последовательность

А: А е О ( п, N V п, N>1. (1)

Действительно, если последовательно соединить точки, являющиеся элементами последовательности А, получим траекторию в пространстве Яп.

Определение 2. ^членный фрагмент - это фрагмент длины п последовательности А е G(1, Щ.

Введем преобразование Fn одномерной последовательности в траекторию А в многомерном пространстве Яп (2):

Fn : О(1,N ^ О(n,N + 1 -п), Fn(А) = А, (2)

где

А = (а(г) : а(г) е {0,1})= , А = (а(Х).а(Х) = (а(г + 1 -1 )А = \п))=+1-п, то есть А - это

последовательность векторов в многомерном пространстве.

В общем случае входная последовательность А может содержать одинаковые п-членные фрагменты, что приводит к возникновению точек самопересечения траектории.

Обратное преобразование к (2) вычисляется согласно (3):

Fn-1 : G(n,N) ^ G( 1,N + 1 -п), F-l(A) = A, (3)

где

А = (а(г):а(г) = (а(г + 1 -1 ),г = 1,п))=! ,

А

а(1):а(1) = [а/г), 1 < i < N

[ааг+1-N(N),N<i<N + n

N+n-1

1=1

Обратное преобразование существует во всех точках траектории, кроме точек ее самопересечения, где оно должно быть доопределено.

Формирование поуровневых словарей. Механизм памяти, чувствительный к числу прохождений заданной вершины в заданном направлении, является инструментом для анализа входной последовательности с точки зрения повторяющихся ее частей. Как было показано выше, одинаковые фрагменты последовательности отображаются преобразованием Fn в одну и ту же часть траектории А в многомерном пространстве Яп.

Словарь формируется на основе анализа множества последовательностей |А^}, в каждой из которых с помощью суперпозиции HИRMFn (отображением последовательностей класса |А^} преобразованием Fn в п-мерное пространство, запоминанием числа прохождений траекторией конкретной точки в памяти нейрона М, считыванием R содержимого памяти всех нейронов, и применением к ним порогового преобразования Ни) выделяются входящие в нее не менее и раз (где и - значение порога порогового преобразования Ни) подпоследовательности {В} е Ak. Таким образом, преобразование HИRMFn при взаимодействии с входным множеством {А^ генерирует

словарь {В}}, характеризующий траектории, соответствующие подпоследовательностям В) входного множества в пространстве данной мерности Rn:

{В;} = НкКМ¥п ({Ak}) (4)

В зависимости от величины порога И порогового преобразования Н слова словаря Вмогут быть деревьями или графами, содержащими циклы.

Формирование синтаксических последовательностей. Сформированный словарь может быть использован для детектирования старой информации (слов

словаря {В}}) в потоке новой (во входной последовательности А, отличающейся от

последовательностей множества {А^, сформировавших словарь). Для этого необходимо поглощение фрагментов траектории входной последовательности А, соответствующих словам словаря {В;}, и пропускание новой относительно словаря информации (их связей).

Для решения задачи детектирования преобразование Рп 1 модифицируется для придания ему детектирующих свойств. Использование преобразования Р-позволяет сформировать так называемую синтаксическую последовательность или последовательность аббревиатур С, характеризующую связи слов словаря ^В. | в последовательностях множества |А^}. Обозначим через {В.} множество подпоследовательностей, соответствующих всем цепям слов ВВ. словаря (4). Тогда:

Р^с(1ф}) = С (5)

С = ф): 4» = "в*1-*-- Ё ^ м =

а(/), иначе

{С} = (ГЯ{Л\Н^М{{Л))) = г^рмищ) (б)

Таким образом, отображение Р- позволяет устранить из входной последовательности А некоторую информацию, содержащуюся в словаре |В. |. В результате

реализуется структурный подход к обработке информации: сначала выявляются элементы структуры, потом - связи между ними. Синтаксическая последовательность С, содержащая только новую, по отношению к словарю данного уровня, информацию, становится входной для следующего уровня. На следующем уровне, подобно описанному выше, из множества синтаксических последовательностей { С}

формируется словарь | и множество синтаксических последовательностей следующего уровня {Е}. Таким образом, мы имеем стандартный двухуровневый элемент многоуровневой иерархической структуры. Такая обработка с выделением поуровне-вых словарей происходит на всех уровнях.

Анализ текста. При анализе текста на этапе морфологической обработки формируется словарь первого уровня - {В.} - словарь флексий. Потом формируется словарь второго уровня - {В^}2 - словарь корневых основ. На следующих этапах формируются: словарь третьего уровня - {В/}3 - словарь флективных структур синтаксических групп, и словарь четвертого уровня - {Вт}4 - словарь попарной встречаемости в тексте корневых основ. Совместная встречаемость характеризуется ассоциативной связью между этими словами - иначе она означает смысловую корректность предложения («Зеленые идеи яростно спят»).

Введем понятие звёздочки [6]. Синтаксическую структуру типа:

d = <Сг <с >> = ^ <с с>, (7)

где ci - главное слово, <с.> - множество зависимых слов, семантические признаки слова ci, будем называть «звёздочкой».

2 Полный лингвистический анализ предложений текста

В процессе полной лингвистической обработки на графематическом уровне анализа текст сегментируется на слова и предложения, на морфологическом уровне выявляется вся морфологическая информация о словах {В.}1={т.}, а на синтаксическом - информация о связях слов в группах и между группами {В^}1={г^}, где ^ -

предикативная связь субъекта с главным объектом, а гк | к>1 - все остальные типы связей. Структуры синтаксического уровня укладываются в рамки словаря шаблонов минимальных структурных схем предложения и словаря валентностей глаголов [5].

В случае реализации полной лингвистической обработки для каждого простого предложения можно построить расширенную предикатную структуру, которая после небольших преобразований сводится тоже к звездочке d = <с1 гк с]>, где с1 -предикат, су - его актанты. В звездочке, построенной из расширенной предикатной структуры, к паре <главное слово, зависимое слово> добавляется связь между ними, размеченная одним из к типов отношений «предикат-актант» [7].

3 Статистический анализ текста

Формирование ассоциативной сети целого текста. Статистический анализ текста сводится к выявлению частоты встречаемости р1 слов в тексте, и к выявлению частоты попарной встречаемости ру слов в смысловых фрагментах текста. Попарная встречаемость характеризует смысловую сочетаемость слов в языке [12].

В простых случаях статистического анализа текста, для того чтобы анализ был более устойчивым, а полученные результаты - более интерпретируемыми, словоформы слов приводятся к их корневым основам. При этом формируются словарь корневых основ {Вк}2 и словарь попарной сочетаемости корневых основ {Вт}4. Выделенные таким образом корневые основы служат далее в качестве элементов для построения ассоциативной (однородной семантической) сети.

Ассоциативная (однородная семантическая) сеть N как совокупность несимметричных пар понятий (корневых основ) <с1 су>, где с1 и с - понятия (корневые основы), связанные между собой отношением ассоциативности (совместной встречаемости в некотором фрагменте текста, например, в предложении) <с1 с]> = В1 е {Вг}4:

N = ^>1<с1с]>. (8)

При этом пары корневых основ связываются через одинаковые корневые основы: <с1 с2>*<с2 с3>, где (*) означает присоединение справа. В результате получается цепочка <с1 с2 с3>, к которой далее присоединяются другие пары. При этом возможны ветвления и вхождения, то есть строится, действительно, сеть.

Если предварительно объединить все пары слов с одинаковым первым словом в звездочку d = <с1 <с>> = <с1 с]> (где с1 - главное слово, <с]> - множество его семантических признаков), то можно сказать, что сеть может быть построена и объединением всех звездочек:

N = ^>,<с1 <с>>. (9)

Переранжирование понятий. Элементы семантической (ассоциативной) сети N = ^1<с1- <с]>> и их связи имеют числовые характеристики, отражающие их относительный вес в данной предметной области - семантический вес. Для более точной оценки семантических весов понятий используются веса всех связанных с ними понятий, т.е. веса целого «семантического сгущения». В результате итеративной процедуры переранжирования на каждой итерации понятия, связанные с понятиями, имеющими большой вес, свой вес увеличивают. Другие его равномерно теряют:

Г \

к

иь

X к(' к

г

V1 * ]

о-(Е ), (10)

здесь wi(0) = р, wij = р./р. и а(Е) = 1/^1 + е кЕ ) - функция, нормирующая на среднее значение энергии всех вершин сети Е, где р1 - частота встречаемости 1-го слова в тексте, р. - частота совместной встречаемости 1-го и .-го слов в фрагментах текста (предложениях). Полученная числовая характеристика слов - их смысловой вес - характеризует степень их важности в тексте.

4 Объединение подходов.

Семантический и прагматический анализ целого текста

Наконец, мы подошли к объединению подходов.

Семантический анализ целого текста. Если выявить расширенную предикатную структуру предложения с использованием полного лингвистического анализа предложения, привести ее к виду звездочки, а потом из этих звездочек построить семантическую сеть, и переранжировать ее вершины, мы получим сеть, в которой ассоциативные связи заменены на соответствующие типы связей. При этом в отличие от звездочки с простыми ассоциативными связями, в звездочке, построенной из расширенной предикатной структуры, вместо пар понятий используются тройки <с г с>, где между парой понятий имеется связь, размеченная одним из типов отношений.

И в этом случае строится частотный портрет текста, то есть выявляются частоты р1 встречаемости понятий, и частоты р. их попарной встречаемости в предложениях текста. И, наконец, частоты встречаемости переранжируются в смысловые веса с использованием итеративной процедуры, похожей на алгоритм искусственной нейронной сети, предложенной Хопфилдом.

Формирование реферата текста. Рассмотрим далее, что можно сделать с текстом и полученной из него неоднородной семантической сетью. Поскольку понятия -вершины семантической сети конкретного текста - в процессе анализа оказываются ранжированными их смысловыми весами, мы можем воспользоваться этим для выявления наиболее значимой для текста части предложений. Мы можем вычислить весовые характеристики предложений текста как сумму весов включенных в предложение понятий. Далее, мы можем удалить предложения текста, вес которых превышает заданный порог. Мы получим квазиреферат текста. Связность текста может быть нарушена, но предложения, в нем содержащиеся, будут нести основной смысл текста.

Формирование цепочек звездочек. Отдельные предложения квазиреферата, и соответствующие им расширенные предикатные структуры, описывают отдельные фрагменты ситуации. Расширенной предикатной структуре соответствует, после описанных выше преобразований, звездочка d = ^ <с г1 с>. Тогда цепочка из расширенных предикатных структур содержит смысл квазиреферата:

Б = = 1, N) (11)

где N - число предложений в квазиреферате.

Модель предметной области как множество классов цепочек звездочек. Подберем корпус текстов таким образом, чтобы он описывал некоторую предметную область. В этом случае квазирефераты текстов корпуса включают в себя содержание предметной области. Смысл этих последовательностей предложений может быть представлен последовательностями расширенных предикатных структур этих предложений. То есть последовательности расширенных предикатных структур (и цепочек соответствующих звездочек) являются моделью предметной области Д-:

М = Д. (12)

Кластеризация цепочек звездочек текстов модели предметной области. Это множество цепочек звездочек {Dг} является избыточным: в текстах, описывающих предметную область, могут быть смысловые повторы. Чтобы сформировать минимальное описание смысла предметной области, проведем кластеризацию множества цепочек по степени их похожести. Учитывая различную степень полноты описания смысла отдельного предложения в конкретном предложении, будем использовать нечеткое сравнение звездочек. То есть будем считать похожими звездочки, имеющие несовпадающими только некоторое (не больше заданного порога) количество семантических признаков. При этом все множество звездочек разобьется на классы, в которых можно выбрать некоторым образом представителя класса. Тогда множество цепочек звездочек - представителей классов - будет минимальным описанием модели предметной области.

Классификация текстов. При наличии множества моделей предметных областей {Mj}, входной текст можно отнести к конкретной предметной области подсчитывая степень пересечения модели текста (множества цепочек звездочек, соответствующего этому тексту {Dг}) с моделями предметных областей {Mj}: CSj = {Di}r\{Mj}. При этом отнесение к классу осуществляется вычислением arg max CSi.

5 Пример прагматического анализа текста

Рассмотрим прагматический анализ текста с привлечением описанных выше механизмов, позволяющий выявить цепочки предикатных структур предложений текста, существенно важные для представления смысла этого текста. Чтобы интерпретация цепочки была более понятной, из расширенных предикатных структур оставим только их наиболее важные части: (субъект-предикат-главный объект).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

В качестве примера формирования расширенной предикатной структуры предложения возьмем предложение из учебника Т. И. Трофимовой «Курс физики», Москва, «Высшая школа», 2001: «Механика - часть физики, которая изучает закономерности механического движения и причины, вызывающие или изменяющие это движение».

Не будем демонстрировать подробности лингвистического механизма извлечения расширенной предикатной структуры из предложения. Покажем конечный результат. Единственное замечание: предложение разбивается на простые составляющие «Механика - часть физики» и «Механика изучает закономерности механического движения и причины, вызывающие или изменяющие это движение».

Для первой части расширенная предикатная структура имеет очень простой вид: «Механика (субъект) - включена в (предикат) - физику (главный объект)».

Далее, после удаления из текста учебника не несущих смысла слов, и стем-минга оставшихся слов, подсчитываем частоту появления в тексте корневых основ оставшихся после удаления слов. После формирования семантической сети, частоты встречаемости корневых основ пересчитываются в их смысловые веса, что позволяет вычислить смысловые веса предложений.

Если удалить из текста предложения, имеющие смысловой вес менее заданного порогового значения, то останется квазиреферат текста, фрагмент которого представлен ниже.

«Первый закон Ньютона: всякая материальная точка (тело) сохраняет состояние покоя или равномерного прямолинейного движения до тех пор, пока воздействие со стороны других тел не заставит ее изменить это состояние. Первый закон Ньютона выполняется не во всякой системе отсчета, а те системы, по отношению к

которым он выполняется, называются инерциальными системами отсчета. Инерциаль-ной системой отсчета является такая система отсчета, относительно которой материальная точка, свободная от внешних воздействий, либо покоится, либо движется равномерно и прямолинейно».

Из предложений квазиреферата выявляются их расширенные предикатные структуры, которые формируют те самые цепочки, характеризующие прагматику текста или целой предметной области, описываемой корпусом текстов.

Для простоты восприятия ниже приведена цепочка только существенно важной части предикатных структур (субъект-предикат-главный объект). Остальные члены расширенных предикатных структур опущены.

Выводы

В работе изложен подход, объединяющий статистические и лингвистические методы анализа текстов, а семантическая и прагматическая обработка текста с помощью предложенного подхода демонстрируется на конкретных примерах. Совместное использование быстрых статистических алгоритмов обработки теста, и лингвистических алгоритмов и баз знаний в виде словарей валентности позволяют получить семантические представления целого текста с точностью, присущей лингвистическому подходу. Предложенное в работе понимание прагматики текста в общем случае не является общепринятым. Дело в том, что затруднительно дать какое-либо более или менее общепринятое определение прагматики текста. Поэтому мы оставляем за собой право называть представления обработки этого уровня прагматическими, хотя бы потому, что они надстраиваются над семантикой. Тем не менее, такое представление оказывается достаточно конструктивным для реализации реальных механизмов автоматической обработки текстовой информации.

Список литературы

1. Леонтьева Н. Н. Автоматическое понимание текстов. Системы, модели, ресурсы I Н. Н. Леонтьева. -М. : «Academia». - 2006. - 304 с.

2. Харламов А. А. Нейросетевая технология представления и обработки информации (естественное представление знаний) I Харламов А. А. - М. : «Радиотехника». - 2006. - 89 с.

3. Kharlamov A. A. Networks constructed of neuroid elements capable of temporal summation of signals I A. A. Kharlamov, V. V. Raevsky II Neural Information Processing: Research and Development, Jagath C. Rajapakse and Lipo Wang, Editors, Springer-Verlag. - 2004 - P. 56-76.

4. Виноградова О. С. Гиппокамп и память I Виноградова О. С. - М. : Наука, 1975. - 239 с.

5. Дорохина Г. В. Автоматическое выделение синтаксически связанных слов простого распространенного неосложненного предложения I Г. В. Дорохина, Д. С. Гнитько II Сучасна шформацшна Украша: шформатика, економжа, фiлософiя: матерiали доповщей конференцп, 12 - 13 травня 2011 року. - Донецьк, 2011. - Т. 1. - С. 34-38.

6. Харламов А. А. Перестройка модели мира, формируемой на материале анализа текстовой информации с использованием искусственных нейронных сетей, в условиях динамики внешней среды I А. А. Харламов, В. В. Раевский II Речевые технологии - 2008. - № 3. - С. 27-35.

7. Kharlamov A. A. Semantical Text Analysis on the Basis of Detecting of Key Predicate Structures I A. A. Kharlamov, T. V. Yermolenko II Proceedings of the 14-th International Conference «Speech and Computer SPECOM'2011» - М. - 2011. - P. 383-388.

8. Hopfield J. J. Neural networks and physical systems with emergent collective computational abilities II Proc. Natl. Acad. Sci. 79. - 1982. - P. 2554-2558.

9. Радченко А. Н. Моделирование основных механизмов мозга I А. Н. Радченко- Л. : «Наука» -1969. - 211 с.

10. Харламов А. А. Предсинтаксический анализ русско-английских текстов I А. А. Харламов, Т. В. Ермоленко, Г. В. Дорохина, А. О. Журавлёв II Программная инженерия - 2013. - № 10 -С. 37-47.

11. Харламов А. А. Разработка компонента синтаксического анализа предложений русского языка для интеллектуальной системы обработки естественно-языкового текста / А. А. Харламов, Т. В. Ермоленко // Программная инженерия - 2013. - № 7 - С. 37-47.

12. Рахилина Е. В. Когнитивный анализ предметных имен: семантика и сочетаемость / Рахилина Е. В. -М. : Русские словари - 2000. - 416 с.

References

1. Leont'eva N.N. Avtomaticheskoe ponimanie tekstov. Sistemy, modeli, resursy - M.: «Academia». -2006. - 304 s.

2. Harlamov A.A. Nejrosetevaja tehnologija predstavlenija i obrabotki informacii (estestvennoe predstavlenie znanij). - M.: «Radiotehnika». - 2006. - 89 s.

3. Kharlamov A.A., Raevsky V. V. Networks constructed of neuroid elements capable of temporal summation of signals. /In "Neural Information Processing: Research and Development", Jagath C. Rajapakse and Lipo Wang, Editors, Springer-Verlag - 2004 - ISBN 3-540-21123-3. - P. 56-76.

4. Vinogradova O. S. Gippokamp i pamjat'. - M.: «Nauka» - 1975 - 239 s.

5. Dorohina G. V. Avtomaticheskoe vydelenie sintaksicheski svjazannyh slov prostogo rasprostranennogo neoslozhnennogo predlozhenija / G.V. Dorohina, D. S. Gnit'ko // «Suchasna informacijna Ukraina: informatika, ekonomika, filosofija»: materiali dopovidej konferencii', 12 13 travnja 2011 roku, Donec'k, 2011. - T. 1. - S. 34-38.

6. Harlamov A.A. Perestrojka modeli mira, formiruemoj na materiale analiza tekstovoj informacii s ispol'zovaniem iskusstvennyh nejronnyh setej, v uslovijah dinamiki vneshnej sredy / A.A. Harlamov, V.V. Raevskij // Rechevye tehnologii - 2008. - №3 - S. 27-35.

7. Kharlamov A.A., Yermolenko T.V. Semantical Text Analysis on the Basis of Detecting of Key Predicate Structures. Proceedings of the 14-th International Conference «Speech and Computer SPEC0M'2011» -М. - 2011. - P. 383-388.

8. Hopfield J.J. Neural networks and physical systems with emergent collective computational abilities. Proc. Natl. Acad. Sci. 79 - 1982. - P. 2554-2558.

9. Radchenko A.N. Modelirovanie osnovnyh mehanizmov mozga. - L.: «Nauka» - 1969. - 211 s.

10.Harlamov A.A. Predsintaksicheskij analiz russko-anglijskih tekstov / A.A. Harlamov, T.V. Ermolenko, G.V. Dorohina, A.O. Zhuravljov // Programmnaja inzhenerija - 2013. - № 10 - S. 37-47.

11.Harlamov A. A. Razrabotka komponenta sintaksicheskogo analiza predlozhenij russkogo jazyka dlja intellektual'noj sistemy obrabotki estestvenno-jazykovogo teksta / A.A. Harlamov, T.V. Ermolenko // Programmnaja inzhenerija - 2013. - № 7 - S. 37-47.

12.Rahilina E.V. Kognitivnyj analiz predmetnyh imen: semantika i sochetaemost'. - M.: Russkie slovari -2000. - 416 s.

RESUME

A. A. Kharlamov, T. V. Yermolenko

Text Analysis: Linguistics, Semantics, Pragmatics in the Cognitive Approach Background: Currently, two basic approaches prevail in the automatic semantic analysis of texts: linguistic and statistical ones. The first one provides a very detailed analysis of the meaning of the text sentences, and the second one makes it possible to create a semantic representation of the whole text.

Materials and methods: Integration of the two approaches - linguistic and statistical ones -is represented in the paper. One can realize semantic and pragmatic analysis due to the integration. That allows to identifycation predicate structure chains for sentences of a text essential for representation of the text meaning.

Results: Predicate structures of sentences from T. I. Trofimova's textbook "Physics course", Moscow, "High Shool", 2001 are used as an example of an extended predicate structure of the text.

Conclusion: Combined application of fast statistical algorithms of text processing, as well as linguistic algorithms and knowledge bases in the form of dictionaries of valencies make it possible to obtain semantic representations of the whole text with accuracy typical for the linguistic approach.

Статья поступила в редакцию 06.07.2015.

i Надоели баннеры? Вы всегда можете отключить рекламу.