Научная статья на тему 'О возможном подходе к созданию системы автоматического реферирования'

О возможном подходе к созданию системы автоматического реферирования Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
217
49
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ДЕНОТАТ / DENOTATUM / СЕМАНТИЧЕСКАЯ СЕТЬ / SEMANTIC NET / РЕФЕРАТ / ABSTRACT / МОДЕЛИРОВАНИЕ / MODELING / АВТОМАТИЧЕСКОЕ РЕФЕРИРОВАНИЕ / СОДЕРЖАТЕЛЬНАЯ СТРУКТУРА ТЕКСТА / CONTENT STRUCTURE OF THE TEXT / AUTOMATED ABSTRACTING

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Курушин Даниил Сергеевич, Нестерова Наталья Михайловна, Овчинникова Ирина Германовна

В статье представлен один из возможных подходов к созданию системы автоматического реферирования. В основу подхода положена методика формализованного представления содержания текста, разработанная школой Н.И. Жинкина и А.И. Новикова. Предлагаемый подход предполагает создание семантически адекватной модели определенной предметной области, которая и будет использована компьютером для создания реферата конкретного текста.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по языкознанию и литературоведению , автор научной работы — Курушин Даниил Сергеевич, Нестерова Наталья Михайловна, Овчинникова Ирина Германовна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

On a Possible Approach to the Creation of a System of Automated Abstacting

The paper presents one of the possible approaches to the creation of automated abstracting system. The approach is based on the technique of formalized text content representation developed by the school of Nikolay I. Zhinkin and Anatoliy I. Novikov. The proposed approach involves the creation of a semantically adequate model of a particular object area, which will be used to create an abstract.

Текст научной работы на тему «О возможном подходе к созданию системы автоматического реферирования»

УДК 81.33

Д.С. Курушин, Н.М. Нестерова, И.Г. Овчинникова

О ВОЗМОЖНОМ ПОДХОДЕ К СОЗДАНИЮ СИСТЕМЫ АВТОМАТИЧЕСКОГО РЕФЕРИРОВАНИЯ1

В статье представлен один из возможных подходов к созданию системы автоматического реферирования. В основу подхода положена методика формализованного представления содержания текста, разработанная школой Н.И. Жинкина и А.И. Новикова. Предлагаемый подход предполагает создание семантически адекватной модели определенной предметной области, которая и будет использована компьютером для создания реферата конкретного текста.

Ключевые слова: денотат, семантическая сеть, реферат, моделирование, автоматическое реферирование, содержательная структура текста.

Daniel S. Kurushin, Natalya М. Nesterova, Irina G. Ovchinnikova

The paper presents one of the possible approaches to the creation of automated abstracting system. The approach is based on the technique of formalized text content representation developed by the school of Nikolay I. Zhinkin and Anatoliy I. Novikov. The proposed approach involves the creation of a semantically adequate model of a particular object area, which will be used to create an abstract.

Keywords: denotatum, semantic net, abstract, modeling, automated abstracting, content structure of the text.

Использование компьютерных технологий для решения задач, связанных с моделированием мыслительной деятельности, в настоящее время уже не считается чем-то далеким от реальности. Анализируя возможности автоматизированных систем, предназначенных для решения задач, связанных с естественным языком, А.И. Новиков подчеркивал, что успешно решаются те задачи, где преобладает логический компонент, в то время как практически нерешаемыми остаются задачи, в основе которых лежит семантика [Новиков 1983]. К последним относятся все задачи, в которых предполагается в той или иной форме моделирование понимания. Именно такой задачей является проблема автоматического реферирования, решение которой в современном информационном пространстве представляется более чем необходимым.

1 Работа выполнена при финансовой поддержке РФФИ, проект № 14-07-00671.

ON A POSSIBLE APPROACH TO THE CREATION OF A SYSTEM OF AUTOMATED ABSTACTING

Реферат, генерируемый компьютерной программой, предназначен для человека и, соответственно, должен быть по мере возможности приближен к реферату, созданному человеком, чтобы пользователь автоматического реферата не испытывал неудобств при обработке и интерпретации представленной в нем информации. Для этого необходимо охарактеризовать процесс понимания и предложить релевантную задаче модель понимания текста, пригодную для описания реферирования как вида речевой деятельности. Результат реферирования текста или собрания текстов человеком представляет собой тот привычный пользователю стандарт реферата, который он хотел бы получить на выходе автоматического квазиреферирования. В таком случае можно выделить три основных этапа подготовки автоматического реферата (квазиреферата):

- отбор и интерпретация текстов из некоторого корпуса,

- выбор необходимых для создания реферата частей текстов,

- синтез текста реферата из выбранных необходимых частей текстов.

На первом этапе речь идет о компьютерном моделировании понимания текста, то есть об алгоритме семантической обработки текста, в результате которой содержание текста может быть представлено парой предложений. Именно эта условная пара предложений и может войти в реферат. Второй этап - это отбор фрагментов текста, которые также могут быть включены в реферат. Отбор происходит на основе семантической близости фрагментов текста теме реферата. На третьем этапе необходима модель понимания текста реферата человеком в качестве критерия оценки автоматически сгенерированного реферата. На наш взгляд, «компьютерное понимание» текста правомерно представлять без обращения к формализации собственно языковой семантики. Достаточно разработать систему формальных признаков, позволяющих распознавать ключевые для содержания текста слова, неоднословные номинации и высказывания. С другой стороны, семантическая обработка, позволяющая переформулировать систему семантических связей языковых единиц в систему связей между денотатами, дает возможность более тонко обработать корпус текстов. Таким образом, можно предложить два подхода к созданию программ автоматического реферирования: формальный и денотативный; в рамках двух подходов мы попытались разработать две разных модели.

Денотативная модель особо применима к реферативному переводу, наиболее востребованному в настоящее время, поскольку именно он является наиболее эффективным способом обработки первичного иноязычного текста, позволяющим ознакомиться с основным содержанием первоисточника. В связи с этим более чем закономерным нужно считать популярность и распространенность во всем мире так называемых реферативных журналов (РЖ). Именно они служат средством оперативного оповещения специалистов о публикуемой в мире новой научно-технической литературе, и они же являются инструментом для ретроспективного поиска научных документов по соответствующим отраслям знания, проблемам и предметам.

Что же представляет собой реферат как вторичный текст? Согласно определению, реферат - это «семантически адекватное, ограниченное малым объемом и вместе с тем возможно более полное изложение основного содержания первичного

документа» [Жанры... 1983: 225]. Принципиальным в этом определении является, на наш взгляд, понятие основного содержания. Представляется, что данное понятие в массовом сознании является весьма нечетким, соответственно, и его выделение из текста носит достаточно субъективный характер, что и сказывается на тексте реферата.

Таким образом, если попытаться построить модель именно реферативного перевода, то необходимо подчеркнуть наличие в нем промежуточного звена, представляющего собой результат осмысления и понимания текста в целом, который фиксируется в памяти в виде целостного мыслительного образования. Он, однако, не имеет эксплицитного выражения, но это образование становится замыслом нового текста - текста реферата. Поэтому реферат - это не просто результат редукции исходного текста, а результат его смыслового преобразования, обязательным этапом которого является смысловое свертывание, совершаемое в процессе осмысления и понимания исходного текста в целом.

Исследования А.И. Новикова позволяют во многом углубить понимание механизмов смыслового свертывания и, соответственно, выделения основного содержания. Прежде всего это касается фундаментальных свойств текста, среди которых ученый особо выделял компрессивность. К этому свойству он обращается в связи с понятием целостности текста, которая есть «проекция на текст внутренней связности компонентов содержания» [Новиков 2007: 21]. Принципиально в данном контексте понятие внутренней связности, которая противопоставляется внешней (формальной). Эти два типа связности не обязательно совпадают, поэтому даже при отсутствии внешней связности текст может восприниматься как внутренне связный и целостный. Это происходит потому, что «содержание текста формируется в сознании в принципиально ином коде, чем естественный язык», т.е. том коде, который был назван Н.И. Жинкиным универсально-предметным (УПК). На этом коде и базируется смысловой код, обеспечивающий «перевод» текста с естественного языка на внутренний, что ведет к иному (не линейному) представлению информации в сознании воспринимающего. Особенностью такого представления является симультанность (в отличие от сукцессивности языковых средств, образующих внешнюю форму текста). Благодаря этому содержание текста может быть свернуто в «нечто краткое, в некоторую точку, которую всегда можно развернуть во времени и пространстве» [Новиков 2007: 22]. Возможность свертывания и развертывания можно рассматривать, по мнению Новикова, как критерий целостности текста. Таким образом, компрессивность как свойство текста является производной от другого его свойства - целостности. На связь целостности и возможности свертывания указывал и А.А. Леонтьев, который писал, что целостный текст можно определить как «такой текст, который при переходе от одной последовательной ступени смысловой компрессии к другой, более "глубокой", каждый раз сохраняет для воспринимающего смысловое тождество, лишаясь маргинальных элементов. Иначе говоря, только тот текст по-настоящему осмыслен, основное содержание которого можно выразить в сколь угодно краткой форме» [Леоньев 1979: 29].

Предлагаемая нами модель ориентирована на денотативный подход, предполагающий формализацию семантики текста. Наш подход базируется как раз на

методике денотативного анализа текста, разработанной Н.И. Жинкиным и А.И. Новиковым. На основе этой методики была предложена модель реферативного перевода, особенностью которой является наличие промежуточного звена при переходе от исходного текста к тексту реферата [Новиков 1991; Нестерова 2011]. Данное звено представляет собой результат понимания исходного текста, который может быть эксплицирован в графической форме, где вершинам графа соответствуют денотаты, о которых идет речь в тексте, а ребрам - отношения, связывающие данные денотаты. Таким образом, в общем виде модель можно представить как поэтапный переход Т1 - ДС - Т2. Данная модель представляет собой попытку разработки системы уже не лингвистического, а именно семантического анализа текста на основе знаний о предметной области, т.к. она включает в себя графовое представление выбранной конкретной предметной области, что предполагает создание корпуса текстов и их обработку для введения в машину. Обработка нацелена на извлечение предметного содержания текстов и последующего обобщенного формализованного представления в виде графа (дерева) той или иной предметной области. Данная задача была решена нами на базе ограниченного количества стандартизированных текстов.

Этот процесс в большей степени соответствует естественному текстопорож-дению и, при условии создания такой модели, позволит получать семантически адекватные рефераты. Ключом к решению этой задачи является создание семантически адекватной модели предметной области. Теоретически современные методы вычислительной лингвистики позволяют строить такие модели, но этот процесс является достаточно трудоемким. Выход видится в создании самообучающейся системы и подготовке корпуса текстов («учебника») для ее первоначального обучения. В этом случае в распоряжении реферирующего алгоритма окажется достаточно полная семантически адекватная модель предметной области текста. Предполагается, что реферирующий алгоритм будет анализировать Т1, устанавливать соответствия между его структурными элементами и моделью предметной области, получая таким образом «подграф», соответствующий данному тексту. Затем алгоритм переходит к фазе текстопорождения, выполняя обход подграфа таким образом, чтобы удовлетворить критериям, заданным пользователем - заказчиком реферата: минимальная и максимальная длина текста, обязательное освещение или неосвещение тех или иных фактов и т.п. Важным моментом является то, что дено-татная модель текста инвариантна относительно языков Т1 и Т2. Это позволяет говорить о возможности реферативного перевода с высокой степенью семантической адекватности.

Предложенная модель была верифицирована в ходе экспериментального реферирования, результаты представлены в ряде публикаций авторов. Модель делает возможным создание рефератов как общих, так и специализированных, предназначенных для определенной категории специалистов.

Литература

Жанры информационной литературы: обзор, реферат / A.A. Гречихин, И.Г. Здоров, В.И. Соловьев. - М.: Книга, 1983. - 320 с.

Леонтьев A.A. Психологический портрет лектора. - М.: Знание, 1979. - 47 с.

Нестерова Н.М. Реферативный перевод: проблема смыслового свертывания и семантической адекватности // Вестник ЧелГУ. Серия «Филология. Искусствоведение». Вып. 58. - 2011. - № 25 (240). - С. 112-119.

Новиков А.И. Текст и его смысловые доминанты. - М.: Институт языкознания РАН, 2007. - 224 с.

Новиков А.И., Нестерова Н.М. Реферативный перевод научно-технических текстов. - М.: Наука, 1991. - 148 с.

i Надоели баннеры? Вы всегда можете отключить рекламу.