IV. ИНФОРМАЦИОННАЯ СТРУКТУРА ТЕКСТА И ПЕРЕВОД
Н.А. Герте-Немцева, А.И. Котельникова, Д.С. Курушин, Н.М. Нестерова
СМЫСЛОВОЕ СВЕРТЫВАНИЕ В СОКРАЩЕННЫХ ВИДАХ ПЕРЕВОДА
Аннотация. В статье рассматривается проблема смыслового свертывания исходного текста при порождении таких вторичных текстов, как реферат и аннотация. Теоретической основой исследования является психолингвистическая теория текста, разработанная А.И. Новиковым, согласно которой единицами содержания являются денотаты, связанные между собой предметными отношениями. Совокупность денотатов и их отношений образует иерархическую систему, которую можно представить в виде денотатного графа. В статье описаны исследования, проведенные в Пермском национальном исследовательском политехническом университете, направленные на изучение механизмов преобразования первичных текстов научно-технического характера во вторичные информационные документы.
Ключевые слова: реферат; аннотация; вторичный текст; перевод; смысловое свертывание; денотатная структура.
N.A. Gerte-Nemtsеva, A.I. Kotel'nikova, D.S. Kurushin, N.M. Nesterova Semantic compression in partial translation
Abstract. The article deals with the semantic compression of the source text while producing such secondary texts as summary and abstract. The psycholinguistic theory of text described by A.I. Novikov is used as the theoretical basis of the research. According to this theory content units are represented by denotata which are in subject relation. The denotata and their relations altogether form some kind of a hierarchical system, which can be represented as a denotatum graph. The article gives a report on the studies conducted at Perm National Research Polytechnic University which aim at
explaining the general principles of converting original sci-tech texts into secondary information documents.
Keywords: summary; abstract; secondary text; semantic compression; denotatum structure.
... только тот текст по-настоящему осмыслен, основное содержание которого можно выразить в сколь угодно краткой форме.
(А.А. Леонтьев) [Леонтьев, 1979, с. 29]
Хорошо известно, что в настоящее время стало совершенно нереальным отслеживать лавинообразный поток научной и технической информации, в связи с чем особенно востребованными являются так называемые вторичные тексты, представляющие в сокращенной форме содержание первичных текстов различного жанра (статей, монографий, материалов конференций и пр.). Это же касается и перевода. Он может быть полным и неполным. Последний, в свою очередь, подразделяется на сокращенный перевод, фрагментарный перевод, аспектный перевод, аннотационный перевод и реферативный перевод. Самыми популярными и востребованными из вторичных информационных текстов являются рефераты общего назначения и так называемые «специализированные» рефераты, предназначенные для определенной группы исследователей.
Несомненно, в современном информационном процессе реферирование имеет огромное значение, являясь и самым действенным способом распространения информации, и в то же время достаточно сложным для референта. Сложность этого процесса заключается в проблеме выделения основной (актуальной для специалистов) информации из первичного текста и создание вторичного текста, в максимальной степени семантически и информационно адекватного тексту исходному. Совершенно очевидно, что в настоящее время, которое представляет собой эру расцвета информационных технологий, одной из самых острых и актуальных задач является разработка и создание автоматизированных систем реферирования, включая и реферативный перевод.
Сегодня можно говорить о двух активно развиваемых направлениях в разработке систем автоматического реферирования. Это так называемые «квазиреферирование» и «семантическое ре-
ферирование». Квазиреферирование основано на экстрагировании фрагментов первичных документов с последующим формированием из них квазирефератов. Семантическое реферирование (т.е. краткое изложение исходного материала) - это выделение из текстов с помощью методов искусственного интеллекта и специальных информационных языков наиболее важной информации и порождение новых текстов, содержательно обобщающих первичные документы. Этот метод основан на «понимании» машиной естественного языка и, соответственно, текста.
Совершенно очевидно, что второй метод значительно сложнее реализовать. В свое время А.И. Новиков, рассуждая о возможности формализации процесса понимания, подчеркивал, что успешно решаются те задачи, где преобладает логический компонент, в то время как практически нерешаемыми остаются задачи, в основе которых лежит семантика [Новиков, 1983, с. 170].
В последние годы в Пермском национальном исследовательском политехническом университете ведутся исследования, направленные на создание системы автоматического реферирования с использованием семантического метода, а именно методики денотативного анализа текста, детально разработанной А.И. Новиковым.
Главным полученным достижением данных исследований сегодня можно считать возможность компьютерного генерирования графов с помощью описаний предметных областей. Дальнейшим шагом должно стать «обучение» системы порождать тексты рефератов, которые будут отвечать требованиям адекватности и точности. В настоящее время делается попытка решить эту задачу.
Очевидно, что задача окончательной разработки автоматизированной системы реферирования, основанной на создании де-нотатного графа, отражающего содержание той или иной предметной области, является более чем сложной. Эти сложности связаны с тем, что представление содержания в виде графа накладывает определенные ограничения на выбор языковых единиц для обозначения имен денотатов и их отношений. Так, для имен денотатов используются только номинативные элементы языка, при этом выбираются те, которые являются инвариантными для обозначения объектов. Для обозначения межпредметных отношений используются глагольные конструкции, количество которых невелико.
Отметим, что эта задача является задачей искусственного интеллекта, поскольку одновременно связана с моделированием понимания, применением программной системы, учетом факторов
неопределенности, отсутствием явных критериев оптимизации и т.д. На сегодняшний день в ходе тестирования разрабатываемой системы машиной было автоматически построено более 100 графов на основании формализованного представления различных предметных областей. Сразу же следует отметить, что полученные автоматизированным путем денотатные графы значительно отличаются от графов, построенных человеком. В автоматически созданных денотатных графах присутствуют отношения, которые могут отсутствовать в графах, разработанных «вручную», что свидетельствует о «неспособности» машины исключать нерелевантные для порождения текстов связи.
Таким образом, можно сказать, что, несомненно, решение задачи формализации процесса понимания, о чем мечтал и писал А.И. Новиков, еще не завершено, но работа ведется, о чем и свидетельствуют результаты, представленные в статьях, опубликованных как в этом сборнике (см. статьи: Д.С. Курушин, Е.Р. Леонов, О.В. Соболева; Е.К. Ерискина, А.Е. Коваль, Д.С. Курушин, О.А. Мен-жаева; Д.С. Курушин, О.В. Соболева, Д.С. Вяткин) так и ранее [Герте, 2014; Герте, 2015; Герте, 2016; Курушин, Нестерова, Овчинникова, 2014; Кетова, 2013, 2014 и др.].
Однако параллельно с работой по созданию автоматизированной системы нашей группой проводились экспериментальные исследования реферативного и аннотационного видов перевода также с опорой на эксплицитное представление содержания исходного текста в виде денотатного графа. Цель этих работ - изучение механизмов смыслового свертывания при порождении вторичного текста.
Как известно, процесс создания вторичного текста представляет собой последовательность мыслительных операций, главным этапом которого является наличие промежуточного звена как результата понимания исходного текста. Согласно модели порождения вторичного текста А.И. Новикова, таким промежуточным звеном является денотатная структура (ДС), которая и выступает как замысел вторичного текста. Использование ДС позволяет предложить, с одной стороны, модель порождения вторичных текстов, что и было сделано в работе А.И. Новикова и Н.Л. Сунцовой [Новиков, Сунцова, 1999]. С другой стороны, ДС может использоваться как критерий семантической адекватности первичного и вторичного текстов. Впервые такого типа исследование было
проведено нами совместно с А.И. Новиковым [Новиков, Нестерова, 1991].
В наших первых работах объектом исследования являлись только тексты рефератов «общего назначения». В настоящее время работа продолжена на материале специализированных рефератов, а также на материале других неполных видов перевода, в частности, аннотационного. Ниже кратко представлены основные результаты двух проведенных исследований.
Рассмотрим сначала реферативный перевод. Главное в этом процессе (как и в других видах перевода) - понимание. Именно понимание связывает между собой два процесса, которые составляют специфику реферативного перевода: межъязыковое преобразование и реферирование, т.е. свертывание информации. В совместной работе с А.И. Новиковым «Реферативный перевод научно-технических текстов» на основе проведенного экспериментального исследования был сделан вывод, что «реферативный перевод представляет собой особый вид речемыслительной деятельности, в которой ни перевод, ни реферирование не существуют отдельно» [Новиков, Нестерова, 1991. с. 11], при этом главным механизмом в этом виде речемыслительной деятельности является смысловое свертывание.
Очевидно, что любое смысловое свертывание предполагает наличие некоторого инварианта. Согласно теории текста А.И. Новикова, таким инвариантом является денотатная структура. Он подчеркивал, что содержание текста не сводится к его композиционному плану, а определяется логикой предметных отношений. В частности, он писал, что «содержательная сторона языковых единиц может быть определена в процессе их функционирования, в речи, где происходит перестройка их предметной соотнесенности, результатом чего является определение соответствующих денотатов. <...> денотат понимается как динамическая единица речи, возникающая в мышлении, за которой стоит предметная действительность. Денотат не задан заранее как лексическое значение слова, поэтому каждый раз он должен быть найден в процессе декодирования языкового выражения» [Новиков, 1983, с. 106-107]. Из сказанного следует, что понимание текста - это процесс нахождения денотатов, выявления их отношений и главное - их структурирование согласно моделируемой предметной ситуации.
Наши исследования были проведены на материале текстов, относящихся к двум предметным областям: «технологии в нефтя-
ной промышленности» и «авиадвигатели». Так, в работе с текстами первой группы ставилась цель показать процесс свертывания информации при создании специализированного реферата, предназначенного для определенной целевой аудитории. На основе выявленных «запросов» специалистов один и тот же текст был использован как первичный (исходный) для создания рефератов, ориентированных на различные группы специалистов.
Исходя из понимания реферативного перевода как перехода Т - ДС - Т2 (первичный текст - денотатная структура - вторичный текст), для каждого первичного текста был создан так называемый «эталонный граф», отражающий общую информацию и основные, базисные отношения между денотатами в первичном документе. На его основе был составлен текст реферата «общего назначения». Затем данный «эталонный» граф и реферат легли в основу специализированных графов и соответствующих им вторичных текстов.
На рис. 1 представлен граф текста статьи «Smart Fields -Making the Most of our Assets» («Умные месторождения - путь к максимальной рентабельности разработки запасов») [De Best, Van den Berg, 2006]. Данная статья раскрывает концепцию «умных» месторождений для увеличения рентабельности, дебита и производительности скважины.
Рис. 1.
Денотатный граф, построенный на основании статьи «Smart Fields - Making the Most of our Assets»
Текст реферата:
Концепция «умных» месторождений применяется с целью увеличения добычи самыми рентабельными путями, ускорения ввода объектов в эксплуатацию и повышения извлекаемости запасов, а также последующего мониторинга и оценки месторождения.
Концепция обеспечивает наличие трех главных составляющих, необходимых для эффективной эксплуатации любого оборудования. Это надежные рабочие данные, устройство для превращения данных в информацию об объекте и его эксплуатации, а также высококвалифицированные специалисты.
Наблюдается положительная оценка влияния концепции на бизнес компании в различных сферах.
На «умных» скважинах используются средства беспроводной связи, современные программы по моделированию, удаленные датчики, а также устройства контроля и телеметрии.
Для реализации концепции были изучены и созданы новые модели сотрудничества с промышленными партнерами и исследовательскими институтами для развития необходимых технологий.
Этот же исходный текст был использован для создания специализированных рефератов, ориентированных на соответствующие группы специалистов, работающих в разных сферах нефтегазовой отрасли (РНГМ - разработка нефтяных и газовых месторождений, ГНГ - геология нефти и газа, ФП - физика пласта, МОН - машины и оборудование, НГП - нефте- и газопроводы, БНГС - бурение нефтяных и газовых месторождений).
Отбор информации для таких рефератов осуществлялся на основе не текста, а графа. Именно из него выбирались фрагменты для последующего написания реферата. Мысль о возможности реферативного перевода оригинального документа и создании различных по содержанию рефератов на основе одного текста базируется на утверждении А. И. Новикова о том, что не существует «непосредственной соотнесенности содержания текста и его словесной формы выражения» [Новиков, 1983 а, с. 47]. Вариативность текстов рефератов достигается путем постановки конкретной цели перевода, в нашем случае - это целевая аудитория, которой мы адресуем реферативный текст. К. Маккьюин заметил, что цель организует информацию и что «из одного и того же фрагмента базы знаний можно получить разные тексты в зависимости от используемой коммуникативной стратегии» [Маккьюин, 1989, с. 320].
Ниже приводятся графы (рис. 2 и 3) для специализированных рефератов и соответствующие им тексты.
Рис. 2.
Денотатный граф (РГНМ)
Текст реферата (РГНМ):
Концепция «умных» месторождений применяется с целью увеличения добычи самыми рентабельными путями.
Положительная оценка влияния концепции на бизнес компании связана с повышением конечной извлекаемости, добычи, снижением рисков разработки, техникой безопасности, охраной здоровья и защитой окружающей среды.
На умных скважинах используют средства беспроводной связи, современные программы по моделированию, удаленные датчики, а также устройства контроля и телеметрии.
Для реализации концепции были изучены и созданы новые модели сотрудничества с промышленными партнерами и исследовательскими институтами для развития необходимых технологий. Так, концепции умных скважин доказали себя в качестве решения при разработке некоторых месторождений, план которых включал горизонтальные скважины, с целью селективной эксплуатации для обеспечения максимального притока и отдачи пласта.
Основное внимание в данном реферате уделено таким положениям, как извлекаемость, добыча нефти, приток и отдача пласта. Это ключевые понятия в области разработки месторождений. Также приводится информация о возможностях применения данной концепции для разработки месторождений с горизонтальными скважинами.
Следующий специализированный реферат был написан для специалистов-геологов (ГНГ), для чего был также использован денотатный граф (рис. 3).
Рис 3.
Денотатный граф (ГНГ)
Текст реферата (ГНГ):
Концепция «умных» месторождений применяется с целью увеличения добычи самыми рентабельными путями.
Наблюдается положительное влияние концепции на бизнес компании за счет повышения добычи, продления срока эксплуатации месторождения и сокращения ремонтных работ.
На умных скважинах используются средства беспроводной связи, современные программы по моделированию, удаленные датчики, а также устройства контроля и телеметрии. Программный пакет обновляет данные, выполняет непрерывный мо-
ниторинг добычи и вносит корректировки в работу систем, изменяя геологические модели и модели добычи.
Данные из скважины поступают во внутреннюю систему DACA, которые направляются инженеру или в экспертные группы, в которые входят специалисты, применяющие программные средства визуализации и моделирования и анализирующие данные.
Для реализации концепции были изучены и созданы новые модели сотрудничества с промышленными партнерами и исследовательскими институтами для развития необходимых технологий.
В данном специализированном реферате ключевыми моментами считаются положения, связанные с проведением моделирования, мониторинга месторождения и его оценки для изменения моделей добычи. В нем присутствует информация о специальном программном пакете, который используют специалисты с помощью средств визуализации и моделирования. Как видно из приведенных графов и текстов рефератов, каждый раз информация выбиралась исходя из ориентации на определенную группу специалистов . При этом отбор происходил не на вербальном уровне, а на предметном. Другими словами, это не случайный выбор, а моделирование соответствующей предметной ситуации, т.е. то самое понимание, необходимое для смыслового свертывания, поскольку, как отмечал А.И. Новиков, «при неполном понимании процесс свертывания может иметь случайный (стохастический) характер» [Новиков, 2007, с. 28].
Продолжением исследования стало изучение смыслового свертывания в различных видах неполного перевода. Для этого были использованы тексты, относящиеся к предметной области «авиадвигатели». Мы предположили, что денотативный анализ текста и его результат - денотатный граф - позволяет адекватно осуществлять смысловое свертывание разного уровня и в разном направлении. А.И. Новиков в своей последней работе выделял два основных признака текста: информативность и компрессионность. Оба эти свойства представляются значимыми при преобразовании полного текста в сокращенный. Особо важным для порождения вторичных текстов является компрессионность, которую ученый определял как «возможность свертывания текста без существенного ущерба для понимания». Он подчеркивал, что «текст может быть свернут с различной степенью компрессии, причем, независимо от
1 Составление денотатных графов и написание рефератов выполнялось при участии соответствующих специалистов. - Прим. авт.
этой степени, он может быть развернут обратно в полный текст, при определенных условиях, достаточно близкий к исходному. Компрессивность базируется на понимании, являющемся условием адекватного свертывания» [Новиков, 2007, с. 28].
Итак, исходя из понимания компрессионности как онтологического свойства текста, мы рассмотрели свертывание информации при составлении двух различных видов вторичных текстов - реферата (как общего, так и специализированного) и аннотации. На первом этапе данного исследования также был построен «эталонный» граф, в котором бала отражена денотатная структура исходного текста (рис. 4). В качестве исходного был использован текст «Systems of Commercial Turbofan Engines. An Introduction to Systems Functions» (Системы турбореактивных двигателей для коммерческой авиации) А. Линке-Дизингера [Linke-Diesinger, 2008].
Рис. 4.
Денотатный граф для статьи «Systems of Commercial Turbofan Engines»
На основании вышеприведенного графа был написан информативный реферат, представляющий наиболее полное изложение содержания исходного текста.
Текст реферата:
Описаны основные характеристики турбореактивного (двухконтурного) двигателя (ТРД). ТРД состоит из системы непосредственно двигателя и вспомогательных систем (обвязки). При конструировании современных моделей используется модульный принцип. Типовой двигатель состоит из следующих модулей: модуль вентилятора, компрессор низкого давления (КНД), газогенератор, турбина низкого давления, коробка приводов агрегатов. Газогенератор является «сердцем» двигателя и включает в себя: компрессор высокого давления, камеру сгорания и турбину высокого давления. Модульная конструкция удобна в техническом обслуживании, при описании функций, выявлении и устранении неполадок в рабочем цикле.
Двигатель не может корректно выполнять все необходимые функции без вспомогательных систем: пневматической, электрической и гидравлической и др.
Все системы должны быть спроектированы в соответствии с выдвигаемыми требованиями безопасности, эксплуатации и технического обслуживания. Риски снижаются путем автоматизации систем, введения датчиков и надежного программного обеспечения. Анализ данных зондирования позволяет осуществлять контроль, диагностику, и прогнозирование неполадок. Хранение полученных данных осуществляется в целях дальнейшего технического обслуживания.
Анализ текста реферата и его сопоставление с графом свидетельствуют, что практически все компоненты графа нашли отражение в тексте реферата. Это означает, что реферат семантически адекватен исходному тексту, т.е. он сохраняет денотатную структуру реферируемого источника, а свертывание происходит за счет речевой компрессии / речевого сжатия. Для этого используются наиболее семантически емкие лексические единицы, способные замещать значительные фрагменты графа, которые в свернутом виде содержат в себе микроситуации, выступающие в тексте в роли подтем и субподтем.
Следующий этапом было аннотирование того же исходного текста. Исходя из определения аннотации как вторичного доку-
мента и используя тот же эталонный граф (рис. 5), мы выделили информацию, необходимую для этого типа текста.
Рис. 5.
Денотатный граф, использованный для составления аннотации
Аннотация. В статье дается описание типичного двухкон-турного турбореактивного двигателя. В дизайне современных ТРД применяется модульный принцип конструирования. ТРД состоит из собственно системы двигателя и обвязки, т.е. различных вспомогательных систем. Описаны также принцип их устройства, классификация и обслуживание.
Сопоставление текста аннотации с графом показывает, что в тексте аннотации отражены практически только подтемы1. Как известно, А.И. Новиков считал, что уровни графа соответствуют тематическому принципу организации текста. Так, верхний уровень графа - это тема текста, последующий - уровень подтем, ниже идут уровни субподтем. Именно такая иерархическая структура графа позволяет осуществлять свертку информации не случайным образом, а в зависимости от значимости ее элементов.
Сопоставление фрагментов графа, входящих в различные вторичные тексты - информативный реферат, специализированный реферат, аннотацию позволяет проанализировать направление свертывания. Так, в информационном общем реферате свертывание идет во всех направлениях - горизонтальном и вертикальном, охватывая все уровни - от темы текста до субподтем. При специализации реферирования свертывание идет в заданном «запросом» направлении: оно тоже, как правило, является горизонтальным и вертикальным. Глубина охвата информации бывает самой различной - реферат может включать субподтемы разного уровня (вплоть до самого низкого), но далеко не все подтемы. При аннотировании, наоборот, происходит горизонтальное свертывание с включением только подтем. Вышесказанное позволяет заключить, что благодаря денотатному анализу текста можно исследовать закономерности смыслового свертывания в различных видах смыслового преобразования текста, включая и неполные виды перевода.
Проведенные нами исследования как в области проектирования автоматических систем реферирования, так и механизмов смыслового свертывания в сокращенных видах перевода свидетельствуют, что идеи А.И. Новикова, высказанные им 35 лет назад, оказались очень плодотворными для теоретических и прикладных исследований текста, а также, что очень важно, для разработки технологий человеко-машинной коммуникации, важным компонентом которой является текст. Именно текст, по словам А.И. Новикова, «выступает в качестве основного объекта обработки, т.е. классифицирования, свертывания, преобразования структуры и содержания, хранения и поиска» [Новиков 1983, с. 3].
1 Оценочно-рекомендательная часть, обычно присутствующая в аннотации, специально не была включена в написанный нами текст, так как она не является результатом свертывания. - Прим. авт.
Список литературы
Герте Н.А. Денотативная модель специализированного реферативного перевода: Автореф. Дис. ... канд. филол. наук. - Пермь, 2016. - 18 с.
Герте Н.А. Методика денотативного анализа текста как возможный инструмент для автоматического реферирования // Вестн. Рос. нов. ун-та. Сер.: Человек в современном мире. - М., 2015. - № 3. - С. 35-38.
Герте Н.А. Реферативный специализированный перевод: Проблема адекватного извлечения информации // Вопр. психолингвистики. - М., 2014. - № 2(20). -С. 138-146.
Кетова А.Н. Реферативный перевод: Языковая компрессия и смысловое свертывание // Проблемы языка и перевода в трудах молодых ученых: Сб. науч. трудов. - Н. Новгород, 2013. - Вып. 11. - С. 117-125.
Кетова А. Н. Денотатная структура содержания как инвариант текста в процессе реферативного перевода // Социальные процессы в современном обществе: Сб. статей. - Пермь, 2014. - С. 197-204.
Курушин Д.С., Нестерова Н.М., Овчинникова И.Г. О возможном подходе к созданию системы автоматического реферирования // Вопр. психолингвистики. - М., 2014. - № 2(20). - С. 123-128.
Леонтьев А.А. Психологический портрет лектора. - М., 1979. - 47 с.
Маккьюин К. Дискурсивные стратегии для синтеза текстов на естественном языке / Пер. с англ. // Новое в зарубежной лингвистике. - М., 1989. - Вып. 24. - С. 311-357.
Новиков А.И. Текст и его смысловые доминанты. - М., 2007. - 224 с.
Новиков А.И. Семантика текста и ее формализация. - М., 1983. - 214 с.
Новиков А.И., Нестерова Н.М. Реферативный перевод научно-технических текстов. - М., 1991. - 148 с.
Новиков А.И., Сунцова Н.Л. Концептуальная модель порождения вторичного текста // Обработка текста и когнитивные технологии. - Пущино, 1999. - № 3. -С. 158-166.
Источники:
De Best L., Van den Berg F. Smart Fields - Making the most of our assets // SPE Russian Oil and Gas technical conf. and exhibition. - Moscow, 2006. - SPE 103575. Linke-Diesinger A. Systems of commercial turbofan engines: An introd. to systems functions. - Hamburg, 2008. - 239 p.