3. Ложкин С. А., Седелев О. Б. О реализации функций алгебры логики BDD, вложенными в единичный куб // Вести. Моск. ун-та. Сер. 15. Вычисл. матем. и киберн. 2006. № 4. С. 29-35.
4. Седелев О. Б. О сложности реализации функций алгебры логики схемами из функциональных элементов в мультиплексорном базисе, вложенными в единичный куб // Тезисы XV Международной школы-семинара "Синтез и сложность управляющих систем". Новосибирск: Изд-во Ин-та матем. им. C.JI. Соболева, 2004.
5. Яблонский C.B. Введение в дискретную математику. М.: Наука, 1979.
6. Lee C.Y. Representation of switching circuits by binary decision programs // BSTJ. 1959. 38. N 4. P. 985-1000.
7. Ложкин С. А. О сложности реализации функций алгебры логики схемами и формулами, построенными из функциональных элементов с прямыми и итеративными входами // Труды III Международной конференции "Дискретные модели в теории управляющих систем". М.: Диалог-МГУ, 1998. С. 72-73.
8. Ложкин С. А. Оценки высокой степени точности для сложности управляющих систем из некоторых классов // Математические вопросы кибернетики. Вып. 6. М.: Наука, 1996. С. 189-214.
Поступила в редакцию 18.04.07
УДК 519.6
О.А. Емашова
ОБ ОДНОМ ПОДХОДЕ К АВТОМАТИЧЕСКОМУ РЕФЕРИРОВАНИЮ РУССКОЯЗЫЧНЫХ ТЕКСТОВ
(кафедра алгоритмических языков факультета ВМиК, e-mail: [email protected])
В работе рассматривается новый метод автоматического реферирования русскоязычных текстов, учитывающий их функциональный стиль. Тексты разбиты на пять групп, для каждой из которых разработан собственный сценарий построения реферата. Описан общий настраиваемый алгоритм, воплощающий возможности всех разработанных сценариев.
Введение. Вопрос автоматического составления рефератов особенно актуален в связи с постоянно возрастающим количеством текстовых документов, хранимых и обрабатываемых в электронном представлении. Ежедневно человек вынужден работать с огромным числом документов на естественном языке. Просмотр большого количества текстов отнимает очень много времени, к тому же после прочтения часто оказывается, что не все документы были релевантными. Уменьшить объем просматриваемых текстов человеку помогают системы автоматического реферирования.
Рефераты можно разделить на два основных вида: индикативный и информативный. Индикативный реферат (иначе называемый аннотацией) — это совокупность ключевых слов/фраз исходного документа и некоторых его характеристик, таких, как имя автора, стиль, жанр, объем, год издания. Существуют алгоритмы, позволяющие создавать индикативные рефераты, однако большее внимание исследователи уделяют методам построения информативных рефератов. Информативный реферат содержит главные факты и выводы исходного документа, отличительными чертами реферата являются краткость, отсутствие маловажной информации и информации, не содержащейся в исходном документе. Реферат может быть использован в качестве сопровождающего, вспомогательного текста для быстрого ознакомления с ключевыми положениями и общим содержанием исходного документа. В то же время информативный реферат часто может служить равносильной заменой текста.
В настоящее время разработано и широко используется несколько методов автоматического реферирования текстов на различных языках. Применяемые методы можно разделить на две основные категории. Первый подход к решению задачи автоматического построения реферата основан на анализе исходного текста и переводе его во внутреннее представление системы. Далее происходит обработка и сокращение внутреннего представления, после чего генерируется текст конечного реферата. Как правило, в качестве внутреннего представления используется семантическая сеть, в узлах которой хранится информация о сущностях, упоминающихся в тексте. Сеть позволяет точно отражать внутреннюю структуру текста и связи между отдельными его частями. Методы реферирования первой категории стремятся воплотить принцип построения реферата через понимание текста. В свое время
предпринимались попытки аналогичным образом решить проблему машинного перевода. Предлагалось автоматически извлекать смысл текста и формировать его внутреннее представление, а затем по внутреннему представлению строить текст на другом языке и таким образом переводить. Однако на этом пути результаты были достигнуты скромные, несмотря на то что исследования проводятся уже длительное время. Сложности, возникающие при реализации такого метода, повлияли на выбор подхода к решению проблемы автоматического реферирования текста. Большее внимание уделяется методам второй категории.
Ко второй категории относятся методы, основанные на составлении реферата из единиц исходного текста. Такой подход называется квазиреферированием. В общем случае рассматриваются некоторые единицы выборки: словосочетания, предложения, абзацы, параграфы. Эти единицы оцениваются по определенным схемам, среди них выбираются наиболее значимые, из которых и строится конечный реферат. Большинство используемых в настоящее время систем автоматического реферирования построено на базе второго подхода. Обоснованием его применимости могут служить действия обычного человека, пишущего реферат: из исходного текста он вычеркивает лишнюю информацию, а важные факты и выводы переносит в конечный реферат.
Среди алгоритмов второй категории выделяют несколько основных, обладающих своими ограничениями относительно области их применения. Алгоритмы общего назначения (реферирующие произвольные тексты) учитывают свойства, присущие большинству текстов на выбранном естественном языке. Самым известным методом квазиреферирования является статистический метод ТР*ЮР [1], основанный на выборе из текста предложений, в которые входят слова, чаще всего встречающиеся в исходном тексте. К алгоритмам общего назначения относятся также алгоритмы, опирающиеся на набор шаблонов. Часть этих шаблонов (как правило, это шаблоны предложений и/или словосочетаний) используется для извлечения значимой информации из исходного документа. Реферат же строится с использованием шаблонов второй группы, которые заполняются выбранной из текста информацией. Подобные алгоритмы приводят к однообразности и похожести построенных рефератов. Использование одних и тех же синтаксических конструкций и слов неприемлемо, если рефераты требуется строить регулярно.
Другие применяемые алгоритмы эффективно обрабатывают тексты из некоторого подмножества текстов на естественном языке, обладающего определенными свойствами. Самый распространенный вариант обработки — реферирование с учетом предметной области, к которой относится текст [2]. Для каждой такой области характерны определенные синтаксические конструкции, ограниченный словарь терминов. Это позволяет создавать высокоэффективные системы, направленные на решение задачи реферирования в частном случае. Однако такие системы сложно поддаются модификации при попытке расширить область их применения. В случае изменения темы часто требуется заново проводить исследования характерных для новой предметной области речевых оборотов и разрабатывать новые шаблоны словосочетаний и предложений, помогающие извлекать из текста важную информацию. При создании метода реферирования общего назначения следует руководствоваться другими принципами построения алгоритмов, так как особенности систем узкого профиля затрудняют использование и расширение их до эффективного инструмента реферирования произвольных документов. Еще один вариант узкоспециальных систем — системы, учитывающие стилистические особенности документа, такие, как относительная важность частей речи или характерная структура текстов разных стилей. В работе [3] описывается алгоритм, который реализует эту идею. Он также построен на шаблонах и обладает описанными выше недостатками.
Все известные системы автоматического составления рефератов используют те или иные модификации описанных выше методов. Иногда для повышения качества реферата применяются методы автоматического синтаксического анализа. В данной работе предлагается новый настраиваемый алгоритм реферирования, существенным образом учитывающий функциональный стиль исходного текста.
Особенности функциональных стилей русского языка. Функциональным стилем русского языка [4] называются правила и закономерности употребления языка в той или иной сфере речевой деятельности человека (к речевой деятельности относят как устную, так и письменную речь). Особенности функционирования языковых средств в разных ситуациях обусловливают существенные отличия текстов, относимых к отдельным функциональным стилям. Изучение характерных черт текстов внутри каждого функционального стиля позволит собрать дополнительную информацию, необходимую для разработки алгоритма реферирования текстов данного вида.
В русском языке принято выделять пять функциональных стилей [5]:
• научный;
• официально-деловой;
• публицистический;
• художественный;
• разговорный.
В приложении к вопросу автоматического реферирования письменного текста разговорный стиль не рассматривается. Каждый из выбранных функциональных стилей накладывает определенные ограничения и придает характерные черты текстам.
Научный стиль. Научный функциональный стиль представляет научную, учебную и справочную речевую деятельность. Характерными чертами текстов являются подчеркнутая логичность и последовательность изложения, отвлеченно-обобщенный характер речи. Стремление как можно более точно донести основную идею обусловливает ясную структуру предложений и всего текста и соответственно позволяет достигать высоких результатов при автоматической синтаксической обработке текста. Научному стилю присущ именной характер речи, что выражается в особой информационной загрузке имен существительных, обилии терминов и десемантизации глаголов [5]. Тексты научного стиля, как правило, подчиняются особым правилам построения: каждый логически завершенный отрывок основного текста фактически обрамляется предложениями, служащими своеобразным вступлением и заключением ко всему отрывку [4]. Кроме того, тексты часто сопровождаются списком ключевых слов, а информационная насыщенность заголовков параграфов и заголовка всего текста позволяет точнее выделять среди всех встретившихся сущностей наиболее важные. Документы, относящиеся к научному функциональному стилю, подвергаются реферированию чаще, чем документы других стилей.
Публицистический стиль. Тексты публицистического стиля печатаются в СМИ и носят социально-оценочный и информационный характер. Их отличительной чертой является использование широкого спектра выразительных языковых средств, употребление устаревших слов, слов в переносном значении. Для авторов характерно стремление к образности и эмоциональной насыщенности текста, что затрудняет решение задачи автоматического синтаксического анализа (а иногда и делает ее практически невыполнимой). Распределение информационной нагрузки по частям речи в текстах публицистического стиля является классическим для русского языка: самые важные части речи — это глагол и имя существительное [6]. Тексты публицистического стиля часто требуют реферирования в том или ином виде. Для повышения качества работы разрабатываемой системы предлагается выделить два подкласса публицистического стиля.
Информационно-публицистические жанры (ИПЖ). К этому классу отнесем так называемые новостные сообщения разных жанров. Реферирование коротких новостных сообщений на первый взгляд кажется излишним, однако требуется регулярно для составления новостных лент, в которых каждая новость описывается буквально одним-двумя предложениями. Новостные сообщения имеют известную особенность (часто применяемую как единственно эффективный параметр при их реферировании [7]): чем ближе предложение к началу текста, тем важнее в нем информация. Такая характеристика обусловлена ситуацией, в которой описанные жанры используются. Человек должен уловить суть новости с первых же прочитанных строк, а по мере прочтения он лишь дополняет основное знание подробностями.
Аналитико-публицистические жанры (АПЖ). Тексты этих жанров отражают более глубокое исследование определенной проблемы, анализ той или иной ситуации. Такой подход роднит тексты аналитико-публицистических жанров с текстами научных стилей. Однако родственность черт отражается лишь в схожей структурной организации статей и не касается информативной загруженности отдельных частей речи.
Официально-деловой стиль. Официально-деловой стиль обеспечивает функционирование языка в сфере делового и законотворческого общения. Обязательным условием делового общения является стремление к ясности и однозначности толкования текстов. Для официально-делового стиля характерен регулятивный, предписывающий характер речи [4]. Тексты часто подвергаются рубрикации, в них нередко присутствуют параллельные синтаксические перечисления, оформленные отдельными пунктами списков. В документах практически отсутствует вспомогательная, необязательная информация, что гарантирует равномерное распределение важных предложений внутри самого текста. То же самое можно сказать об информационной нагрузке различных частей речи в текстах официально-делового стиля — она распределена равномерно. При написании текста особое внимание уделяется наиболее
точному и краткому оформлению мысли, а значит, выборка слов для исходного текста производится с особой тщательностью.
Художественный стиль. Реферирование текстов художественного функционального стиля является среди обычных задач реферирования скорее исключением, чем правилом. В текстах художественного стиля используется множество сложных языковых приемов, позволяющих автору сделать свое произведение эмоционально насыщенным, интересным и уникальным. Автоматическая обработка этих текстов — задача сложная и нетривиальная, вследствие чего алгоритмы статистического анализа и автоматической синтаксической обработки показывают невысокие результаты. В данной работе предлагается в качестве реферата художественного произведения выбирать длинные представительные отрывки исходного текста, следовательно, пользователь сможет получить представление о стиле и форме изложения, а также об основных эпизодах сюжета.
Таким образом, тексты были разбиты на пять групп:
• научная группа;
• новостная группа;
• аналитическая группа;
• официально-деловая группа;
• художественная группа.
Были выделены определенные характеристики, свойственные текстам внутри каждой группы. Заметим, что некоторые специфические черты текстов делают невозможным построение на их основе единого алгоритма. Для каждой из выделенных групп текстов предлагается составить собственный метод реферирования. Все алгоритмы основываются на оценке и выборе наиболее представительных отрывков исходного текста, из которых формируется конечный реферат.
Алгоритмы обработки текстов разных стилей. Первый этап обработки текста (общий для всех групп) заключается в разбиении его на предложения и абзацы. После чего вычисляются характеристики информативности для единиц текста трех уровней: слова, предложения, абзацы. Такие характеристики (веса) вычисляются по-разному, в зависимости от функционального стиля реферируемого текста. Для вычисления характеристики информативности используются вектор 1п/-Агг[3] и функция 1п/-Рипс(п, т), наполнение которых создано с учетом функционального стиля текста; 1п/-Агг[3] — это массив коэффициентов информативности основных частей речи. Как было отмечено выше, разные части речи несут разную информативную нагрузку. Причем распределение этой нагрузки различается для групп. Помимо разной информационной загруженности частей речи описывалась зависимость важности предложений от их положения в тексте для некоторых групп; 1п/-Рипс(п, т) — это функция, вычисляющая дополнительный коэффициент важности в зависимости от положения конкретного предложения в отрывке текста. Возвращаемые функцией значения также зависят от функционального стиля текста. Общий вид формулы вычисления веса слов в тексте:
где /(г) — частотная характеристика слова, р{г) — функция, вычисляющая индекс, который соответствует части речи исходного слова, Кт(г) — коэффициент, позволяющий дополнительно увеличить важность слова в случае, если оно является важным в данном тексте. Общий вид формулы вычисления веса предложения (абзаца) в тексте:
где ] — порядковый номер предложения в абзаце (соответственно абзаца в тексте), т^ — вес к-го слова в предложении (соответственно вес к-го предложения в абзаце), N — длина предложения в словах (соответственно длина абзаца в предложениях), Ь — длина абзаца, в котором предложение встретилось, в предложениях (длина текста в абзацах).
После подготовки текста начинается сам процесс сокращения. Пользователь имеет возможность выбрать произвольный коэффициент сокращения (отношение длины исходного текста к длине конечного реферата). Для каждой группы текстов предлагается собственный метод обработки.
N
VIз = • Щ-РапсЦ, Ь)
В текстах художественной группы в качестве главной единицы обработки выбирается абзац. Слова заголовков по умолчанию не считаются более значимыми. Дополнительно пользователь может выбрать слова, которые войдут в список ключевых, что будет учтено при подсчете весов слов. Функция 1п/-Рипс(п, т) в этом случае всегда возвращает единицу, так как для текстов художественной группы зависимость важности предложения от его положения в тексте не определена. Таким образом, после предварительной обработки и подсчета весов абзацев среди них по очереди выбираются в порядке убывания те, которые обладают большим весом. Для формирования реферата выбранные абзацы располагают в том порядке, в котором они входили в исходный текст.
При реферировании текстов новостной группы следует учитывать, что в основном они достаточно коротки, поэтому стандартный расчет важности слов с опорой на статистику встречаемости в тексте не дает гарантии правильной оценки предложений. Однако благодаря краткости текста и его специфической структуре большинство предложений можно рассматривать как логически самостоятельные отрывки текста, кроме того, известно, что чем ближе предложение к началу текста, тем более ценную информацию оно содержит. Таким образом, в качестве единицы обработки выбираются предложения. Значения, возвращаемые функцией 1п/-Рипс(п, т), убывают по мере продвижения по тексту. Значимость частей речи для текстов новостной группы распределена по стандартному для русского языка принципу: самыми важными частями речи являются имя существительное и глагол. Все эти особенности учитываются на этапе вычисления информативных весов, а после предварительной обработки производится выборка предложений, начиная с самого весомого, в порядке убывания до тех пор, пока не будет достигнута требуемая длина реферата. Выбранные предложения, взятые в том же порядке, что и в исходном тексте, составляют конечный реферат.
В текстах аналитической группы распределение важных предложений иное. Самые важные предложения сосредоточены в начале и в конце каждого абзаца и всего текста. Это распределение описывает функция 1п/-Рипс(п,т), возвращая соответствующие значения. Аналитические тексты, как правило, обладают достаточной длиной и развернутостью, чтобы среди абзацев и предложений можно было выбрать те, которые могут войти в конечный реферат, опираясь большей частью на частотные характеристики слов. Однако синтаксическая обработка самих предложений и частичное их сокращение является нетривиальной задачей. Итак, после предварительной обработки начинается собственно процесс сокращения, который проводится в два этапа. На первом шаге выбираются самые представительные абзацы в объеме, превышающем длину требуемого реферата. Далее из абзацев вычеркиваются предложения, обладающие самым маленьким весом среди других выбранных. Это происходит до тех пор, пока реферат не достигнет требуемой длины.
Реферирование текстов научной и официально-деловой групп производится по одной и той же схеме с различиями в применяемых 1п/-Агг[3] и /п/_Рмпс(га, то). Для текстов официально-деловой группы наполнение 1п/-Агг[3] и /п/_Рмпс(га, т) — тождественная единица, так как все слова и предложения одинаково важны и тщательно выверены еще на этапе составления текста. Научная группа характеризуется десемантизацией глаголов, что приводит к повышению коэффициентов значимости имени существительного, имени прилагательного и причастия. Функция /п/_Рмпс(га, т) для предложений научных текстов работает так же, как для текстов аналитической группы. Кроме того, научные тексты зачастую сопровождаются списками ключевых слов. Заголовки текстов обоих видов несут важную информацию, поэтому слова, содержащиеся в них, приравниваются к ключевым. Стремление к четкости и строгости изложения в обоих случаях позволяет ожидать высоких результатов при автоматической синтаксической обработке предложений, а необходимость описывать сложные ситуации, закономерности и явления приводит к преобладанию длинных распространенных предложений над короткими и простыми. Вычисление весов ведется с учетом этих особенностей. После предварительной обработки начинается сокращение текста. Сокращение происходит в три этапа. Сначала выбираются представительные абзацы в совокупности по длине, превышающие требуемую длину реферата. На втором шаге производится выборка предложений, которые могут быть сокращены. В первую очередь частичному сокращению подвергаются списки, во вторую — сокращение производится по сочинительной и подчинительной связям внутри предложения в случаях, когда отдельный фрагмент предложения не содержит важной информации. После обработки предложений происходит удаление предложений, обладающих наименьшим весом до тех пор, пока не будет достигнута требуемая длина реферата. Второй этап обработки позволяет некоторым длинным предложениям, будучи частично преобразованными, попасть в конечный реферат, в то время как без преобразования из-за своей длины они стали бы первыми кандидатами на удаление.
В качестве завершающей обработки текста реферата (одинаковой для всех групп) производится проверка заголовков. Если ни одно из предложений отрывка не вошло в конечный реферат, то в него не включается и заголовок этого отрывка. И наоборот, если хотя бы одно из предложений отрывка выбрано в реферат, в него также попадает и заголовок.
Общий настраиваемый алгоритм. Все описанные методы основываются на оценке и выборе наиболее представительных отрывков исходного текста по разным, но схожим схемам. Общность идеи и использование одной и той же вспомогательной информации (/те/_Агт[3] и /п/_Рмпс(га, то)) позволяет создать единую настраиваемую стратегию реферирования и общий алгоритм, охватывающий все возможные сценарии работы. В свою очередь при обработке конкретного текста будут выбираться соответствующие группе текста параметры и модификация общего алгоритма обработки.
Параметр /п/_Агт[3][3] становится двумерным массивом, в котором задано три варианта распределения информативности частей речи:
• равномерное (для официально-деловой группы);
• с преимуществом глагола и имени существительного (для аналитической, новостной и художественной групп);
• с преимуществом имени существительного и имени прилагательного/причастия (для научной группы).
Соответственно вводится три вида функции распределения важности предложений:
• /те/_ЛГегУ5(п, то) — убывающая (для новостной группы);
• 1п/-Еуеп(п, т) — тождественная (для официально-деловой и художественной групп);
• /п/_5сгепсе(га, то) — параболическая (для аналитической и научной групп).
Предварительная обработка производится описанным выше способом с применением соответствующих группе параметров 1п/-Агг[3] и /п/_Рмпс(га, то). У пользователя есть возможность задать список ключевых слов. Сокращение производится в общем случае в три этапа, для каждого из которых определенным образом выбирается предел сокращения в зависимости от группы, к которой принадлежит текст. На первом шаге выбираются представительные абзацы, обладающие наибольшим весом. Суммарная длина превышает требуемую длину реферата в определяемое стилем количество раз. На втором шаге происходит сокращение предложений, если позволяет состав текста и это предусмотрено группой. Для сокращения выбираются длинные предложения, обладающие малым весом. Для каждого предложения строится синтаксическое дерево его связей. В синтаксическом дереве ищется ветвь сочинительной связи или часть параллельной синтаксической конструкции (пункт списка), собственный вес которых мал. Удаление найденного фрагмента повышает общий вес предложения и увеличивает его шансы попасть в конечный реферат. На последнем шаге вычеркиваются предложения, обладающие маленьким весом, до тех пор пока не будет достигнута требуемая длина реферата. В зависимости от группы исходного текста те или иные этапы обработки пропускаются.
Использование соответствующих распределений и пределов сокращения позволяет встроить все пять описанных выше стратегий сокращения в один алгоритм. Более того, при желании пользователь может создать на основе имеющихся средств собственную стратегию реферирования. Главным достоинством представленного алгоритма является возможность реферирования произвольных текстов на русском языке вместе со способностью настраиваться на особенности группы, к которой принадлежит текст.
Заключение. На основе предложенного алгоритма была создана программная система на языке С++. Эта система обрабатывает тексты в формате Пользователь открывает файл и выбирает в меню пункт "реферировать". Система строит сложную иерархическую структуру, содержащую текст, который разобран на параграфы, предложения и слова. Далее пользователю предлагается выбрать, к какому функциональному стилю относится текст. Реферирование можно проводить с любым коэффициентом сокращения, который также выбирает пользователь. Реферат строится по описанным выше алгоритмам и формулам. В зависимости от того, к какой группе принадлежит текст, выбирается соответствующая конфигурация двух основных вспомогательных средств: вектора 1п/-Агг[3] и функции 1п/-Рипс(п, то), а также расставляются флаги, обеспечивающие соответствующий группе проход алгоритма.
В процессе построения реферата используется морфологический анализатор и упрощенный синтаксический анализатор. Первый из них помогает собирать более точную статистику встречаемости
слов в тексте для оценки важности слов. Второй — позволяет проводить частичное сокращение предложений для документов официально-делового и научного стилей. Подключение модуля полного синтаксического анализа [8] позволит расширить возможности системы и рассмотреть альтернативные сценарии обработки и сокращения предложений, что повысит качество конечного реферата.
Созданная система была опробована на текстах разных функциональных стилей.
СПИСОК ЛИТЕРАТУРЫ
1. Luhn Н.Р. The automatic creation of literature abstracts // IBM Journal of Research and Development. 1958. 2(2). P. 159-165.
2. Oakes M.P., Paice C. D. The automatic generation of templates for automatic abstracting // 21st Annual BCS-IRSG Colloquium on IR. Glasgow, 1999.
3. Liang S.F., Devlin S., Tait J. Can automatic abstracting improve on current extracting techniques in aiding users to judge the relevance of pages in search engine results? // 7th Annual CLUK Research Colloquium. England: University of Birmingham, 2004.
4. Стилистический энциклопедический словарь русского языка / Под ред. Н.М. Кожиной. 2-е изд. М.: Флинта; Наука, 2006.
5. Валгина Н.С. Теория текста: Учеб. пособие. М.: Изд-во МГУП "Мир книги", 1998.
6. Голуб И. Б. Стилистика русского языка. М.: Рольф, 2001.
7. Seki Y. Sentence extraction by tf/idf and position weighting from newspaper articles. NTCIR Text Summarization Challenge, 2001.
8. Старостин С. А., Мальковский М.Г. Модель синтаксиса в системе морфосинтаксического анализа "Treeton" // Компьютерная лингвистика и интеллектуальные технологии. Труды международной конференции "Диалог 2006". М.: Изд-во РГГУ, 2006.
Поступила в редакцию 09.02.07