Научная статья на тему 'ЛИНГВИСТИЧЕСКАЯ ОЦЕНКА АВТОМАТИЧЕСКИ СГЕНЕРИРОВАННЫХ РЕФЕРАТОВ НОВОСТНЫХ ТЕКСТОВ'

ЛИНГВИСТИЧЕСКАЯ ОЦЕНКА АВТОМАТИЧЕСКИ СГЕНЕРИРОВАННЫХ РЕФЕРАТОВ НОВОСТНЫХ ТЕКСТОВ Текст научной статьи по специальности «СМИ (медиа) и массовые коммуникации»

CC BY
199
13
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
НОВОСТИ / РЕФЕРАТ / АВТОМАТИЧЕСКОЕ РЕФЕРИРОВАНИЕ / КАЧЕСТВО РЕФЕРАТА / КРИТЕРИИ КАЧЕСТВА РЕФЕРАТА

Аннотация научной статьи по СМИ (медиа) и массовым коммуникациям, автор научной работы — Белогорская Дарья Викторовна, Резанова Зоя Ивановна

Представлена оценка результативности двух алгоритмов автоматического реферирования текстов, находящихся в открытом доступе (алгоритм, написанный на языке программирования Python, и алгоритм онлайн-рефератора Text Compactor). Необходимость разработки эффективных систем оценки качества автоматического реферирования обусловлена лавинным нарастанием объема текстовой информации вообще и новостных текстов в частности. Создание эффективных систем сокращения текстов без утраты их информативности является условием повышения эффективности распространения и обработки информации. Вместе с тем тестовое использование алгоритмов реферирования текстов выявляет наличие погрешностей как в построении текста реферата, так и в характере его соотношения с исходным текстом. При проведении автоматического реферирования, как правило, его качество оценивается тоже автоматически. Основными метриками, которые используются для автоматической оценки качества рефератов, являются BLEU и ROUGE. Однако такие системы должны быть дополнены разработанными системами лингвистической интерпретации степени соответствия исходного и вторичного текста, направлений и причин отклонения от требуемых параметров. Целью нашей работы является разработка лингвистических критериев оценки качества реферата новостного текста и их применение к автоматически сгенерированным рефератам. На основе анализа существующих систем оценки «ручных» и автоматических систем реферирования текстов разной жанровой и дискурсивной отнесенности разработана система оценки качества реферата, применимая к реферированию новостных текстов. При формировании системы оценки выделены две группы критериев оценки качества реферата новости: структурные и содержательные. К структурным критериям относим соответствие структуры подаче информации в реферате и исходном тексте новости, к содержательным - полноту отражения содержания и точность передачи данных, степень полноты представления информации, наличие или отсутствие разрывов логики/связности текста и наличие или отсутствие повторов. При этом оценка реферата производилась с учетом функциональных и структурных особенностей жанра новости. Материалом исследования послужили тексты новостей информационного агентства «ТАСС» из рубрики «Происшествия». Всего для анализа отобрано 100 новостных текстов. На основе применения двух алгоритмов было получено 200 рефератов. Сравнение двух выборок рефератов показало, что при использовании первого алгоритма, который представлен онлайн-рефератором Text Compactor, допускалось больше ошибок, связанных со структурой текста, содержанием и полнотой представления информации. Второй алгоритм, разработанный на языке программирования Python, в плане отражения структуры, содержания и полноты представления информации работает лучше первого, однако текст реферата второго алгоритма получается достаточно большим, т.е. при этом нарушается базовая функция реферата - кратко и лаконично доносить основную суть первоисточника. Анализ выявил соотносимую эффективность их работы: только в 10% текстов рефератов не были обнаружены отклонения от норм построения реферата новости, в целом также оказались соотносимыми и зоны наибольшей проблемности - нарушение принципа структурной упорядоченности и наличие разрывов логики/связности текста. Количество текстов, в которых были обнаружены нарушения, связанные с точностью передачи информации, было незначительным (от 1 до 3%), но именно этот тип ошибок абсолютно недопустим в новостных текстах, вследствие чего именно данный аспект требует коррекции в первую очередь. Сохранение принципа полноты передачи информации при сокращении объема текста является сложной задачей, что отразилось в значительном количестве нарушений данного принципа в текстах, сгенерированных на основе проанализированных алгоритмов, в том, что в этом аспекте второй алгоритм показал лучшие результаты, однако они были достигнуты за счет увеличения его длины, что, в свою очередь, противоречит принципу реферирования. Выявление типов ошибок и степени регулярности их появления является важным первым этапом на пути их совершенствования.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по СМИ (медиа) и массовым коммуникациям , автор научной работы — Белогорская Дарья Викторовна, Резанова Зоя Ивановна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

LINGUISTIC EVALUATION OF AUTOMATICALLY GENERATED ABSTRACTS OF NEWS TEXTS

The article presents an assessment of the effectiveness of two algorithms for automatic summarization of texts that are in the public access (an algorithm written in the Python programming language and a free online automatic text summarization tool Text Compactor). The need to develop effective systems for assessing the quality of automatic summarization is due to an avalanche increase in the volume of text information in general and news texts in particular. The creation of effective systems for shortening texts without losing their information content is a condition for increasing the efficiency of disseminating and processing information. At the same time, the test use of text summarization algorithms reveals the presence of errors both in the construction of the abstract text and in the nature of its relationship with the original text. When conducting automatic summarization, as a rule, its quality is also automatically evaluated. The main metrics that are used to automatically evaluate the quality of abstracts are BLEU and ROUGE. However, such systems should be supplemented by developed systems of linguistic interpretation of the degree of correspondence between the original and secondary text, directions and reasons for deviation from the required parameters. The aim of our research is to develop linguistic criteria for assessing the quality of a news text abstract and their application to automatically generated abstracts. Based on the analysis of existing systems for assessing "manual" and automatic systems for summarizing texts of different genre and discursive attribution, a system was developed for assessing the quality of an abstract, applicable to summarizing news texts. When forming the evaluation system, we identified two groups of criteria for assessing the quality of a news abstract: structural and content. Structural criteria include the correspondence of the structure to the presentation of information in the abstract and the original text of the news. Content criteria include the completeness of the reflection of the content and the accuracy of data transmission, the degree of completeness of the presentation of information, the presence or absence of breaks in the logic/coherence of the text, and the presence or absence of repetitions. At the same time, the assessment of the abstract was made taking into account the functional and structural features of the news genre. The material of the research was the news texts of the TASS news agency from the "Emergencies" section. In total, 100 news texts were selected for analysis. Based on the use of two algorithms, 200 annotations were obtained. Comparison of two abstract samples showed that when using the first algorithm, which is represented by the Text Compactor online abstract, more errors were made related to the structure of the text, content and completeness of information presentation. The second algorithm, developed in the Python programming language, works better than the first one in terms of reflecting the structure, content and completeness of information presentation. However, the text of the abstract of the second algorithm turns out to be quite large, which indicates that the main function of the abstract is violated - to briefly and succinctly convey the main essence of the original source. The analysis revealed a comparable effectiveness of the use of both algorithms: only 10% of abstracts' texts did not reveal deviations from the norms for constructing a news abstract; the zones of greatest problematicity were also correlated - error of the principle of structural ordering and the presence of breaks in the logic/coherence of the text. The number of texts in which errors related to the accuracy of information transmission were found was insignificant (from 1 to 3%), but it is this type of errors that is absolutely unacceptable in news texts, and it is this aspect that requires correction in the first place. Maintaining the principle of completeness of information transfer while reducing the volume of the text is a difficult task, which is reflected in a significant number of violations of this principle in the texts generated on the basis of the analyzed algorithms. In this aspect, the second algorithm showed better results, but they were achieved by increasing the abstracts' length, which, in turn, contradicts the principle of summarization. Identifying the types of errors and the degree of their regularity is an important first step towards improving them.

Текст научной работы на тему «ЛИНГВИСТИЧЕСКАЯ ОЦЕНКА АВТОМАТИЧЕСКИ СГЕНЕРИРОВАННЫХ РЕФЕРАТОВ НОВОСТНЫХ ТЕКСТОВ»

Язык и культура. 2023. № 61. С. 15-28 /Language and Culture. 2023;61: 15-28

ФИЛОЛОГИЯ

Научная статья

УДК 81'44

doi: 10.17223/19996195/61/2

Лингвистическая оценка автоматически сгенерированных рефератов новостных текстов

Дарья Викторовна Белогорская1, Зоя Ивановна Резанова2

1 2 Томский государственный университет, Томск, Россия 1 dariabelogorskaya@mail.ru 2 rezanovazi@mail.ru

Аннотация. Представлена оценка результативности двух алгоритмов автоматического реферирования текстов, находящихся в открытом доступе (алгоритм, написанный на языке программирования Python, и алгоритм онлайн-рефератора Text Compactor). Необходимость разработки эффективных систем оценки качества автоматического реферирования обусловлена лавинным нарастанием объема текстовой информации вообще и новостных текстов в частности. Создание эффективных систем сокращения текстов без утраты их информативности является условием повышения эффективности распространения и обработки информации. Вместе с тем тестовое использование алгоритмов реферирования текстов выявляет наличие погрешностей как в построении текста реферата, так и в характере его соотношения с исходным текстом. При проведении автоматического реферирования, как правило, его качество оценивается тоже автоматически. Основными метриками, которые используются для автоматической оценки качества рефератов, являются BLEU и ROUGE. Однако такие системы должны быть дополнены разработанными системами лингвистической интерпретации степени соответствия исходного и вторичного текста, направлений и причин отклонения от требуемых параметров. Целью нашей работы является разработка лингвистических критериев оценки качества реферата новостного текста и их применение к автоматически сгенерированным рефератам.

На основе анализа существующих систем оценки «ручных» и автоматических систем реферирования текстов разной жанровой и дискурсивной отнесенности разработана система оценки качества реферата, применимая к реферированию новостных текстов. При формировании системы оценки выделены две группы критериев оценки качества реферата новости: структурные и содержательные. К структурным критериям относим соответствие структуры подаче информации в реферате и исходном тексте новости, к содержательным - полноту отражения содержания и точность передачи данных, степень полноты представления информации, наличие или отсутствие разрывов логики/связности текста и наличие или отсутствие повторов. При этом оценка реферата производилась с учетом функциональных и структурных особенностей жанра новости. Материалом исследования послужили тексты новостей информационного агентства «ТАСС» из рубрики «Происшествия». Всего для анализа отобрано 100 новостных текстов. На основе применения двух алгоритмов было получено 200 рефератов. Сравнение двух выборок рефератов показало, что при использо-

© Д.В. Белогорская, З.И. Резанова, 2023

вании первого алгоритма, который представлен онлайн-рефератором Text Compactor, допускалось больше ошибок, связанных со структурой текста, содержанием и полнотой представления информации. Второй алгоритм, разработанный на языке программирования Python, в плане отражения структуры, содержания и полноты представления информации работает лучше первого, однако текст реферата второго алгоритма получается достаточно большим, т.е. при этом нарушается базовая функция реферата - кратко и лаконично доносить основную суть первоисточника.

Анализ выявил соотносимую эффективность их работы: только в 10% текстов рефератов не были обнаружены отклонения от норм построения реферата новости, в целом также оказались соотносимыми и зоны наибольшей проблем-ности - нарушение принципа структурной упорядоченности и наличие разрывов логики/связности текста. Количество текстов, в которых были обнаружены нарушения, связанные с точностью передачи информации, было незначительным (от 1 до 3%), но именно этот тип ошибок абсолютно недопустим в новостных текстах, вследствие чего именно данный аспект требует коррекции в первую очередь. Сохранение принципа полноты передачи информации при сокращении объема текста является сложной задачей, что отразилось в значительном количестве нарушений данного принципа в текстах, сгенерированных на основе проанализированных алгоритмов, в том, что в этом аспекте второй алгоритм показал лучшие результаты, однако они были достигнуты за счет увеличения его длины, что, в свою очередь, противоречит принципу реферирования. Выявление типов ошибок и степени регулярности их появления является важным первым этапом на пути их совершенствования.

Ключевые слова: новости, реферат, автоматическое реферирование, качество реферата, критерии качества реферата

Источник финансирования: исследование выполнено при поддержке Программы развития Томского государственного университета (Приоритет-2030).

Для цитирования: Белогорская Д.В., Резанова З.И. Лингвистическая оценка автоматически сгенерированных рефератов новостных текстов // Язык и культура. 2023. № 61. С. 15-28. doi: 10.17223/19996195/61/2

Original article

doi: 10.17223/19996195/61/2

Linguistic evaluation of automatically generated abstracts

of news texts

Daria V. Belogorskaya1, Zoya Iv. Rezanova2

12 National Research Tomsk State University, Tomsk, Russia 1 dariabelogorskaya@mail.ru 2 rezanovazi@mail.ru

Abstract. The article presents an assessment of the effectiveness of two algorithms for automatic summarization of texts that are in the public access (an algorithm written in the Python programming language and a free online automatic text summarization tool Text Compactor). The need to develop effective systems for assessing the quality of automatic summarization is due to an avalanche increase in the volume of text information in general and news texts in particular. The creation of effective sys-

tems for shortening texts without losing their information content is a condition for increasing the efficiency of disseminating and processing information. At the same time, the test use of text summarization algorithms reveals the presence of errors both in the construction of the abstract text and in the nature of its relationship with the original text. When conducting automatic summarization, as a rule, its quality is also automatically evaluated. The main metrics that are used to automatically evaluate the quality of abstracts are BLEU and ROUGE. However, such systems should be supplemented by developed systems of linguistic interpretation of the degree of correspondence between the original and secondary text, directions and reasons for deviation from the required parameters. The aim of our research is to develop linguistic criteria for assessing the quality of a news text abstract and their application to automatically generated abstracts.

Based on the analysis of existing systems for assessing "manual" and automatic systems for summarizing texts of different genre and discursive attribution, a system was developed for assessing the quality of an abstract, applicable to summarizing news texts. When forming the evaluation system, we identified two groups of criteria for assessing the quality of a news abstract: structural and content. Structural criteria include the correspondence of the structure to the presentation of information in the abstract and the original text of the news. Content criteria include the completeness of the reflection of the content and the accuracy of data transmission, the degree of completeness of the presentation of information, the presence or absence of breaks in the logic/coherence of the text, and the presence or absence of repetitions. At the same time, the assessment of the abstract was made taking into account the functional and structural features of the news genre. The material of the research was the news texts of the TASS news agency from the "Emergencies" section. In total, 100 news texts were selected for analysis. Based on the use of two algorithms, 200 annotations were obtained. Comparison of two abstract samples showed that when using the first algorithm, which is represented by the Text Compactor online abstract, more errors were made related to the structure of the text, content and completeness of information presentation. The second algorithm, developed in the Python programming language, works better than the first one in terms of reflecting the structure, content and completeness of information presentation. However, the text of the abstract of the second algorithm turns out to be quite large, which indicates that the main function of the abstract is violated - to briefly and succinctly convey the main essence of the original source.

The analysis revealed a comparable effectiveness of the use of both algorithms: only 10% of abstracts' texts did not reveal deviations from the norms for constructing a news abstract; the zones of greatest problematicity were also correlated - error of the principle of structural ordering and the presence of breaks in the logic/coherence of the text. The number of texts in which errors related to the accuracy of information transmission were found was insignificant (from 1 to 3%), but it is this type of errors that is absolutely unacceptable in news texts, and it is this aspect that requires correction in the first place. Maintaining the principle of completeness of information transfer while reducing the volume of the text is a difficult task, which is reflected in a significant number of violations of this principle in the texts generated on the basis of the analyzed algorithms. In this aspect, the second algorithm showed better results, but they were achieved by increasing the abstracts' length, which, in turn, contradicts the principle of summarization. Identifying the types of errors and the degree of their regularity is an important first step towards improving them.

Keywords: news, abstract, automatic summarization, quality of the abstract, criteria for the quality of the abstract

For citation: Belogorskaya D.V., Rezanova Z.I. Linguistic evaluation of automatically generated abstracts of news texts. Language and Culture, 2023, 61, рр. 15-28. doi: 10.17223/19996195/61/2

Введение

Данная статья посвящена проблеме оценки эффективности алгоритмов автоматического реферирования новостных текстов, находящихся в открытом доступе (алгоритм, написанный на языке программирования Python [1], и алгоритм онлайн-рефератора Text Compactor [2]).

Актуальность обращения к данной проблематике обусловлена информационной перенасыщенностью современного общества, формирующей потребность в оперативном создании информационно точных и емких текстов. Потребность обеспечивается созданием алгоритмов автоматического реферирования, однако уровень их точности, полноты, соответствия нормам грамматики и стилистики остается весьма низким, что обусловливает необходимость определения способов их совершенствования. При решении этой задачи мы видим в качестве первых шагов разработку критериев определения качества реферирования, на этой базе - оценки результатов применения действующих алгоритмов как основание выработки направлений их совершенствования.

Как отмечают специалисты в области реферирования, идеи необходимости создания сжатых и точных аналогов развернутых текстов в российской науке высказывались еще М.В. Ломоносовым [3. С. 53], однако разработка основ и методик процесса реферирования началась лишь во второй половине прошлого века. Результатом их применения в сфере науки и техники стало появление реферативных журналов, таких как ВИНИТИ. Рефераты формировались «вручную» работниками соответствующих отделов института. Одновременно с практикой «ручного» реферирования во второй половине ХХ в. начинают разрабатываться методы автоматического реферирования [4], что является значимым ответом научного сообщества на сформированный вызов в сфере распространения и потребления информации. При том что цели создания рефератов, которые воплощаются в практике деятельности специалистов и в практике разработки автоматических алгоритмов, совпадают, проблемы, которые требуют разрешения, значительно разнятся вследствие различий применяемых методик.

Представленные в настоящее время в литературе определения рефератов и реферирования либо стремятся охватить все типы рефератов независимо от предметных областей, целевой направленности и методов их достижения либо дают определения конкретных видов рефератов с определенным целеполаганием. Вследствие этого мы находим практически взаимоисключающие определения. Например, определение Л.П. Маркушевской и Ю.А. Цапаевой: «Реферат (от лат. "refero", что означает "сообщаю") представляет собой краткое изложение в письменном виде или в форме публичного доклада содержания научного труда (трудов), литературы по теме с раскрытием его основ-

ного содержания по всем затронутым вопросам, сопровождаемое оценкой и выводами референта» [5. С. 11]. В ГОСТе понятию «реферат» дается следующее определение: «Краткое точное изложение содержания документа, включающее основные фактические сведения и выводы, без дополнительной интерпретации или критических замечаний автора реферата» (курсив наш. - Д.Б., З.Р.) [6].

Объединяет эти определения то, что они дефинируют авторские рефераты, так как нормативно определяют возможность/необходимость выражения субъективной позиции. Очевидно, что первая дефиниция имеет референтом научный реферат как часть работы ученого, направленный на определение степени и характера изученности проблемного поля планируемого исследования; вторая, предписывающая отсутствие выражения субъективной позиции, ориентирована на авторов рефератов, представляющих материал для интенсификации деятельности ученых, использующих данные обзоры как отправную точку для определения необходимости обращения к полнотекстовым источникам.

Инвариантными элементами во всех определениях являются указание на характер соотношения реферата с исходным текстом - меньший объем реферата и в то же время содержательная эквивалентность, реже отмечается в качестве базового признака структурное соответствие.

Обращаясь к проблеме выработки критериев качества реферата, также обращаем внимание на то, что они вырабатывались первоначально для анализа эмпирического материала «ручного» реферирования и текстов определенной дискурсивной отнесенности. Так, например, выделенные Е.Г. Губановой критерии: соответствие реферата теме, глубина и полнота раскрытия темы, адекватность передачи первоисточника, логичность, связность, доказательность, структурная упорядоченность (наличие введения, основной части, заключения, их оптимальное соотношение), оформление (наличие плана, списка литературы, культура, цитирования, сноски и т.д.), языковая правильность [7. С. 9] в совокупности относимы к рефератам в сфере научной коммуникации. Однако одни из них, такие как логичность и связность, на наш взгляд, могут быть применимы к рефератам с различных жанровых и дискурсивных форм, другие, будучи обращенными к иным жанровым формам, получат другое содержательное наполнение. Так, приведенный принцип структурной упорядоченности интерпретируется автором относительно научного текста: наличие введения, основной части, заключения, он должен быть модифицирован при перенесении в сферу рефератов новости. В связи с этим в качестве актуальной мы рассматриваем задачу определения как универсальных параметров оценки качества реферата, так и жанрово специфичных.

Первые реферативные журналы публиковали рефераты исключительно научных и научно-технических работ, однако повышение роли

массовой информации в жизни современного общества, стремительное увеличение дискурсивных и жанровых форм информационных потоков поставили в качестве социально значимой задачи создание системы автоматического реферирования медийных текстов. В настоящее время автоматическое реферирование применяется к разным жанровым формам медиатекстов: новостей, блогов, веб-страниц и др. [8. Р. 17].

Интенсивное развитие системы автоматического реферирования также ставит перед научным сообществом проблему разработки системы критериев оценки качества рефератов, созданных на основе алгоритмов. При проведении автоматического реферирования, как правило, качество проделанного реферирования оценивается тоже автоматически. Основными метриками, которые используются для автоматической оценки качества рефератов, являются BLEU и ROUGE. Изначально метрика BLEU была разработана для анализа качества машинного перевода, однако сейчас она активно используется наравне с метрикой ROUGE, которая была специально разработана для анализа качества автоматического реферирования. BLEU измеряет точность (precision): сколько слов в сгенерированных машиной рефератах появилось в рефератах, выполненных человеком. ROUGE измеряет полноту (recall): сколько слов в рефератах, сделанных человеком, появилось в рефератах, сгенерированных машиной. Точность системы в пределах класса -это доля документов, действительно принадлежащих данному классу относительно всех документов, которые система отнесла к этому классу. Полнота системы - это доля найденных классификатором документов, принадлежащих классу относительно всех документов этого класса в тестовой выборке [9. С. 4].

Однако мы полагаем, что такие системы должны быть дополнены разработанными системами лингвистической интерпретации степени соответствия исходного и вторичного текста, направлений и причин отклонения от требуемых параметров.

Целью нашей работы является разработка лингвистических критериев оценки качества реферата новостного текста и их применение к автоматически сгенерированным рефератам.

Материал и методология исследования

Материалом исследования послужили тексты новостей информационного агентства «ТАСС» из рубрики «Происшествия» [10]. Всего для анализа отобрано 100 новостных текстов. В общей сложности получилось три текстовых выборки по 100 текстов каждая. Первая выборка состоит из оригинальных новостных текстов. Вторую представляют собой рефераты, полученные на основе применения алгоритма автоматического реферирования с использованием программного кода

на языке программирования Python [1]. Третья выборка состоит из рефератов, которые получились с помощью алгоритма онлайн-рефератора Text Compactor [2].

На первом этапе анализа к текстам новостей применялись методы предварительной обработки. Далее последовательно к данным текстам были применены программные коды на основе Python и Text Compactor и получены тексты сгенерированных рефератов. На третьем этапе был проведен лингвистический анализ текстов рефератов, направленный на выявление грамматической, стилистической правильности текста, на определение связности и цельности текста, структурной последовательности, принятой для текстов жанра новости, семантический анализ, направленный на выявление степени смыслового тождества исходного текста и текста реферата с учетом функциональных особенностей жанра новости.

Результаты

Охарактеризуем критерии оценки качества рефератов, которые были применены при анализе результатов автоматического реферирования новостных текстов. Данные критерии разработаны на основе анализа критериев, применяемых различными авторами к рефератам разных типов, и их адаптации к рефератам текстов новости. Так как основными признаками качественного реферата являются признаки содержательного и структурного соответствия исходному тексту, при разработке критериев учитывались особенности исходного текста новости, которым должны соответствовать признаки реферата. В журналистике понятие «новость» определяют как «изменение какого-то фрагмента действительности, своевременно освещенное в СМИ, которое представляет интерес и ценность для большого количества аудитории, или факт, который вписывается в формат СМИ и о котором еще не было сообщено ранее» [11. С. 55; 12. С. 102]. Говоря о структурных особенностях новости, стоит выделить основные компоненты, из которых состоит новостной текст: заголовок, подзаголовок, лид (вступление), основной текст и заключение [13]. Согласно «Догме» газеты «Ведомости», в новостях должны освещаться следующие вопросы: Кто? Что? Сколько? Где? Почему? Когда? [14. С. 15]. Необходимо учитывать, что не в каждой новости могут быть освещены все перечисленные выше вопросы, так как события, освещаемые в новостях, индивидуальны и могут не иметь тех или иных сведений.

В составе адаптированных к материалу рефератов новостей критериев нами были выделены две группы: структурные и содержательные критерии.

К структурным критериям мы относим структурную упорядоченность. При реферировании новостей в тексте реферата должна сохра-

няться структура новостного текста, если структура будет нарушена, то данный текст уже нельзя будет считать новостным. Все структурные компоненты новости должны отражаться в реферате в том случае, если они имеются в исходном тексте.

К содержательным критериям мы относим следующие: полнота отражения содержания и точность передачи данных, при определении которой учитывается наличие или отсутствие случаев искажения информации, степень полноты представления информации, наличие или отсутствие разрывов логики/связности текста и наличие или отсутствие повторов. Как было упомянуто выше, при анализе качества реферата важно оценивать полноту отражения содержания первичного текста. Несмотря на то что реферат является краткой репрезентацией основного текста, он должен содержать в себе все ключевые, важные сведения. Кроме того, важным критерием оценки качества является адекватность передачи первоисточника. Не только человек, выполняя ручное реферирование, может ошибиться и допустить смысловые ошибки, но они могут возникнуть и при применении автоматического алгоритма. В силу того что автоматическое реферирование выполняется с помощью экстракции ключевых предложений из текста, алгоритм может выбрать предложения из разных абзацев, которые не будут иметь логической связи, что может привести к искажению смысла.

В ходе проведения анализа выборок текстов рефератов, полученных на основе применения двух алгоритмов, были выявлены ошибки -отклонения от норм построения реферата новости.

Результаты анализа представлены в таблице.

Охарактеризуем типовые ошибки, которые были выявлены в рефератах, полученных с использованием двух представленных алгоритмов.

Наибольшее количество ошибок в текстах рефератов двух групп связаны с нарушением принципа структурной упорядоченности и отсутствия разрывов в связности текста (48/24 и 40/37 соответственно). Мы полагаем, что ошибки первого типа уступают по значимости ошибкам второго типа, так как нарушение логики может привести к искажению смысла исходного текста.

Приведем примеры разрыва логики/связности текста в рефератах, полученных на основе применения двух алгоритмов (здесь и далее сначала приводится отрывок из оригинального новостного текста, а затем располагается отрывок из реферата): «Дознавателем МЧС было возбуждено уголовное дело по ст. 168 УК РФ (Уничтожение или повреждение имущества по неосторожности). Прокуратурой региона материалы изъяты и направлены в полицию для дальнейшего расследования, - сообщили в пресс-службе» ^ «ГУ МЧС по Краснодарскому краю в пятницу сообщало, что в Кореновске загорелся строящийся детский сад, площадь пожара составила 300 кв. Прокуратурой региона мате-

риалы изъяты и направлены в полицию для дальнейшего расследования», - сообщили в пресс-службе. Как можно заметить, в приведенный далее текст реферата, созданного на основе Text Compactor, не вошло первое предложение, указанное в отрывке оригинального текста, вследствие чего возник разрыв логики, так как в тексте реферата непонятно, какие именно материалы были изъяты прокуратурой региона.

Количество нарушений норм реферирования, признаков, определяющих качество реферата

Критерии Кол-во нарушений

Первый алгоритм Второй алгоритм

Структурные Структурная упорядоченность 48 24

Содержательные Полнота отражения содержания 11 4

Точность передачи данных Наличие или отсутствие случаев искажения информации 1 3

Степень полноты представления информации 21 13

Наличие или отсутствие разрывов логики/связности текста 40 37

Наличие или отсутствие повторов 6 14

В тексте реферата на основе алгоритма, написанного на языке Python, видно, что алгоритм принял сокращенное слово «метры» за самостоятельное предложение и вынес его в текст реферата в отрыве от остальной части предложения. Таким образом, нарушилась логика и связность текста реферата: «ГУ МЧС по Краснодарскому краю в пятницу сообщало, что в Кореновске загорелся строящийся детский сад, площадь пожара составила 300 кв. м.» ^ «м.».

Существенное количество ошибок было также обнаружено по критерию степени полноты представления информации. В реферате, полученном на основе применения алгоритма, разработанного на языке программирования Python, логика изложения информации была сохранена, однако сама информация представлена не в полном виде, не указана локализация разлива нефти: «Из Северо-Уральского межрегионального управления Росприроднадзора поступила информация об обнаружении разлива нефтепродуктов площадью 15 000 кв. м. на территории земельного участка Пуровского района Ямало-Ненецкого автономного округа (земли лесного фонда Ноябрьского лесничества) - Карамов-ское месторождение АО "Газпромнефть-Ноябрьскнефтегаз", - говорится в сообщении» ^ «Из Северо-Уральского межрегионального управления Росприроднадзора поступила информация об обнаружении разлива нефтепродуктов площадью 15 000 кв.». На примере данных

отрывков можно заметить, что алгоритм посчитал точку после сокращенного обозначения слова «квадратных» окончанием предложения, а информацию, которая находилась в оставшейся части предложения, неважной, так как она не была включена в текст реферата. Таким образом, логика изложения информации была сохранена, однако сама информация представлена не в полном виде.

В следующем тексте реферата, созданном на основе онлайн-рефератора Text Compactor, опускается существенно важная информация, представленная в оригинальном тексте новости. Информация о том, что трое несовершеннолетних решили прокатиться на автомобиле, не дополняется сообщением о том, что произошло дальше, каким был итог их поездки: «По данным надзорного ведомства, трое несовершеннолетних в пятницу решили прокатиться по Зеленограду на автомобиле. В результате водитель машины, 14-летний юноша, выезжая из двора, не справился с управлением и врезался в дерево. Один из подростков госпитализирован» ^ «По данным надзорного ведомства, трое несовершеннолетних в пятницу решили прокатиться по Зеленограду на автомобиле».

Яркий пример нарушения - несоответствие требованию отсутствия повторов - представлен в реферате, полученном с использованием алгоритма на языке Python: <«Анонимное сообщение с угрозой взрыва поступило в гимназию № 27 Казани. "Поступило анонимное сообщение о взрывном устройстве в гимназии № 27", - рассказал собеседник ведомства. В мэрии города в свою очередь сообщили, что угроза взрыва оказалась ложной. Правоохранительные органы провели проверку в гимназии № 27, взрывных устройств не обнаружено. "Как показало обследование, вызов оказался ложным", - говорится в сообщении». Из примера видно, что отрывок перегружен повторами: два раза повторяется информации о том, что поступило анонимное сообщение об угрозе взрыва, а также дублируется информация о том, что вызов оказался ложным.

В следующем отрывке из текста реферата, созданного на основе он-лайн-рефератора Text Compactor, видно, что информация о том, что разлилось не менее 7 т нефтепродуктов, попала в реферат дважды. Второй раз данная информацию уже не является релевантной, удлиняя текст реферата, что ведет к нарушению соответствия критерию краткости: «Объем разлившихся нефтепродуктов в районе реки Колва на Ошском месторождении в Ненецком автономном округе (НАО) составил не менее 7 т, говорится в пятницу в сообщении пресс-службы прокуратуры региона. "По предварительным данным, объем вытекания нефтесодержащей жидкости составил не менее 7 т", - говорится в сообщении».

Наименьшее количество ошибок было обнаружено по критерию наличия или отсутствия случаев искажения информации. В рефе-

рате, полученном на основе применения Text Compactor, искажена информация о локализации произошедшего события: «Несколько человек пострадали в результате обрушения торнадо на город Ухань в провинции Хубэй (КНР). <... > Торнадо также обрушился 14 мая на провинцию Цзянсу. В результате один человек погиб, 21 пострадал, передает "Синьхуа" со ссылкой на местные власти» ^ «Несколько человек пострадали в результате обрушения торнадо на город Ухань в провинции Хубэй (КНР). В результате один человек погиб, 21 пострадал, передает "Синьхуа" со ссылкой на местные власти. По их информации, в населенном пункте Шэнцзэ нарушено электроснабжение, разрушено несколько зданий». В оригинальном тексте в начале новости говорится про город Ухань в провинции Хубэй и дается информация о том, что число пострадавших уточняется властями. При этом в тексте реферата извлеклась информация о числе пострадавших и погибших, которая относится к провинции Цзянсу.

Приведем пример искажения информации в реферате, полученном на основе применения алгоритма, разработанного на языке программирования Python: «Один из осужденных полицейских - Николай Плебух - свою вину в суде не признал, считая, что действовал правомерно. Вечером 19 октября 2019 года в отдел полиции по Московскому району Калининграда за совершение административного правонарушения был доставлен 36-летний мужчина. Сообщалось, что он, находясь в нетрезвом состоянии, повредил радиатор батареи в камере для задержанных и получил сильные ожоги» ^ «Один из осужденных полицейских - Николай Плебух - свою вину в суде не признал, считая, что действовал правомерно. Сообщалось, что он, находясь в нетрезвом состоянии, повредил радиатор батареи в камере для задержанных и получил сильные ожоги». В отрывке из первичного источника видно, что речь в тексте идет о двух разных людях. В последнем предложении говорится о том, что ожоги получил правонарушитель, который находился в камере, однако в текст реферата не вошло среднее предложение о правонарушителе, вследствие чего получилось так, будто ожоги получил осужденный полицейский. Подчеркнем, что, несмотря на незначительное количество ошибок этого типа, именно они должны находиться в сфере наибольшего внимания, так как искажение информации абсолютно недопустимо в новостных текстах.

Заключение

Сравнение двух выборок рефератов показало, что при использовании первого алгоритма, который представлен онлайн-рефератором Text Compactor, допускалось больше ошибок, связанных со структурой текста, содержанием и полнотой представления информации. Данные

ошибки обусловлены тем, что применение первого алгоритма приводило к большему сокращению текста. Второй алгоритм, разработанный на языке программирования Python, в плане отражения структуры, содержания и полноты представления информации работает лучше первого, однако текст реферата второго алгоритма получается достаточно большим, т.е. при этом нарушается базовая функция реферата - кратко и лаконично доносить основную суть первоисточника.

При применении двух анализируемых алгоритмов практически с равной вероятностью появляются ошибки, связанные с разрывом логики и связностью текста. Ошибка нарушения логики и связности текста часто связана с отсутствием лида и неверным определением границ предложения.

Использование второго алгоритма, в отличие от первого, в большей мере приводит к появлению повторов. Это может быть обусловлено тем, что при реферировании в текст реферата второго алгоритма попадает больше предложений, чем в реферат, полученный на основе первого алгоритма. Таким образом, первым алгоритмом исключаются излишние повторы в тексте реферата.

Второй алгоритм проявил себя хуже первого в аспекте наличия ошибок, связанных с искажением информации, при общем незначительном их количестве в двух выборках рефератов. Данный тип ошибки возникает из-за некорректной экстракции предложений, которые выстраивают текст реферата.

Общее количество хороших рефератов, т.е. таких, в которых не были отмечены погрешности в структуре, точности и полноте передачи информации, в первой и второй выборках практически одинаково. В первой выборке было выявлено 7 рефератов, отвечающих всем критериям качественного реферата, а во второй выборке - 8. При этом новостные тексты, рефераты которых могут считаться хорошими, в выборках не пересекаются, за исключением одного новостного текста, т. е. рефераты, соответствующие всем критериям хорошего реферата, первого алгоритма в большинстве своем не являются таковыми в выборке рефератов второго алгоритма.

Таким образом, можно подытожить, что оба алгоритма нуждаются в существенной доработке, так как в обеих выборках более 90% текстов на выходе имеют те или иные ошибки, при этом у каждого из алгоритмов выявляются разные «слабые» места, однако они имеются и требуют устранения.

Проведенный анализ автоматических рефератов новостных текстов показал, что область автоматического реферирования нуждается в совершенствовании имеющихся алгоритмов или разработке новых. Перспективы дальнейшего исследования нам видятся в выявлении закономерностей появления ошибок при автоматическом реферировании

текстов в зависимости от типа текста, его морфолого-синтаксической

структуры и типа применяемого алгоритма.

Список источников

1. GeeksforGeeks // Python. Text Summarizer. [W. p.], 2020. URL: https://www.geeksforgeeks.org/python-text-summarizer/

2. Text Compactor. [Б. м.], 2006-2010. URL: http://www.textcompactor.com/ (дата обращения: 10.05.2021).

3. Гречихин А.А., Здоров И.Г., Соловьев В.И. Жанры информационной литературы: Обзор. Реферат. М. : Книга, 1983. 320 с.

4. Luhn H. The automatic creation of literature abstracts // IBM Journal of Research and Development. 1958. Vol. 2, № 2. P. 159-165.

5. Маркушевская Л.П., Цапаева Ю.А Аннотирование и реферирование (Методические рекомендации для самостоятельной работы студентов). СПб., 2008. 51 с.

6. ГОСТ 7.9-95. Реферат и аннотация. Общие требования. URL: http://www.tehnorma.ru/ (дата обращения: 24.01.2021).

7. Губанова Е.Г. Рекомендации по написанию рефератов: для обучающихся по специальности 29.02.04 «Конструирование, моделирование и технология швейных изделий». Магнитогорск : ГБОУ ПОО МТК, 2017. 16 с.

8. Torres-Moreno J.M. Automatic Text Summarization. London : ISTE ; Hoboken, NJ : Wiley, 2014. 376 р.

9. Андросова Е.Е. Применение рекурсивных рекуррентных нейронных сетей // Новые информационные технологии в автоматизированных системах. 2016. № 19. URL: https://cyberleninka.ru/article/n/primenenie-rekursivnyh-rekurrentnyh-neyronnyh-setey (дата обращения: 05.04.2021).

10. Информационное агентство «ТАСС» // Рубрика: происшествия. [Б. с.], 2020. URL: https://tass.ru/ (дата обращения: 14.05.2021).

11. Воронкина Ю.И. Новость в журналистском и PR-дискурсах: опыт сравнительного анализа // Современный дискурс-анализ. 2018. Вып. 6. С. 54-58.

12. Добросклонская Т.Г. Теория и методы медиалингвистики. М. : АДД, 2000. 203 с.

13. Школа журналистики // Информационные жанры. Как написать новость? [Б. м.], 2017. URL: https://xn—7sbafuabraerjyjmxvsmn8f.xn--p1ai/informacionnye-zhanry-kak-napisat-novost/ (дата обращения: 12.04.2021).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

14. Догма газеты «Ведомости». [Б. м.], 2001. URL: https://www.dropbox.com/ s/7fof0qv7ps3qzg8/dogma_vedomosti.pdf?dl=0 (дата обращения: 10.05.2021).

References

1. GeeksforGeeks (2020) // Python. Text Summarizer. URL: https://www.geeksforgeeks.org/ python-text-summarizer/

2. Text Compactor (2010). URL: http://www.textcompactor.com/ (Accessed: 10.05.2021).

3. Grechikhin A.A. (1983) Zhanry informatsionnoy literatury [Genres of information literature]. M.: Kniga. 320 p.

4. Luhn H. (1958) The automatic creation of literature abstracts // IBM Journal of Research and Development. Vol. 2 (2). pp. 159-165.

5. Markushevskaya L.P. (2008) Annotirovaniye i referirovaniye (Metodicheskiye rek-omendatsii dlya samostoyatel'noy raboty studentov) [Annotation and summarizing (Methodological recommendations for independent work of students)]. SPb GU ITMO. 51 p.

6. GOST 7.9-95. Referat i annotatsiya. Obshchiye trebovaniya [GOST 7.9-95. Report and abstract. General requirements.]. URL: http://www.tehnorma.ru/ (Accessed: 24.01.2021).

7. Gubanova E.G. (2017) Rekomendatsii po napisaniyu referatov: dlya obuchayushchikhsya po spetsial'nosti 29.02.04 "Konstruirovaniye, modelirovaniye i tekhnologiya shveynykh

izdeliy" [Recommendations for writing essays: for students majoring at 29.02.04 "Design, modeling and technology of garments."]. Magnitogorsk: GBOU POO MTK. 16 p.

8. Torres-Moreno J.M. (2014) Automatic Text Summarization. London : ISTE ; Hoboken, NJ : Wiley. 376 p.

9. Androsova E.E. (2016) Primeneniye rekursivnykh rekurrentnykh neyronnykh setey [Application of recursive recurrent neural networks] // Novyye informatsionnyye tekhnologii v avtomatizirovannykh sistemakh. 19. URL: https://cyberlemnka.ru/article/ri/primenenie-rekursivnyh-rekurrentnyh-neyronnyh-setey (Accessed: 05.04.2021).

10. Informatsionnoye agentstvo TASS [TASS information agency] (2020) // Rubrika: proisshestviya. URL: https://tass.ru/ (Accessed: 14.05.21).

11. Voronkina Yu.I. (2018) Novost' v zhurnalistskom i PR-diskursakh: opyt sravnitel'nogo analiza [News in journalistic and PR discourses: experience of comparative analysis] // Sovremennyy diskurs-analiz. 6. pp. 54-58.

12. Dobrosklonskaya T.G. (2000) Teoriya i metody medialingvistiki [Theory and methods of medialinguistics]. M.: ADD. 203 p.

13. Shkola zhurnalistiki [School of journalism] (2017) // Informatsionnyye zhanry. Kak na-pisat' novost'? URL: https://xn—7sbafuabraerjyjmxvsmn8f.xn--p1ai/informacionnye-zhanry-kak-napisat-novost/ (Accessed: 12.04.2021).

14. Dogma gazety "Vedomosti" [Dogma of the Vedomosti newspaper] (2001). URL: https://www.dropbox.com/s/7fof0qv7ps3qzg8/dogma_vedomosti.pdf?dl=0 (Accessed: 10.05.2021).

Информация об авторах:

Резанова З.И. - доктор филологических наук, профессор, заведующая кафедрой общей, компьютерной и когнитивной лингвистики, Национальный исследовательский Томский государственный университет (Томск, Россия). E-mail: rezanovazi@mail.ru. Белогорская Д.В. - аспирант, Национальный исследовательский Томский государственный университет (Томск, Россия). E-mail: dariabelogorskaya@mail.ru

Авторы заявляют об отсутствии конфликта интересов.

Information about the authors:

Rezanova Z.I., D.Sc. (Philology), Professor, Head of the Department of of General, Computer and Cognitive Linguistics, National Research Tomsk State University (Tomsk, Russia). E-mail: rezanovazi@mail.ru.

Belogorskaya D.V., Postgraduate Student, National Research Tomsk State University (Tomsk, Russia). E-mail: dariabelogorskaya@mail.ru

The authors declare no conflicts of interests.

Поступила в редакцию 26.10.2022; принята к публикации 10.01.2023 Received 26.10.2022; accepted for publication 10.01.2023

i Надоели баннеры? Вы всегда можете отключить рекламу.