Информационные основы автоматизации рерайтинга
Науменко Д.А., Академия ФСО России dima.naumenko@mail.ru Гращенко Л.А., Романишин Г.В., Академия ФСО России graschenko@mail.ru, romanishin.g.v@mail.ru
Аннотация
В статье приводятся результаты исследования продуктивности языковых способов машинного и ручного рерайтинга. Показано, что машинный рерайтинг позволяет добиться высокой уникализации текста, но при этом значительно меняются такие лингвистические характеристики оригинала, как связность, удобочитаемость и сложность. Представлены практические рекомендации по автоматизации стилистических преобразований текстов, позволяющие повысить уникальность текста.
1 Введение
В связи с постоянным ростом продуцируемой текстовой информацией [Богатова, 2011], растет интерес к такому явлению как рерайтинг, в результате чего появляется необходимость в разработке и реализации программных решений и алгоритмов в области обработки текстов на естественных языках, в частности автоматизация стилистических преобразований текста. В основе таких преобразований лежат методы и приемы рерайтинга [Гращенко, Науменко, 2018]. Само понятие «рерайт» (rewrite) встречается в различных исследованиях по информатике и автоматической обработке текстов, литературоведению, лингвистике и других областях знания. Однако стройной системы теоретических представлений по указанной тематике до настоящего времени не сложилось. В связи с указанными особенностями, в данной работе предпринята попытка определить наиболее продуктивные способы уникализации контента и представить практические рекомендации по автоматизации рерайтинга.
2 Тезаурус предметной области
Как показывает анализ частоты употребления терминов «рерайт», «инвариант», «перифраз» и «парафраз» в русском и английском
языках, проведенный с использованием сервиса Books Ngram Viewer1, вопросы преобразования форм, стилей и жанров текстов с сохранением исходного смысла стали активно обсуждаться в литературе с 60-х годов прошлого века. С появлением Интернета, развитием сервисов поиска информации и возникновением необходимости наполнения веб-сайтов оригинальным контентом, с середины 1990-х годов интерес к рассматриваемой тематике возрос (рис. 1, 2). Употребление перечисленных понятий в русском и английском языках различно. Так в печатных изданиях на русском языке термин «рерайт» до недавнего времени не употреблялся, использовалось понятие «парафраз».
ooooecov 0 000550V 00005004'
ooowsov оода«»*'
0 0003S0V 0D00300S 0 000250%'
oooossnv OOOOISO*' О ОООЮОЧ' 0 000050%'
paraphrase
Рис. 1 Ретроспектива употребления рассматриваемых понятий в англоязычной литературе
парафраз перифраз
Рис. 2. Ретроспектива употребления рассматриваемых понятий в русскоязычной литературе
https://books.google.com/ngrams
В своей работе В.М. Грязнова приводит следующее определение инварианта - «абстрактное обозначение одного и того же текста (сущности) в отвлечении от его конкретных модификаций, отображающее общие свойства класса объектов, образуемого вариантами, и присущие каждому из вариантов» [Грязнова, 2009]. Варианты - его различные проявления.
Рерайтингом (англ. rewriting) является процесс переписывания текста с уникализацией его формы и сохранением смысла оригинала. Различие с понятием «парафраз(а)» лишь в конечной цели преобразования: рерайтинг - придать уникальность, парафраз(а) - облегчить понимание материала или изменить литературную форму [Гращенко, 2018]. При этом результатом рерайтинга является рерайт.
Принципиальное различие понятий «пара-фразирование», «перефразирование» и «перифразирование» усматривается в типе первичной формы - слово (при перифразировании), фраза (при перефразировании), текст (при па-рафразировании) [Богатова, 2011]. Множество понятий предметной области представлены разработанным тезаурусом (рис. 3) [Гращенко, 2018].
Вариант
т
Инвариант
Оригинал
Рерайт
Рерайтинг
Парафраз(а)
Вторичный текст
т
Меронимия (общее-частное) - Причина-следствие
Перифраз(а)
Парафразирование
X
Перефразирование
т
Перифразирование
Рис. 3. Тезаурус предметной области
Известна классификация методов, способов и приёмов рерайтинга [Гращенко, 2018], в соответствии с которой наиболее гибкими и легкодоступными для применения являются языковые методы стилистического преобразования текстов [Гращенко, 2017]. К ним относятся: использование слов синонимов (сино-
нимайзинг), замена частей речи, замена конструкций предложений, перевод прямой речи в косвенную и использование страдательного залога. В данной статье рассмотрены такие способы уникализации, как использование слов синонимов и замена частей речи. Метод изменения конструкций предложений, демонстрирующий невысокие показатели уникали-зации, в данной работе не рассматривается [Гращенко, 2018].
Использование слов-синонимов является самым простым приёмом осуществить рерай-тинг - заменить синонимами столько слов в исходном тексте, сколько возможно. Замена одних частей речи другими позволяет изменить структуру предложения и придать тексту уникальность. Зачастую заменяют глаголы существительными и наоборот.
Было выдвинуто предположение о том, что при использовании автоматизации рерайтинга на основе указанных способов, тексты претерпевают изменения в лингвистических характеристиках, таких как уникальность [Зиберт, 2014], сложность [Мацковский, 1976] и удобочитаемость [Мизернов, 2015].
3 Экспериментальная работа
В ходе проведения эксперимента были использованы тексты художественного стиля, средним объемом 600 слов (рис. 4). К каждому исходному тексту были применены четыре группы преобразований: А - машинный рерайтинг, В - использование слов-синонимов, С - замена частей речи, Б - комбинация способов В и С.
Тексты группы А и второго этапа группы В были получены с помощью преобразования исходного текста программой «синонимай-зер»1, позволяющей заменять слова или фразы в исходном тексте на синонимы в автоматическом режиме. Группы текстов В и С составлялись вручную. Вследствие чего эти методы имеют меньший процент преобразований по отношению к другим тестовым группам.
Рис. 4. Схема проведенного эксперимента
1 http://online-sinonim.ru
МО = 61,05 СКО = 11,52
76,645 80,045 83,445 86,845 90,245 93,645
Оригинальность, %
Рис. 5. Распределение рерайта по уникальности в тестовой группе А
70,5225 72,2195 73,9165 75,6135 Оригинальность, %
Рис. 6. Распределение рерайта по уникальности в тестовой группе B
Количественной мерой преобразований для каждого текста выбран процент отличающихся слов по отношению к оригинальному тексту. Для каждой группы текстов был рассчитан ряд лингвистических характеристик -уникальность, сложность, индекс удобочитаемости.
Определение процента уникальности происходило с помощью алгоритма шинглов при различном словарном размере окна (от 1 до 4). Данный алгоритм был выбран из-за наилучших показателей поиска нечетких дубликатов по сравнению с другими алгоритмами [Зиберт, 2014]. Рассмотрев распределение процента уникальности по результирующим текстам, можно отметить, что оно близко к нормальному закону распределения (рис. 5-8).
Как видно на гистограмме уникальности текстов для различных групп при различном размере окна шинглов, наилучшие показатели уникальности наблюдаются в группе A - по итогам машинного рерайтинга (рис. 9).
Рис. 7. Распределение рерайта по уникальности в тестовой группе C
81,0475 82,7760 84,5045 86,2330 87,9615 89,6900
Оригинальность, %
Рис. 8. Распределение рерайта по уникальности в тестовой группе В
100,00% 90,00% 80,00% 70,00% 60,00% 50,00% 40,00% 30,00% 20,00% 10,00% 0,00%
B
C
Тестовые группы
1 2 3 4 Преобразования
Рис. 9. Гистограмма уникальности рерайта по текстовым группам (при различной ширине окна)
При этом наблюдается увеличение сложности текста по критерию Мацковского (рис. 10). Связанно это с увеличением средней длины слова, количества слогов, и, следовательно, среднего количества слогов в предложении. По этой же причине после рерайтинга увеличивается индекс удобочитаемости (т.е. сложность чтения), рис 11. Данный показатель не учитывает согласованность слов в предложении, но после машинного рерайтинга большая
A
D
вероятность того, что часть замененных слов будут не согласована по падежам. Выборочные проверки результатов экспериментов подтвердили данное предположение.
Исходные-
27,00 24,00 21,00 18,00 15,00 12,00 9,00 6,00 3,00 0,00
Исх.
Рис. 10. Гистограммы сложности (по Мацков-скому) по группам рерайта
65,00 60,00 55,00 50,00 45,00 40,00 35,00 30,00 25,00 20,00 15,00 10,00 5,00 0,00
Исх.
Рис. 11. Гистограммы индекса удобочитаемости рерайта по текстовым группам
Полученные результаты подтверждают гипотезу исследования, что при рерайтинге изменяется ряд лингвистических характеристик и это необходимо учитывать для качественного изменения контента.
4 Предложения по автоматизации
За основу предполагается взять обобщенную схему машинного рерайтинга, состоящую из четырёх основных модулей: разметки текста, текстовых преобразований, стилистического выравнивания и расчета лингвистических характеристик (рис 12).
Модуль разметки текста
Модуль текстовых преобразований
Рерайт
Модуль расчета лингвистических характеристик
Модуль стилистического выравнивания
Рис. 12. Обобщённая схема автоматизации ре-райтинга
Модуль разметки текста предназначен для выделения в тексте предложений, слов и основных смысловых конструкций, а также проведения анализа частей речи. Модуль отвечает за решение следующих задач:
1. произвести сегментацию (выделение предложений) текста;
2. произвести токенизацию (выделение слов) предложений;
3. произвести тегирование, каждому то-кену (слову) присвоить свой тег - часть речи и морфологические признаки.
Результатом работы данного модуля является размеченный текст, данные о количестве предложений, слогов, длин слов и другие количественные характеристики текста (рис. 13). Эти данные необходимы для работы остальных модулей.
Рис. 13. Результат работы модуля разметки текста
Модуль текстовых преобразований, предназначен для придания тексту оригинальности с помощью методов рерайтинга: замена частей речи и замена слов синонимами. Результатом работы данного модуля является рерайт.
Модуль стилистического выравнивания, предназначен для осуществления стилистических преобразований в тексте (склонение слов по падежам, добавление/удаление частиц и союзов и так далее).
Модуль расчета лингвистических характеристик предназначен для проверки рерайта на
А
В
С
D
А
В
С
соответствие лингвистических характеристик по сравнению с оригиналом. В настоящее время проводится анализ уникальности, удобочитаемости и сложности текста, в дальнейшем планируется расширение количества таких характеристик. У данного модуля реализована обратная связь. В случае, если не выполняется условие по критериям соответствия лингвистических характеристик, осуществляется возврат на предыдущий модуль. Предполагается, что данный критерий будет определен экспериментально.
Таким образом, на основе указанных процедур представленная схема позволит осуществлять качественный рерайт в автоматическом режиме.
5 Заключение
Анализ результатов проведенных экспериментов позволяет сформулировать следующие выводы:
1. Рерайтинг востребован благодаря повсеместному развитию сервисов и росту объема информационных ресурсов интернета, вследствие чего требуется создание оригинального контента.
2. Основные методы рерайтинга - языковые методы стилистического преобразования текстов, такие как, замена слов синонимов, замена частей речи, замена конструкций предложений, перевод прямой речи в косвенную и использование страдательного залога. Наиболее значимые из них замена слов синонимов и замена частей речи.
3. Основной недостаток указанных методов - изменение лингвистических характеристик по сравнению с оригиналом и не согласование слов по падежам. Были рассмотрены такие характеристики как уникальность, сложность и удобочитаемость. Наилучшая уникальность контента достигается машинным рерайтингом (в среднем 80% уникальности при 50% изменениях в тексте), при этом наблюдаются наибольшие изменения в лингвистических характеристиках (возрастает сложность текста и снижается индекс удобочитаемости).
4. Предложена обобщенная схема автоматизации рерайтинга, учитывающая и корректирующая изменения в лингвистических характеристиках, которая позволит повысить его качество.
5. С учётом приведённых положений, дальнейшая исследовательская работа будет
направлена на расширение количества используемых лингвистических характеристик, модификации обратной связи, которая при вычислении характеристик приводит текст в соответствие и реализацию единого готового программного продукта на основе предложенной обобщенной схемы.
Полученные результаты и сформулированные выводы носят поисковый и предварительный характер. Требуется и планируется постановка более масштабных и выверенных экспериментов.
Список литературы
Богатова Е.Б. Типологизация перифраз с позиций деятельностной концепции // Вестник ЧитГУ. -2011. - №5. - С. 34-40.
Гращенко Л.А., Адаменко А.В. Оценивание чувствительности алгоритма извлечения ключевых слов TextRank к структурным преобразованиям входного текста // Новые информационные технологии в автоматизированных системах. -2017. - №20 - С. 144-147.
Гращенко Л.А., Науменко Д.А. О Продуктивности способов уникализации текстов // Современные проблемы физико-математических наук. - 2018. - №4. - С. 330-334.
Грязнова В.М. Понятие инварианта в лингвистике: история вопроса и современное состояние // Вестник Ставропольского государственного университета. - М., 2009. - С. 183-190.
Зиберт А.О., Хрусталев В.И. Разработка системы определения наличия заимствований в работах студентов ВУЗа. Алгоритмы поиска нечетких дубликатов // Universum: технические науки. -2014. - С. 1-9.
Мацковский М.С. Проблемы читабельности печатного материала // Смысловое восприятие речевого сообщения в условиях массовой коммуникации. М., - 1976. - С. 126-142.
Мизернов И. Ю., Гращенко Л. А., Анализ методов оценки сложности текста // Новые информационные технологии в автоматизированных системах. - 2015. - №18. - С. 572-581.