Исследование лексического богатства научных текстов
Романишин Г.В., войсковая часть 51952 romanishin.g.v@mail.ru
Аннотация
В статье приводятся результаты исследования лексического богатства в научных текстах на основе анализа словаря частот употребления слов. Показана согласованность полученных результатов с материалами предыдущих исследований.
1 Введение
Современное общество неразрывно связано с развитием средств вычислительной техники и систем передачи данных, что в свою очередь приводит к постоянному увеличению количества производимых с их помощью документов, а также усложнению систем электронного документооборота. В деятельности различных организаций элементом документооборота могут быть объемные документы -отчеты о научно-исследовательской и опытно-конструкторской работе, пояснительные записки диссертаций, монографии, методики, руководства пользователя и т.д. При этом текст документа должен соответствовать определенному ряду требований, среди которых - отсутствие избыточности текста.
Особое внимание в настоящее время уделяется научным текстам, что связано с неудовлетворенностью в научном сообществе качеством выполнения диссертационных работ, в частности заимствованиями текстовых блоков одними авторами из работ других авторов (см. например проект www.dissernet.org).
Исследование представления об избыточности текста проводилось в работе [Гращен-ко, Романишин, 2015], в которой также предложена одна из методик определения повторов в научных текстах. Данная статья является логическим продолжением проведенных ранее исследований и направлена на поиск дополнительных показателей, характеризующих текст. В качестве такой характеристики использовано лексическое богатство текста.
Богатство речи - коммуникативное качество речи, которое возникает на основе соотношения речь-язык. Его можно определить как максимально возможное насыщение ее разными, не повторяющимися средствами
языка, в той мере, в какой это необходимо для реализации коммуникативного намерения. Богатство речи проявляется на различных уровнях текста (лексическом, синтаксическом, интонационном и др.) и предполагает исключение речевых недочетов, среди которых: повторение одного и того же слова в рамках небольшого контекста; употребление рядом или близко однокоренных слов; однотипность и слабая распространенность синтаксических конструкций и т.д. [Тумина, 1987; Ладыженская, Михальская, 1998].
Необходимо отметить, что богатство текста является важной характеристикой документа и неразрывно связана с таким понятием как сложность текста [Мизернов, Гращенко, 2015], являющейся одной из наиболее важных оценок при работе с текстовыми документами в различных отраслях деятельности (расчет стоимости и сроков выполнения переводческих работ; планирование времени по созданию текстов различного уровня - реферат, отчет о НИР, диссертация и др.; оценка восприятия учебной литературы учащимися и т. п.).
2 Методика исследования
Несмотря на важность указанной характеристики в настоящее время не существует общепризнанного инструментария оценки богатства текста. Одним из простейших показателей является коэффициент лексического богатства текста, т.е. отношение количества лексем к общему количеству слов в тексте [Пиотровский, 1977]. Широко используется простое отношение словоформа / словоупотребление (type-token ratio, TTR), однако, оно очень чувствительно к размеру текста. Чтобы преодолеть этот недостаток, было введено стандартизированное отношение словоформа/ словоупотребление (sTTR), которое вычисляется для каждой тысячи слов, а также метрика (zTTR), основанная на сравнении наблюдаемой величины TTR со значениями эталонного TTR [Cvrcek, Chlumska, 2015].
За основу оценки богатства текста взят анализ мощности словаря частот употребления слов. В качестве основной идеи выдвинуто предположение о том, что лексическое бо-
гатство текста для научных работ различных отраслей отличается и имеет некоторое постоянное значение.
Словарь представляет собой множество слов, появляющихся в тексте:
5 = N М2,..., Мк}, (1)
где Nj - слова, встречаемые в тексте.
Соответственно мощность такого словаря равна количеству его элементов к = |5|.
В качестве основных расчетных величин использованы:
• средняя мощность словарей для текста в целом к*;
• лексическое богатство локального участка текста на основе используемых ранее подходов и вычисляемая как отношение мощности локального словаря (определенного участка текста) к мощности словаря всего текста:
Р =■
I ^ |
(2)
• средняя величина лексического богатства Р*, вычисляемая на основе усреднения величины Рг по всем локальным участка текста;
Также необходимо отметить, что предварительно осуществляется специальная подготовка текста или его канонизация [Квашина, 2013]. Канонизация предполагает следующие действия:
• весь текст разбивается на непересекающиеся участки одинаковой длины, над которыми и производится основная процедура обработки;
• игнорируются знаки препинания, числовые значения и все другие символы, отличные от букв русского и латинского алфавитов;
• все слова, длина которых составляет менее 5 символов, игнорируются. Это сделано для того, чтобы не учитывать различные слова, не несущие существенной смысловой нагрузки (предлоги, местоимения и т.д.). В процессе исследований было выявлено, что минимальный размер слова не влияет на полученные зависимости, лишь изменяя абсолютные значения полученных величин;
• ввиду особенностей естественного языка (падежи, склонения, время и т.д.) необходимо анализировать не слово целиком, а его основу. Для этих целей производится процедура стемминга [Ьоут8, 1968]. Использовался стеммер Портера, как наиболее распростра-
ненный и показывающий неплохие результаты алгоритм [^11ей, 2006].
Исследовательский стенд аналогичен стенду, который использовалась в исследованиях ранее [Гращенко, Романишин, 2015], за исключением доработок в программном обеспечении, обусловленных использованием предложенной выше методики. Выборка, на которой проводились измерения, осталась неизменной - диссертации и авторефераты русскоязычных авторов, защищенных в период 2012-2014 гг. Тексты были разбиты на три категории по отраслевому признаку: технические, медицинские и гуманитарные, в которые вошли работы по педагогике, экономике, социологии и географии (всего 34 диссертации и 71 автореферат).
3 Полученные результаты
На рисунках 1 и 2 представлены средние значения мощности словарей авторефератов и диссертаций соответственно.
Рис. 1. Значения к* в авторефератах различных отраслей науки
Рис. 2. Значения к* в диссертациях различных отраслей науки
На рисунках 3 и 4 приведены данные о лексическом богатстве локальных участков текста для блоков размером 200 символов на основе картирования.
Примечательно то, что с увеличением числа блоков увеличивается значение Р, однако, характер соотношений величины для различных отраслей науки сохраняется (рис. 5).
Рис.3. Динамика Pi в авторефератах
Рис.4. Динамика в диссертациях
Рис.5. Динамика Р в авторефератах (блоки по 500 символов)
Рис. 6. Р* для авторефератов различных отраслей науки
Рис. 7. Р* для диссертаций различных отраслей науки
На рисунках 6 и 7 показаны результаты вычисления Р* для авторефератов и диссертаций соответственно.
4 Выводы
Использованная методика не обладает строгостью, а приведенные результаты носят скорее оценочный характер. Однако проведенные эксперименты позволяют сделать следующие предварительные выводы:
• мощность словаря гуманитарных работ выше мощности словаря медицинских и технических работ (рис.1), особенно ярко это проявляется в диссертациях (рис.2). Однако, учитывая результаты прошлых исследований, показавших, что гуманитарные работы имеют меньшую плотность текста, можно сделать вывод о том, что в тексте гуманитарных работ присутствует большее количество повторов по сравнению с медицинскими и техническими работами;
• анализ динамики значений Рг показал, что на протяжении всего текста для блока определенного размера этот показатель имеет практически постоянное значение (рис. 3-5), причем это значение отличается для различных отраслей науки
• динамика значений Рг наряду с выявленной ранее динамикой плотности текстов позволяет утверждать о существовании значительного количества повторов в текстах гуманитарных работ, особенно в авторефератах (малое разнообразие используемых слов, что приводит к низкой плотности текста);
• значения Р* коррелированны со значениями плотности текста, что доказывает предположение о зависимости лексического богатства текста и его плотности;
• наблюдается парадокс, заключающийся в том, что авторы гуманитарных работ, которые должны в большей степени использовать языковые средства (а многие работы их даже исследуют!), демонстрируют более низкий показатель лексического богатства по сравнению с авторами медицинских и технических работ. Особенно это выражено в авторефератах, где размер работ ограничен (рис.6). В группе диссертаций гуманитарные работы сопоставимы с техническими. Однако это объясняется малым размером выборки, большими объемами гуманитарных диссертаций по сравнению с работами в других отраслях. Также при детальном рассмотрении определено, что в гуманитарных диссертациях зача-
стую присутствуют дополнительные материалы в виде словарей и справочников, что в свою очередь значительно влияет на характеристики словаря частот употребления слов;
• в качестве дальнейших исследований наиболее интересным представляется исследование отношения мощности словарей блоков текста относительно друг друга, а не общего словаря, а также входящих в словарь элементов, что позволит проанализировать дополнительные характеристики текста;
• необходимо в дальнейшем провести исследование по оценке применения рассмотренных показателей лексического богатства для других смежных задач - стилометрии, распознавание авторства, классификации и кластеризации текстов и др.
• приведенные оценки не являются исчерпывающими, тем не менее, показана возможность использования представленных характеристик в рамках оценки сложности текстов и их уникальности.
Список литературы
Гращенко Л.А., Романишин Г.В. Опыт автоматизированного анализа повторов в научных текстах // Новые информационные технологии в автоматизированных системах. 2015. №18. С.582-590.
Квашина Ю.А. Методы поиска дубликатов скомпонованных текстов научной стилистики // Технологический аудит и резервы производства - №3/1(11).
Мизернов И. Ю., Гращенко Л. А. Анализ методов оценки сложности текстов // Новые информационные технологии в автоматизированных системах. 2015. №18. С.572-581.
Пиотровский Р.Г. и др. Математическая лингвистика. Учеб. пособие для пед. ин-тов. / М.: Высшая школа, 1977. - 383 с.
Пленкин Н.А. О понятии «богатство речи» // РЯШ. - 1987. - № 3.
Тумина Л. Е. Педагогическое речеведение. Словарь-справочник. / М.: Флинта, Наука Под ред. Т. А. Ладыженской и А. К. Михальской 1998
Cvrcek V., Chlumska L. Simplification in translated Czech: a new approach to type-token ratio- Russian Linguistics, 2015 - Springer
Lovins J. B. Development of a stemming algorithm. -Cambridge : MIT Information Processing Group, Electronic Systems Laboratory, 1968. - С. 65.
Peter Willett. The Porter stemming algorithm: then and now, Program, Vol. 40. Iss. 3. 2006. pp. 219 -223.