Научная статья на тему 'Исследование лексического богатства научных текстов'

Исследование лексического богатства научных текстов Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
228
64
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Романишин Г.В.

В статье приводятся результаты исследования лексического богатства в научных текстах на основе анализа словаря частот употребления слов. Показана согласованность полученных результатов с материалами предыдущих исследований.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Исследование лексического богатства научных текстов»

Исследование лексического богатства научных текстов

Романишин Г.В., войсковая часть 51952 romanishin.g.v@mail.ru

Аннотация

В статье приводятся результаты исследования лексического богатства в научных текстах на основе анализа словаря частот употребления слов. Показана согласованность полученных результатов с материалами предыдущих исследований.

1 Введение

Современное общество неразрывно связано с развитием средств вычислительной техники и систем передачи данных, что в свою очередь приводит к постоянному увеличению количества производимых с их помощью документов, а также усложнению систем электронного документооборота. В деятельности различных организаций элементом документооборота могут быть объемные документы -отчеты о научно-исследовательской и опытно-конструкторской работе, пояснительные записки диссертаций, монографии, методики, руководства пользователя и т.д. При этом текст документа должен соответствовать определенному ряду требований, среди которых - отсутствие избыточности текста.

Особое внимание в настоящее время уделяется научным текстам, что связано с неудовлетворенностью в научном сообществе качеством выполнения диссертационных работ, в частности заимствованиями текстовых блоков одними авторами из работ других авторов (см. например проект www.dissernet.org).

Исследование представления об избыточности текста проводилось в работе [Гращен-ко, Романишин, 2015], в которой также предложена одна из методик определения повторов в научных текстах. Данная статья является логическим продолжением проведенных ранее исследований и направлена на поиск дополнительных показателей, характеризующих текст. В качестве такой характеристики использовано лексическое богатство текста.

Богатство речи - коммуникативное качество речи, которое возникает на основе соотношения речь-язык. Его можно определить как максимально возможное насыщение ее разными, не повторяющимися средствами

языка, в той мере, в какой это необходимо для реализации коммуникативного намерения. Богатство речи проявляется на различных уровнях текста (лексическом, синтаксическом, интонационном и др.) и предполагает исключение речевых недочетов, среди которых: повторение одного и того же слова в рамках небольшого контекста; употребление рядом или близко однокоренных слов; однотипность и слабая распространенность синтаксических конструкций и т.д. [Тумина, 1987; Ладыженская, Михальская, 1998].

Необходимо отметить, что богатство текста является важной характеристикой документа и неразрывно связана с таким понятием как сложность текста [Мизернов, Гращенко, 2015], являющейся одной из наиболее важных оценок при работе с текстовыми документами в различных отраслях деятельности (расчет стоимости и сроков выполнения переводческих работ; планирование времени по созданию текстов различного уровня - реферат, отчет о НИР, диссертация и др.; оценка восприятия учебной литературы учащимися и т. п.).

2 Методика исследования

Несмотря на важность указанной характеристики в настоящее время не существует общепризнанного инструментария оценки богатства текста. Одним из простейших показателей является коэффициент лексического богатства текста, т.е. отношение количества лексем к общему количеству слов в тексте [Пиотровский, 1977]. Широко используется простое отношение словоформа / словоупотребление (type-token ratio, TTR), однако, оно очень чувствительно к размеру текста. Чтобы преодолеть этот недостаток, было введено стандартизированное отношение словоформа/ словоупотребление (sTTR), которое вычисляется для каждой тысячи слов, а также метрика (zTTR), основанная на сравнении наблюдаемой величины TTR со значениями эталонного TTR [Cvrcek, Chlumska, 2015].

За основу оценки богатства текста взят анализ мощности словаря частот употребления слов. В качестве основной идеи выдвинуто предположение о том, что лексическое бо-

гатство текста для научных работ различных отраслей отличается и имеет некоторое постоянное значение.

Словарь представляет собой множество слов, появляющихся в тексте:

5 = N М2,..., Мк}, (1)

где Nj - слова, встречаемые в тексте.

Соответственно мощность такого словаря равна количеству его элементов к = |5|.

В качестве основных расчетных величин использованы:

• средняя мощность словарей для текста в целом к*;

• лексическое богатство локального участка текста на основе используемых ранее подходов и вычисляемая как отношение мощности локального словаря (определенного участка текста) к мощности словаря всего текста:

Р =■

I ^ |

(2)

• средняя величина лексического богатства Р*, вычисляемая на основе усреднения величины Рг по всем локальным участка текста;

Также необходимо отметить, что предварительно осуществляется специальная подготовка текста или его канонизация [Квашина, 2013]. Канонизация предполагает следующие действия:

• весь текст разбивается на непересекающиеся участки одинаковой длины, над которыми и производится основная процедура обработки;

• игнорируются знаки препинания, числовые значения и все другие символы, отличные от букв русского и латинского алфавитов;

• все слова, длина которых составляет менее 5 символов, игнорируются. Это сделано для того, чтобы не учитывать различные слова, не несущие существенной смысловой нагрузки (предлоги, местоимения и т.д.). В процессе исследований было выявлено, что минимальный размер слова не влияет на полученные зависимости, лишь изменяя абсолютные значения полученных величин;

• ввиду особенностей естественного языка (падежи, склонения, время и т.д.) необходимо анализировать не слово целиком, а его основу. Для этих целей производится процедура стемминга [Ьоут8, 1968]. Использовался стеммер Портера, как наиболее распростра-

ненный и показывающий неплохие результаты алгоритм [^11ей, 2006].

Исследовательский стенд аналогичен стенду, который использовалась в исследованиях ранее [Гращенко, Романишин, 2015], за исключением доработок в программном обеспечении, обусловленных использованием предложенной выше методики. Выборка, на которой проводились измерения, осталась неизменной - диссертации и авторефераты русскоязычных авторов, защищенных в период 2012-2014 гг. Тексты были разбиты на три категории по отраслевому признаку: технические, медицинские и гуманитарные, в которые вошли работы по педагогике, экономике, социологии и географии (всего 34 диссертации и 71 автореферат).

3 Полученные результаты

На рисунках 1 и 2 представлены средние значения мощности словарей авторефератов и диссертаций соответственно.

Рис. 1. Значения к* в авторефератах различных отраслей науки

Рис. 2. Значения к* в диссертациях различных отраслей науки

На рисунках 3 и 4 приведены данные о лексическом богатстве локальных участков текста для блоков размером 200 символов на основе картирования.

Примечательно то, что с увеличением числа блоков увеличивается значение Р, однако, характер соотношений величины для различных отраслей науки сохраняется (рис. 5).

Рис.3. Динамика Pi в авторефератах

Рис.4. Динамика в диссертациях

Рис.5. Динамика Р в авторефератах (блоки по 500 символов)

Рис. 6. Р* для авторефератов различных отраслей науки

Рис. 7. Р* для диссертаций различных отраслей науки

На рисунках 6 и 7 показаны результаты вычисления Р* для авторефератов и диссертаций соответственно.

4 Выводы

Использованная методика не обладает строгостью, а приведенные результаты носят скорее оценочный характер. Однако проведенные эксперименты позволяют сделать следующие предварительные выводы:

• мощность словаря гуманитарных работ выше мощности словаря медицинских и технических работ (рис.1), особенно ярко это проявляется в диссертациях (рис.2). Однако, учитывая результаты прошлых исследований, показавших, что гуманитарные работы имеют меньшую плотность текста, можно сделать вывод о том, что в тексте гуманитарных работ присутствует большее количество повторов по сравнению с медицинскими и техническими работами;

• анализ динамики значений Рг показал, что на протяжении всего текста для блока определенного размера этот показатель имеет практически постоянное значение (рис. 3-5), причем это значение отличается для различных отраслей науки

• динамика значений Рг наряду с выявленной ранее динамикой плотности текстов позволяет утверждать о существовании значительного количества повторов в текстах гуманитарных работ, особенно в авторефератах (малое разнообразие используемых слов, что приводит к низкой плотности текста);

• значения Р* коррелированны со значениями плотности текста, что доказывает предположение о зависимости лексического богатства текста и его плотности;

• наблюдается парадокс, заключающийся в том, что авторы гуманитарных работ, которые должны в большей степени использовать языковые средства (а многие работы их даже исследуют!), демонстрируют более низкий показатель лексического богатства по сравнению с авторами медицинских и технических работ. Особенно это выражено в авторефератах, где размер работ ограничен (рис.6). В группе диссертаций гуманитарные работы сопоставимы с техническими. Однако это объясняется малым размером выборки, большими объемами гуманитарных диссертаций по сравнению с работами в других отраслях. Также при детальном рассмотрении определено, что в гуманитарных диссертациях зача-

стую присутствуют дополнительные материалы в виде словарей и справочников, что в свою очередь значительно влияет на характеристики словаря частот употребления слов;

• в качестве дальнейших исследований наиболее интересным представляется исследование отношения мощности словарей блоков текста относительно друг друга, а не общего словаря, а также входящих в словарь элементов, что позволит проанализировать дополнительные характеристики текста;

• необходимо в дальнейшем провести исследование по оценке применения рассмотренных показателей лексического богатства для других смежных задач - стилометрии, распознавание авторства, классификации и кластеризации текстов и др.

• приведенные оценки не являются исчерпывающими, тем не менее, показана возможность использования представленных характеристик в рамках оценки сложности текстов и их уникальности.

Список литературы

Гращенко Л.А., Романишин Г.В. Опыт автоматизированного анализа повторов в научных текстах // Новые информационные технологии в автоматизированных системах. 2015. №18. С.582-590.

Квашина Ю.А. Методы поиска дубликатов скомпонованных текстов научной стилистики // Технологический аудит и резервы производства - №3/1(11).

Мизернов И. Ю., Гращенко Л. А. Анализ методов оценки сложности текстов // Новые информационные технологии в автоматизированных системах. 2015. №18. С.572-581.

Пиотровский Р.Г. и др. Математическая лингвистика. Учеб. пособие для пед. ин-тов. / М.: Высшая школа, 1977. - 383 с.

Пленкин Н.А. О понятии «богатство речи» // РЯШ. - 1987. - № 3.

Тумина Л. Е. Педагогическое речеведение. Словарь-справочник. / М.: Флинта, Наука Под ред. Т. А. Ладыженской и А. К. Михальской 1998

Cvrcek V., Chlumska L. Simplification in translated Czech: a new approach to type-token ratio- Russian Linguistics, 2015 - Springer

Lovins J. B. Development of a stemming algorithm. -Cambridge : MIT Information Processing Group, Electronic Systems Laboratory, 1968. - С. 65.

Peter Willett. The Porter stemming algorithm: then and now, Program, Vol. 40. Iss. 3. 2006. pp. 219 -223.

i Надоели баннеры? Вы всегда можете отключить рекламу.