Опыт применения стилевых и жанровых характеристик для описания стилевых особенностей коллекций текстов
Анна Поспелова, Елена Ягунова
Пермский государственный национальный исследовательский университет Санкт-Петербургский государственный университет а. е. ро$ре1оуа @ етаИ. сот, гаеоипоуа. е1епа @ ятай. сот
Аннотация. Работа предлагает методику автоматической классификации текстов и текстовых коллекций, основанную на подсчете морфологических и лексических параметров в тексте. Определение стилей и жанров осуществляется на основании методов сплошного анализа материалов; методика, имеющая полноценную программную реализацию, позволяет в системе шкалирования оценить используемые параметры и результирующую классификацию на заданном наборе коллекций. Данные, полученные в ходе разработки и апробации методики, позволяют с уверенностью говорить об устойчивом различении художественных и нехудожественных текстов по большинству параметров. Часть параметров позволяет осуществить также и более тонкое членение на три группы: научные, новостные и художественные коллекции текстов. Бинарное членение обеспечивают такие параметры, как глагольность, субстантивность, номинативность, средняя длина слова и процент высокочастотных слов, причем параметр субстантивносги оказывается наиболее эффективным. Адьективность и аналитичность слабоэффективны на полном массиве текстов, однако позволяют различать подклассы внутри крупных групп текстов (напр., новостные и научные тексты среди общего массива нехудожественных).
Ключевые слова: жанр, классификация, жанровое членение, корпусная лингвистика, типология, индексы Гринберга
1 Введение
В современной лингвистике существует множество близких терминов для обозначения групп текстов: стиль, жанр, тип текста, домен, (подъ)язык, и т.п. На наш взгляд, центральным понятием в этом ряду является язык. В качестве основной шкалы в данном исследовании рассматривается шкала степени (и типа) информационной насыщенности (за основу были взяты подход и терминология Е. В. Ягуновой [Ягунова, 2008; Ягунова, 2011]. Два полюса этой шкалы занимают литературно-художественный и официально-деловой стили. Г. Рем в исследовании 2008 года говорит о том, что ключевые слова «...указывают на тематику текста, в то время как жанр определяет <...> его тип» [ЯеЬш й а1., 2008].
В предисловии к книге «Жанры в сети: вычислительные модели и эмпирические исследования» [МеЫег еХ а1., 2010] говорится, что определение жанра — одно из перспективных направлений в информационном поиске: «Потенциал жанровой характеристики в
Опыт применения стилевых и жанровых характеристик
_для описания стилевых особенностей коллекций текстов
улучшении поиска и уменьшения информационного шума достаточно давно был отмечен разными авторами: [Karlgren and Cutting, 1994], [Kessler et al., 1997], [Rosso, 2008]. Россо заканчивает свою статью на позитивной ноте, говоря, что жанр может быть мощным ключом к релевантности документа» (см. также [Lee, 2001]; [Biber, 1988]; [Biber, 1989]; [Sinclair and Ball, 1996]). Кроме того, жанровая характеристика может помочь отфильтровать нерелевантные документы из выдачи поиска по ключевым словам.
Различие между жанром и типом текста можно определить так: жанр — «традиционная» характеристика, основанная на экстралингвистических факторах, в то время как тип текста определяется его внутренними, лингвистическими свойствами. Д. Байбер [Biber, 1988] отмечает, что «жанры устанавливаются по внешним признакам, в зависимости от целей автора и тематики; они определяются по назначению текста, а не по его форме».
Существует также несколько других, разнонаправленных, подходов к классификации текстов (и их коллекций): по языку и подъязыку, по стилю и тематике, по жанру и типу. Некоторые из рассмотренных нами направлений включают:
1) Низкоуровневые параметры текста: морфемные, морфологические, частеречные и лексические особенности, встречаемость частей речи, частотные списки слов и словосочетаний.
2) Ключевые слова и выражения, коллокации и типичные конструкции.
3) Низкоуровневые характеристики корпуса: частеречные и лексические особенности, сочетаемость частей речи, структура и строение текста.
При этом границы классов остаются размытыми, а шкалы постоянно взаимодействуют. Таким образом, оказывается невозможным определение четких границ шкал, которые были бы одинаково эффективны для всех классов.
2 Методика
Целью данной работы была разработка методики автоматического определения типа текста и последующей классификации русскоязычных текстов, основанной на низкоуровневых параметрах текста, таких как процентное соотношение различных частей речи, средняя длина слова и
За основу были взяты методика сравнения различных языков Дж. Гринберга [Greenberg, 1960] и идея В. Б. Касевича о том, что «ни один язык не является «чистым» представителем того или иного типологического класса» [Касевич, 2009]. Напротив, можно говорить о том, в каком соотношении сочетаются разные черты в каждом конкретном
языке, типологическом подклассе языков— и именно это вызывает к жизни квантитативный подход в типологии [Касевич, 2009].
Так, Дж. Гринберг предложил производить классификацию языков, стремясь «вместо интуитивных определений, опирающихся на общие впечатления ... охарактеризовать каждый признак, используемый в данной классификации, через отношение двух единиц, каждая из которых получает достаточно точное определение посредством исчисления числового индекса, основанного на относительной частотности этих двух единиц в отрезках текста» [СгеепЬе^, 1960, цит. по Гринберг, 1963].
Одним из ключевых направлений критики подхода Гринберга к классификации языков было указание на тот факт, что что в рамках даже одного языка его метод дает существенно различающиеся результаты на текстах разных стилистических категорий. Основываясь на этом факте, мы предположили, что те же индексы будут достаточно эффективны для определения подъязыка, или типа текста, внутри одного национального языка.
Очевидно, однако, что использовавшийся Гринбергом объем текста в 100 словоупотреблений недостаточен для серьезных выводов. Так, уже А. Ф. Журавлев использовал для анализа тексты объемом 200—250 словоупотреблений [Журавлев, 1988], а В. Б. Касевич, учитывая необходимость расширения текстовой базы (и объективные трудности формализации понятия слова), исходил из анализа отрывков текста объемом в 800-1000 слогов [Касевич, 2009]. Для задач данной работы требуется еще большее увеличение объемов рассматриваемых единиц (уже не текстов, а однородных коллекций, сформированных по заранее заданным признакам).
Существенным ограничением исследований указанных авторов оказалась необходимость выполнения тщательной морфологической и морфемной разметки текста. Особенно трудоемкой оказывается морфемная разметка, требуя от исследователя одновременно кропотливого соблюдения единого подхода к понятию морфа (что зачастую приводит к появлению массы допущений, в комплексе не соответствующих в полной мере ни одной из существующих морфологических школ), глубокого знания структуры рассматриваемого языка, и, в конце концов, огромного объема ручного труда.
Использование методов и технологий автоматического анализа естественного языка позволило работать со значительными объемами текста. На текущем этапе были рассмотрены коллекции текстов различных функциональных стилей объемом от 40 тыс. до 82 млн. словоупотреблений. Таким образом, единицей анализа являлась коллекция, а не текст (и тем более — не его фрагмент).
Отдельно стоит отметить преимущество предлагаемой методики перед распространенными моделями машинного обучения.
Опыт применения стилевых и жанровых характеристик
_для описания стилевых особенностей коллекций текстов
«Традиционная» модель подразумевает предварительное обучение на обучающем корпусе. Однако, алгоритм, хорошо зарекомендовавший себя на учебном корпусе, нередко оказывается совершенно неэффективным на другом материале (см. [МеЫег й а1., 2010], [ЯеЬш еХ а1., 2008], [ЗИагс^, 2010]). Параметры, предлагаемые в данной работе, являются общими для всех текстов; правила классификации основываются на количественных характеристиках, а не факте появления того или иного явления в тексте. Таким образом, наш метод не зависит ни от обучающей выборки, ни от оператора.
3 Материал исследования
Для исследования были взяты коллекции текстов трех функциональных стилей: художественных, новостных и научных. Объем каждой из коллекций составил от 43 тыс. до 82 млн словоупотреблений (С/у).
В качестве коллекций-представителей научного стиля были взяты материалы лингвистических конференций «Диалог» (2003, 2004, 2005 и 2006 годы, обозначены под номерами 1-4- на рис. 1-5) и «Корпусная лингвистика» (обозначена на рис. 1-4 под номером 5). Объем коллекций составил от 165 000 до 278 000 с/у.
В качестве представителей художественного стиля были взяты детективные романы, написанные преимущественно женщинами. Выбор детективов из общего множества художественных текстов (которые традиционно представляют крайне неоднородное множество с точки зрения стилевых характеристик) определяется их очевидной нарративностью, сюжетностью и высоким динамизмом сменяющих друг друга ситуаций и пропозиций. Объем коллекций составил от 43 000 до 10 043 000 с/у. На рис. 1-3 они обозначены под номерами 12-28. В качестве примера более неоднородной коллекции была использована объединенная коллекция всех текстов женского детектива (в отличие от коллекций текстов одного автора), номер 28 на рис. 1-3. В качестве контрольной выборки для проверки влияния объема коллекции на работу параметров была использована 1/10 выборки из текстов одного из авторов (Д. Донцова; номер 16 на рис. 1-3). Предполагалось, что данные на этой выборке не будут отличаться от данных на полной коллекции для большинства параметров.
Поскольку в силу различия тематической направленности и целевой аудитории новостных изданий тексты различных новостных лент представляют неоднородное множество с точки зрения стилевых характеристик, нами был рассмотрен набор источников, предположительно различающихся по стилевым и тематическим характеристикам. Для данного исследования нами были взяты коллекции
текстов из пяти источников (номера 6-11 на рис. 1-4): «Российская газета» (РГ, 21 575 ООО с/у), новостная лента «Lenta.ru» (756 ООО с/у), две выборки из экономического интернет-издания «РосБизнесКонсантинг» (РБК, 17 021 ООО и 20 712 ООО с/у), «Независимая газета» (НГ, 82 603 ООО с/у) и веб-журнал «Компьюлента» (1 026 ООО с/у).
4 Методика
Индексы, при помощи которых оценивались выбранные тексты, представляют собой отношение наблюденного в данном тексте числа каких-либо единиц либо к его объему (длине текста в словоупотреблениях, считая служебные лексические элементы), либо к числу языковых единиц более высокой иерархической ступени (ср. [Клышинский и др., 2013]).
За основу были взяты индексы, предложенные А. Ф. Журавлевым [Журавлев, 1988]. Из двадцати шести индексов, предложенных Журавлевым, был реализован подсчет восьми:
1) Аналитичность: отношение числа служебных слов к общему числу слов в тексте;
2) Глагольность: отношение числа глаголов к общему числу слов;
3) Субстантивность: отношение числа существительных к общему числу слов;
4) Адъективность: отношение числа прилагательных к общему числу слов;
5) Местоименность: отношение числа местоименных слов к общему числу слов;
6) Автосемантичность: отношение числа значащих слов (всех, кроме служебных слов и местоимений) к общему числу слов;
7) Лексическое разнообразие: отношение числа разных лексем к общему числу слов;
8) Доля высокочастотных слов: отношение числа слов текста, входящих в первую сотню наиболее частотных в русском языке, к общему числу слов.
Кроме того, были введены дополнительные индексы:
9) Незнаменательность: отношение числа незнаменательных слов к общему числу слов;
10) Доля именной лексики: отношение суммы чисел существительных и прилагательных к общему числу слов;
11) Средняя длина слова.
При реализации подсчета индексов использовался сторонний морфологический анализатор mystem версии 2.0, принципы работы которого описаны в статье [Segalovich, 2003]. Доля неоднозначных разборов составила около 36%, общее число случаев с неоднозначной разметкой, но однозначно определенной частью речи — около 67%. Значение ошибки для разных коллекций менялось, но незначительно. Так, процент однозначно определенных частей речи составил от 60 до 61 для художественных текстов и от 71 до 72 для новостей.
Опыт применения стилевых и жанровых характеристик _для описания стилевых особенностей коллекций текстов
Данные о морфологической разметке коллекции текстов, выполненной при помощи тз^ет, обрабатывались утилитой ЯиСепге, созданной автором данной работы для целей исследования (язык программирования О^есЬуе-С, исходные коды доступны по адресу http://sourceforge.net/proj е^/п^епге).
5 Результаты
Полученные количественные данные позволяют с уверенностью разделить художественные и нехудожественные тексты по большинству параметров. Отдельные параметры также дают более дробное деление текстов: деление на все три рассматривавшихся класса (научные, новостные и художественные).
При делении коллекций на художественные и нехудожественные наиболее эффективными оказались следующие параметры: глагольность, субстантивность (см. рис. 1 и рис. 2), доля высокочастотных слов, номинативность и средняя длина слова.
Рис. 4. Индекс субстантивности в порядке возрастания значений
Для нехудожественных коллекций индекс субстантивности превышал 0,38 (см. номера 1-11 на рис. 1). Индекс глагольности предсказуемо падает с ростом субстантивности (см. рис 2) и дает границу между классами (см. порог 0,18 на рис. 2).
0
0 22
П 1 8 -
и, 1 о П 1 Л
0,14 П 1 П
и, 1 и 15 14 16 26 17 28 24 18 19 22 25 20 27 12 21 23 13 11 7 8 9 2 3 4 10 5 1 6
Рис. 5. Индекс глагольности в порядке убывания значений
В целом, четкое деление коллекций на художественные и нехудожественные тексты обеспечивают все пять вышеперечисленных индексов. На рис. 3 представлен сводный график этих параметров после нормализации. Как и ожидалось, наблюдается сходное распределение значений, принимаемых индексами номинативности и субстантивности
(см. рис. 3). Неожиданным оказалось то, что параметр средней длины слова также менялся аналогичным образом (см. рис. 3). Граница между художественными и нехудожественными текстами соотносится с нулевым значением.
Средняя длина слова •Глагольность ■Номинативно сть
•Доля высокочастотных слов »Субстантивно сть
2,00 1,50 1,00 0,50 0,00 -0,50 -1,00 -1,50 -2,00
>
ч 4
"1*" ■
1 2 3 4 5 в 7 8 9 10 \к Ь 13 14 17 18 19, £1 22 23 24 25 26 28
К К
Рис. 6. Нормализованные значения пяти наиболее эффективных индексов
Часть параметров (адъективность, глагольность и аналитичность) позволяет также делить обобщенные классы текстов на классы и подклассы (напр., обобщенный класс «нехудожественные» на классы «новостные» и «научные»), несмотря на их неэффективность на полном массиве текстов. На рис. 4 представлены перечисленные индексы со значениями, нормализованными для множества нехудожественных текстов.
• Глагольно сть Адъективно сть
Аналитично сть
1,00 0,00 -1,00 -2,00
ч
'Л г N N Л - —л
1 /г я > V 7 8 9
Рис. 7. Индексы глагольности, адъективности и аналитичности для
нехудожественных текстов
На основании рассматриваемых параметров коллекция РГ (№6) попадает в класс научных текстов, хотя изначально она была взята нами
Опыт применения стилевых и жанровых характеристик
_для описания стилевых особенностей коллекций текстов
как пример новостного издания (рис. 4). Такой результат классификации связан с тем, что данный источник представляет жанр, промежуточный между официально-деловыми и новостными текстами. Это обусловлено статусом источника как официального публикатора Правительства РФ.
новости научные тексты женский детектив
Н1 М1.
Рис. 8. Семь наиболее эффективных индексов на группах коллекций
Примечания. Индексы на графиках по порядку (начиная с верхнего, по часовой стрелке): средняя длина слова, доля высокочастотных слов, автосемантичность, местоименность, адъективность, субстантивность, глагольность. Группы коллекций текстов (слева направо): новостные, научные, художественные.
Коллекции научных текстов очень схожи по подавляющему большинству параметров (рис. 5). Новостные коллекции разнородны: они достаточно близки к научным по одним параметрам, однако явно выделяются по другим, особенно по индексам глагольности и адъективности. Очевидно, коллекции художественных текстов совершенно отличны от обоих классов нехудожественных и легко выделяются, несмотря на высокую неоднородность — что, впрочем, может быть объяснено жанром, стилем и тематикой выбранных текстов (женские детективные романы) и является объектом другого нашего исследования [8аута, Yagunova, 2013].
6 Заключение
В целом, предложенный метод доказал свою эффективность для заявленных задач. Очевидно, любые дальнейшие исследования в области классификации и типизации коллекций текстов требуют четкого понимания границ между классами и подклассами (и, соответственно, стилями и жанрами). Описанный метод может быть использован как проверенный инструмент для последующего анализа в корпусных исследованиях.
Несомненна также и необходимость дальнейшей разработки метода: добавление новых параметров (отдельно и в комбинациях с уже введенными), а также апробация на новых коллекциях (других типов и тематик). Другие перспективные пути — вычисление морфемных (а не только морфологических) индексов и расширение области применения за счет новых языков.
7 Благодарности
Работа выполнена при поддержке гранта СПбГУ 30.38.305.2014.
8 Список литературы
[Гринберг, 1963] Гринберг Дж. Квантитативный подход к морфологической типологии языков // Новое в лингвистике / Дж. Гринберг. 1963. Вып. 3. С. 60-94.
[Журавлев, 1988] Журавлев А. Ф. Опыт квантитативно-типологического исследования разновидностей устной речи // Разновидности городской устной речи. Сборник научных трудов. ~ М.: Наука, 1988. С. 84-150.
[Касевич, 2009] Касевич В. Б. О квантитативно-типологических индексах для характеристики восточных языков // В сб.: Вестник СПбГУ. Сер. 13 «Востоковедение. Африканистика». Вып. 3, 2009, стр. 123-142
[Клышинский и др., 2013] Э.С.Клышинский, Н.А.Кочеткова, О.Ю.Мансурова, Е.В.Ягунова, В.Ю.Максимов, О.В.Карпик Формирование модели сочетаемости слов русского языка и исследование ее свойств Москва // Препринты ИПМ им. М.В.Келдыша. 2013. № 41. 23 с. URL: http://library.keldysh.ru/preprint.asp?id=2013-41
[Ягунова, 2008] Ягунова Е. В. Вариативность стратегий восприятия звучащего текста: экспериментальное исследование на материале русскоязычных текстов разных функциональных стилей : монография. Пермский гос. университет, 2008
[Ягунова, 2011] Ягунова Е. В. Основы теоретической, вычислительной и экспериментальной лингвистики, или размышления о месте лингвиста в компьютерной лингвистике // Автоматическая обработка текстов на естественном языке и компьютерная лингвистика: учеб. пособие / Большакова Е. И., Клышинский Э. С., Ландэ Д. В., Носков А. А., Пескова О. В., Ягунова Е. В. — М.: МИЭМ, 2011
[Biber, 1988] Biber D. Variation across speech and writing. Cambridge, UK: Cambridge University Press, 1988.
[Biber, 1989] Biber D. A typology of English texts. In Linguistics, 27(1), 1989, pp. 3^13.
[Greenberg, 1960] Greenberg J. H. A Quantitative Approach to the Morphological Typology of Language In International Journal of American Linguistics 26, pp. 178-194.
[Karlgren and Cutting, 1994] KarlgrenJ. and Cutting D. Recognizing text genres with simple metrics using discriminant analysis. In Proceedings of the 15th Conference on Computational Linguistics, vol. 2, 1994, pp.1071-1075.
[Kessler et al., 1997] Kessler В., Nunberg G and Schütze H. Automatic detection of text genre. In Proceedings of the 35th Annual Meeting of the Association for Computational Linguistics and Eighth Conference of the European Chapter of the Association for Computational Linguistics, pp. 32-38. 1997, Madrid, Spain.
Опыт применения стилевых и жанровых характеристик
_для описания стилевых особенностей коллекций текстов
[Lee, 2001] Lee D. Y. W. Genres, registers, text types, domains, and styles: clarifying the concepts and navigating a path through the BNC jungle. In Language Learning & Technology September 2001, Vol. 5, Num. 3, pp. 37-72.
[Mehler et al., 2010] Mehler A., Santini M. and Sharoff S. Riding the Rough Waves of Genre on the Web. Concepts and Research Questions. In Mehler A., Sharoff S. and Santini M., editors. Genres on the Web: Computational Models and Empirical Studies (Text, Speech and Language Technology). Dordrecht: Springer, 2010, pp. 3-32.
[Rehm et al., 2008] Rehm G, Santini M., Mehler M., Braslavski R, Gleim R., Stubbe A., Symonenko S., Tavosanis M. and Vidulin V. Towards a reference corpus of web genres for the evaluation of genre identification systems. In Proceedings of LREC 2008, May 28-30. 2008, Marrakech, Morocco.
[Rosso, 2008] Rosso, M. User-Based Identification of Web Genres. JASIST, 59(5), 2008, pp. 1-20.
[Savina, Yagunova, 2013] SavinaA. and YagunovaE. (2013). Types of idioms and phraseological units in female detective story. In Communication, Cognition and Cybernetics. Abstracts. April, 2013, pages 203-204. University of La Laguna, Tenerife.
[Segalovich, 2003]. Segalovich I. A Fast Morphological Algorithm with Unknown Word Guessing Induced by a Dictionary for a Web Search Engine. MLMTA 2003, pp. 273-280
[Sharoff, 2010] Sharoff S. In the Garden and in the Jungle In Mehler A., Sharoff S. and Santini M., editors. Genres on the Web: Computational Models and Empirical Studies (Text, Speech and Language Technology). Dordrecht: Springer, 2010, pp. 149-166
[Sinclair and Ball, 1996] Sinclair J. and BallC. Preliminary Recommendations on Text Typology. In EAGLES Documents EAG-TCWG-TTYP-P, June 1996.
Электронные ресурсы:
Морфологический анализатор текста на русском языке mystem [Электронный ресурс]; // Компания Яндекс [сайт] — 2003-2013. — URL: http://company.yandex.ru/technologies/ mystem/(25.12.2012)
RuGenre, genre identifier for Russian text, based on method invented by A.F. Zhuravliov [Электронный ресурс]; // URL: http://sourceforge.net/projects/rugenre/ (25.02.2013)