ОСОБЕННОСТИ КОМПЬЮТЕРНОЙ ОБРАБОТКИ НАУЧНОГО ТЕКСТА
© Волков А.В.*
Тверской филиал Московского государственного университета экономики, статистики и информатики, г. Тверь
В данной статье рассмотрены основные этапы компьютерной обработки текстов на естественных языках и перечисляются методы, которые можно применить для повышения качества обработки текстов научного стиля. В статье выявлены ключевые особенности научных текстов, которые можно учитывать при их машинной обработке, а также перечислен инструментарий для анализа текстов. В заключении сделан обоснованный вывод о состоянии, в котором пребывает рассмотренная проблема в наше время.
В последние десятилетия наблюдается рост интереса научной общественности к вопросам компьютерной обработки текста на естественном языке. Это связано с бурным ростом в обществе количества текстовой информации, в том числе в сети Интернет. К настоящему моменту различными хранилищами научных знаний накоплены огромные информационные массивы. Необходимость ориентироваться в этом пространстве информации неизменно растет.
Компьютерная обработка текста необходима для решения многих задач, таких как машинный перевод текста, информационный поиск, автоматическое реферирование, аннотирование, классификация и рубрикация документов и др. Особый интерес для ученых представляет компьютерная обработка научного текста. Необходимость эта обусловлена стремительным наращиванием в обществе научного знания: образовательные центры организуют в Интернете базы научных статей, автореферератов, многие организации предоставляют доступ к ресурсам электронных библиотек, публикуются тысячи научных статей, докладов и т.п.
Независимо от стиля анализируемого текста процесс его компьютерной обработки, как правило, содержит схожие этапы. Стандартный подход к обработке текстов включает:
1. Декомпозиция текста на элементы, которым можно присвоить какое-то грамматическое значение (графематический анализ). Обычно выделяют слова, но можно работать и с более элементарными единицами: знаками препинания, цифрами и т.п. На данном этапе также осуществляется удаление стоп-слов (слов, слабо влияющих на результат).
* Аспирант кафедры Информационных технологий, естественно-научных и математических дисциплин.
2. Морфологический анализ. После выделения элементов текста необходимо определить их статус в системе языка. Морфологический анализ слов применяется с целью их членения на морфемы (приставка, корень, суффикс и окончание) или сочетания морфем и получения грамматической информации, необходимой на последующих этапах обработки текста. Для словоформ нужно определить, от какого слова произведена форма, и приписать ей определенные грамматические характеристики.
3. Синтаксический анализ. В предложении существует определенная система связей, которая описывается синтаксисом. В разных языках система синтаксических отношений, образующая синтаксическую структуру предложения, создается разными средствами - вспомогательными словами, грамматическими значениями, порядком слов, пунктуацией.
4. Семантический анализ, когда от структуры поверхностных синтаксических связей происходит переход к ее смысловой интерпретации, представленной глубинной семантической структурой. Это формализованное представление, соответствующее той глубине анализа, которая может быть примерно ассоциирована с информацией из толкового словаря языка. Здесь решается задача формализации языка, привидение к виду, понятному для машины.
Далее мы рассмотрим особенности компьютерной обработки научных текстов применительно к каждому из перечисленных этапов. Но прежде чем перейти к этому, следует сказать о том, что же представляют из себя научные тексты, и выявить ряд особенностей, отличающих научные тексты от текстов других стилей.
Под словосочетанием научный текст мы понимаем текст научного стиля. Типичный научный текст - это научное изложение, которое представляет собой рассуждение, призванное, как правило, описать и обосновать результаты проведенного научного исследования или обсуждение научного вопроса. Научное изложение состоит главным образом из рассуждений, организованных как логическая последовательность шагов информирования, аргументирования и оценки. Стиль научных работ определяется их содержанием и целями научного сообщения: по возможности точно и полно объяснить факты, показать причинно--следственные связи между явлениями. Научный стиль отличает, как правило, нейтральный способ изложения материала, высокая стандартизированность и насыщенность специальными терминами, а также особый формально-логический способ изложения материала.
Мы выделили ряд ключевых особенностей научных текстов. Теперь рассмотрим подробнее каждый из этапов обработки научных текстов.
Графематический анализ. На данном этапе большое значение имеют лексические особенности научных текстов. Для лексического оформления
текстов научно-технического стиля характерна, прежде всего, насыщенность узкоспециальными и общенаучными терминами. Это объясняется спецификой терминов, их принципиальной однозначностью, точностью, стилистической нейтральностью, большой информационной насыщенностью, отсутствием эмоциональной экспрессии [6]. В связи с этим, представляется полезным при компьютерной обработке научных текстов создание и использование вспомогательных словарей. Прежде всего, это словарь общенаучных терминов. В этом словаре содержатся стандартные для любых научных текстов слова и выражения. Такие слова могут встретиться в любом научном тексте независимо от рассматриваемой научной области. Лексика, представляемая этим словарем, инвариантна в научном языке. Помимо единичных слов-терминов в научном тексте используются устойчивые фразеологические обороты, превратившиеся в своего рода термины, их тоже необходимо включить в данный словарь. Идея создания подобного словаря описывается в статье [4]. Словарь общенаучной лексики охватывает широкий круг семантически и грамматически разнородных слов и выражений общенаучной речи. К числу таких выражений относятся именные и глагольно-именные словосочетания («сравнительное исследование», «опровергнуть гипотезу», «предположим, что»), предложно-именные сочетания («в общих чертах»), причастные и деепричастные обороты («упомянутый выше», «суммируя все это»), составные предлоги и союзы («в случае», «благодаря тому, что»).
Следующий вид словаря, о котором стоит сказать - это предметно-тематический словарь. Для каждой предметной области выделяются основные ключевые термины, которые включаются в словарь. Такой словарь может быть использован, к примеру, при решении задачи автоматической классификации текстов, когда проводится частотный анализ слов в тексте и находятся наиболее часто встречаемые слова. В зависимости от того, с каким словарем найдено наибольшее количество соответствий, классификатор делает вывод о принадлежности текста к классу - предметной области.
Наряду с узкоспециальными терминами и терминами общенаучными в научных текстах присутствует третий пласт слов - слова стилистически нейтральные, общеупотребительные. Такие слова используются в текстах разных стилей. Сюда относятся предлоги, частицы, наречия, существительные, которые не отражают смыслового содержания текста. Зачастую, эти слова являются избыточными для решения поставленных задач. Их называют стоп-слова. Многие из них удаляются на раннем этапе обработки. Для удаления из текста таких слов используется словарь стоп-слов. Такой словарь, как правило, составляется вручную.
При работе с научными текстами особое значение отводится изучению аббревиации как особого типа номинативных знаков, поэтому может оказаться полезным использование словаря аббревиатур - как стандартных, общеупотребительных, так и относящихся к конкретной области.
Следует учитывать, что научные тексты отличает высокая частота повторяемости ключевых слов. Эта особенность может оказаться очень полезной в задачах информационного поиска и смежных задачах классификации текстов.
Морфологический анализ. Из морфологических особенностей научных текстов следует упомянуть неупотребительность местоимений «я», «ты» и глаголов 1-го и 2-го лица единственного числа, а также неупотребительность восклицательных частиц и междометий. Эта информация может пригодиться на ранних этапах обработки текста.
Для того чтобы объединять различные морфологические формы слова в одну координату пространства признаков, каждое слово исходного текста приводится к своей нормализованной форме (лемме). Для английского языка обычно применяется процедура нормализации слов, которая заключается в отсечении окончания слова (stemming). Для русского языка процедура нормализации слов является более сложной, но на данный момент существуют распространённые методы её решения [3]. В основе большинства из этих решений используется морфологический словарь основ и неизменяемых слов, в который входят все слова из других словарных компонентов. Каждая единица словаря содержит необходимую грамматическую информацию (часть речи и флективный класс слова), а также ссылки на единицы других словарных компонентов, в состав которых входит данное слово [1].
Существующие решения задачи нормализации слов различаются в основном по следующим параметрам:
- результату работы - лемма или основа с набором морфологических характеристик (род, число, падеж, вид, лицо и т.п.) заданной словоформы;
- методу анализа - с опорой на словарь словоформ языка или на словарь основ, либо же бессловарный метод;
- возможности обработки словоформы лексемы, не включенной в словарь [2].
Этап морфологического анализа текстов является одним из наиболее проработанных этапов компьютерной обработки текста. Следует отметить, что на данном этапе стиль анализируемого текста имеет малое значение и слабо влияет на результат анализа. Морфологические основы слов в текстах разных стилей являются одинаковыми, в связи, с чем представляется очень трудным сделать какую-либо надстройку системе для улучшения качества морфологического анализа именно научных текстов.
Синтаксический анализ. В системах автоматической обработки текстовой информации популярной является модель синтаксической структуры предложения, получившая название дерево зависимостей. В этой модели предложение представляется в виде дерева, в узлах которого находятся слова, связанные друг с другом отношениями подчинения. Сказуемое распола-
гается в корне дерева, а все остальные слова зависят от него либо непосредственно, либо через посредство других слов. Характеризуя синтаксический строй научного текста, необходимо отметить, что логическая цельность и связанность его частей требует широкого использования сложных предложений. Им присуща разветвленная синтаксическая структура с обилием связок и союзов. Превалируют сложноподчиненные предложения, поскольку они более гибко отражают логические связи внутри текста. В то же время, научные тексты зачастую могут содержать предложения, в которых отсутствует подлежащее (например, при перечислении технических данных) или сказуемое (если оно подразумевается по контексту). Построение дерева зависимостей научных текстов зачастую является более трудоемкой задачей, чем построение такой модели текстов других стилей.
Близкой к модели дерева зависимостей является модель непосредственно составляющих. В основу этой модели положено допущение, что всякая сложная единица языка или текста складывается из двух более простых и не пересекающихся единиц - ее непосредственно составляющих. Последние, в свою очередь, могут дробиться на более мелкие непосредственно составляющие и т.д., вплоть до элементарных неделимых составляющих [7].
Для решения многих прикладных задач автоматизированной обработки научных текстов необходимы не только алгоритмы терминологического анализа, но и процедуры выявления и учета композиционно-логической организации текстов. Действительно, выделенное в результате терминологического анализа множество ключевых слов текста позволяет обозначить тематику текста, но никак не основное его содержание.
Типичное научное изложение, как было сказано ранее, представляет собой рассуждение, призванное описать и обосновать результаты проведенного научного исследования. Шаги рассуждения обычно указываются автором текста при помощи общенаучных слов и выражений (слов-организаторов научной мысли): «далее мы докажем», «из вышесказанного следует», «в заключение», «по причине того, что» и т.п. Из общенаучных слов строятся типичные выражения-клише научной прозы: «как показало проведенное исследование», «всесторонний анализ проблемы приводит к выводу» и т.п. Такие конструкции содержат фиксированные лексемы и имеют определенную синтаксическую структуру.
Для автоматического распознавания в текстах подобных языковых выражений не достаточно обычной словарной информации - необходимо взаимосвязанное представление характеризующей их лексической и синтаксической информации. Авторы статьи [5] предложили записывать эту информацию в виде специальных декларативных структур, названных лексико-синтаксическими шаблонами. По сути, лексико-синтаксический шаблон -это структурный образец языковой конструкции, который отображает ее лексические и поверхностно-синтаксические свойства. Шаблоны фиксиру-
ют лексемы конструкций и их грамматическую форму, а также задают синтаксические условия заполнения своих пустых мест (слотов).
LSPL (Lexico Syntactic Pattern Language) представляет собой язык, на котором можно записывать лексико-синтаксические шаблоны. [9] Язык LSPL пригоден для задания любой лексической и поверхностно-синтаксической информации, на основе которой можно распознать регулярные языковые конструкции. Представление такой информации в системах автоматической обработки текстов позволяет осуществить более широкий спектр интеллектуальных операций над текстом.
Семантический анализ. Семантический анализ - смысловой анализ текста. Поскольку компьютер не способен понимать тексты, а может их только «выполнять» (по аналогии с языками программирования), то остается практически один способ для реализации алгоритмов семантического анализа текста - представить предложение как запись последовательности выполнимых действий. Возникает задача формализации русского языка, привидение к виду, понятному для машины. Но для того чтобы ее решить, надо, во-первых, создать семантический язык, то есть, формальный язык, на котором можно было бы описать (формализовать) смысл каждого слова русского языка; во-вторых, фактически описать каждое слово и тем самым построить семантический словарь (применив морфологический и синтаксический этапы обработки текста множеству всех словоформ русского языка); в-третьих, написать программу семантического анализа, которая переводила бы текст с русского язьгка на семантический [7].
Когда на этапе морфологического анализа характеристики слова не могут быть установлены однозначно, возвращается несколько возможных вариантов характеристик. Поскольку у некоторых слов может присутствовать несколько омонимичных словоформ, то для улучшения качества анализа и повышения его производительности можно использовать алгоритмы устранения омонимии, которые сокращают количество вариантов морфологического анализа. Так как, научные тексты отличает точность и однозначность высказываний, очевидно, что алгоритмы устранения омонимии в научных текстах показывают лучшие результаты, чем, например, в текстах художественного стиля, где часто используются слова в переносных значениях, и машине бывает трудно определить правильный смысл слова. Однозначность высказываний в научных текстах существенно уменьшает вероятность неправильного семантического толкования слов компьютером. При описании конкретной предметной ситуации, конкретной научно-технической сферы, термины не допускают неверного их толкования. Неправильное семантическое толкование слов является одной из важнейших проблем в области современного семантического анализа текста. Научные тексты соответствуют принципам терминологического единообразия. Авторы научных текстов
стараются избегать использования терминов-синонимов. Отсутствие изобразительных оборотов в научных текстах также способствует повышению качества семантического анализа.
Модели семантики языка наименее проработаны в рамках компьютерной лингвистики. Для семантического анализа предложений существуют решения, включающие так называемые падежные грамматики и семантические падежи (валентности), на базе которых семантика предложения описывается как через связи главного слова (глагола) с его семантическими актантами, то есть через семантические падежи [4]. Например, глагол передать описывается семантическими падежами дающего, адресата и объекта передачи. Для представления семантики всего текста обычно используются два логически эквивалентных формализма [2]:
- формулы исчисления предикатов, выражающих свойства, состояния, процессы, действия и отношения;
- семантические сети - размеченные графы, в которых вершины соответствуют понятиям, а вершины - отношениям между ними.
Также в семантическом анализе используются такие сложные структуры, как тезаурусы и онтологии. Тезаурус - это семантический словарь, то есть словарь, в котором представлены смысловые связи слов - синонимические, отношения род-вид (иногда называемые отношением выше-ниже), часть-целое, ассоциации. Онтология - набор понятий, сущностей определенной области знаний, ориентированный на многократное использование для различных задач. Описание области знаний (предметной области) содержит некоторый набор понятий, которые вступают между собой в различные отношения: подчинения, включения, пересечения, ассоциации и др. Тезаурусы и онтологии очень объемные темы, заслуживающие отдельного подробного рассмотрения, поэтому здесь ограничимся лишь выводом, что используя этот инструментарий можно существенно улучшить результаты решаемых задач компьютерной обработки текстов, в том числе и научных - путем правильной настройки и грамотного использования.
* * *
Несмотря на то, что для компьютерной обработки текстов разных стилей, общий подход является единым, существуют дополнительные надстройки для систем обработки текста, которые позволяют улучшить результаты решения поставленных задач для каждого из анализируемых стилей. В данной статье были рассмотрены некоторые базовые приемы и методики компьютерной обработки текстов, а также приемы, используемые для компьютерной обработки научных текстов. Компьютерная лингвистика демонстрирует вполне осязаемые результаты в различных приложениях по автоматической обработке научных текстов на естественных языках. Наиболее про-
работанными в этой области являются этапы морфологического анализа. Модель синтаксиса еще не доведена до уровня устойчиво и эффективно работающих модулей, несмотря на большое число предложенных формализмов и методов. Еще менее изучены и формализованы модели уровня семантики, но, последние годы исследований в области компьютерной лингвистики в России и за рубежом показывают, что интерес научной общественности к вопросам компьютерной лингвистики очень высок, наука развивается, а, значит, дальнейшие открытия в этой области сильно вероятны и вполне ожидаемы.
Список литературы:
1. Агеев М.С. Методы автоматической рубрикации текстов, основанные на машинном обучении и знаниях экспертов: дисс. ... канд. физ.-мат. наук. -М., 2004. - 136 с.
2. Автоматическая обработка текстов на естественном языке и компьютерная лингвистика: учеб. пособие / Е.И. Большакова, Э.С. Клышинский, Д.В. Ландэ, А.А. Носков, О.В. Пескова, Е.В. Ягунова. - М.: МИЭМ, 2011. -272 с.
3. Аношкина Ж.Г. Морфологический процессор русского языка // Бюллетень машинного фонда русского языка / Отв. ред. В.М. Андрющенко - М., 1996. - Вып. 3. - С. 53-57.
4. Большакова Е.И., Баева Н.В., Васильева Н.Э. Структурирование и извлечение знаний, представленных в научных текстах // Девятая Национальная конференция по искусственному интеллекту с международным участием КИИ-2004. Труды конференции: в 3-х томах. Т. 2. - М.: Физматлит, 2004. -С. 480-488.
5. Большакова Е.И., Васильева Н.Э., Морозов С.С. Лексико-синтаксиче-ские шаблоны для автоматического анализа научно-технических текстов // Десятая Национальная конференция по искусственному интеллекту с международным участием КИИ-2006. Труды конференции в 3-х томах. Т. 2. -М.: Физматлит, 2006. - С. 506-524.
6. Валеева Н.Г. Введение в переводоведение. - М.: Изд-во РУДН, 2006.
7. Волков А.В. Компьютерная обработка текста на естественном языке. // Сборник научных трудов XI международной научно-практической конференции «Партнерство бизнеса и образования в инновационном развитии региона» / Тверской филиал МЭСИ. - Тверь, 2012. - 350 с.
8. Маннинг Кристофер Д., Рагхаван Прабхакар, Шютце Хайнрих. Введение в информационный поиск: пер с англ. - М.: ООО «И.Д. Вильямс», 2011. - 528 с.
9. Lexico Syntactic Pattern Language [Электронный ресурс]. - Режим доступа: http://www.lspl.ru/index.php.