Автоматический синтаксический анализ русских текстов на основе грамматики составляющих

Кагиров Ильдар Амирович; Леонтьева Анастасия Борисовна

11. Trifa V., Koene A., Moren J., Cheng G. Real-time acoustic source localization in noisy environments for humanrobot multimodal interaction // Proc. of RO-MAN 2007, Korea. 2007.

12. Ронжин А. Л., Карпов А. А., Леонтьева Ан. Б., Костюченко Б. Е. Разработка многомодального информационного киоска. // Тр. СПИИРАН. СПб.: Наука, 2007. Вып. 5, т. 1. С. 227—245.

Сведения об авторах

Андрей Леонидович Ронжин — СПИИРАН, лаборатория речевых и многомодальных интерфейсов;

E-mail: ronzhin@iias.spb.su

Алексей Анатольевич Карпов — СПИИРАН, лаборатория речевых и многомодальных интерфейсов;

E-mail: karpov@iias.spb.su

Поступила в редакцию 06.05.08 г.

УДК 004.8

И. А. Кагиров, Ан. Б. Леонтьева

АВТОМАТИЧЕСКИЙ СИНТАКСИЧЕСКИЙ АНАЛИЗ РУССКИХ ТЕКСТОВ НА ОСНОВЕ ГРАММАТИКИ СОСТАВЛЯЮЩИХ

Представлены концепция и пути реализации программного модуля синтаксического анализа для литературного русского языка. Основным инструментом исследования является так называемая „грамматика непосредственных составляющих", используемая для формального представления синтаксических структур. Сформулировано теоретическое обоснование процесса выделения множества синтаксических структур, существенных для формального представления текстов на русском языке.

Ключевые слова: непосредственные составляющие, синтаксические структуры, автоматический анализ текста.

Введение. Создание автоматического модуля синтаксического анализа (МСА) является одной из актуальных задач в компьютерной лингвистике, решение которой позволит достичь высокого уровня формализации языковых структур в различных прикладных задачах — от создания систем автоматического распознавания речи до поисковых систем в сети Интернет.

Однако создание МСА для русского языка связано с большими трудностями вследствие недостаточно разработанной теоретической базы в общем и прикладном языкознании; кроме того, структуры языка отличаются разнообразием и зачастую высоким уровнем сложности, предусмотреть который чрезвычайно трудно. В связи с этим в настоящей статье предлагается структура МСА, работающего с простыми синтаксическими структурами; создание такого модуля, способного обрабатывать тексты на русском языке любой сложности, представляется на настоящем этапе невозможным.

Теоретическая база: грамматика зависимостей и непосредственные составляющие. Под синтаксисом понимается такой уровень языка, наибольшими и основными единицами которого являются предложения, а наименьшими — грамматические слова (словоформы). Далее предложением называется грамматически связная цепочка слов, выражающая некоторое суждение. Грамматически связная цепочка — такая цепочка, в которой словоформы находятся в определенных грамматических отношениях между собой. В свою очередь, словоформа — это слово в одной из своих грамматических форм (характеризующейся определенными для каждого языка грамматическими признаками; так, для существительного в русском

языке это падеж и число). Таким образом, синтаксическая структура предложения представляет собой цепочку, состоящую из конечного множества словоформ, связанных синтаксическими отношениями.

С математической точки зрения, любое предложение может быть представлено как направленный граф. Главные вершины графа соединены подчинительными связями с зависимыми вершинами: если между вершинами (словоформами) существует отношение зависимости X ^ Y , то следует говорить, что X подчиняет Y, а Y зависит от X, т.е. X называется вершиной, а Y — зависимой. Существуют три типа подчинительной связи между словоформами: управление, согласование и примыкание [1].

Множество синтаксических явлений в пределах предложения трудно описать, опираясь исключительно на взаимоотношения между терминальными элементами — минимальными синтаксическими единицами (словоформами) [1]. Поэтому в синтаксический анализ вовлекаются иерархически организованные единицы более высокого уровня — фразовые категории (ФК, англ. Phrasal Category), представляющие собой группу, в которой имеется одна главная вершина, а также может быть одна или несколько зависимых вершин. Фразовые категории имеют обычно прозрачную, жестко иерархизированную структуру, что позволяет описать синтаксис языка; ФК, выделенная в конкретном предложении и функционирующая как синтаксическая сущность, называется непосредственной составляющей.

Важнейшей единицей синтаксического уровня языка (в формальном синтаксисе) является так называемая клауза („элементарное предложение", „предикация") [2]. Под клаузой в настоящей статье понимается любая синтаксическая группа, распадающаяся на глагольную и именную группы.

Синтаксический анализ предложения. Поскольку число различных конструкций предложений бесконечно, при синтаксическом разборе имеет смысл ориентироваться на более мелкие единицы — фразовые категории, введенные ранее. Таким образом, алгоритм автоматического анализа сводится к вычленению ФК в составе предложения и поиску связей между ними.

Для разработки модуля автоматического синтаксического анализа использовался корпус текстов, состоящий из составленных в соответствии с нормами литературного языка клауз с нераспространенной синтаксической структурой [3]. Этот корпус на настоящем этапе разработки модуля синтаксического анализа отвечает следующему требованию: идентификация отдельных ФК в структуре клаузы и определение связей между ними.

На основе анализа используемого корпуса текстов были выделены пять синтаксических групп, представленных на рис. 1, где приняты следующие обозначения: ИГ — именная группа, в которой вершиной является имя существительное (Сущ) или местоимение (М); ГГ" — глагольная группа, где вершина — финитный [4] глагол (Глаг); ГГ' — глагольная группа, где вершиной является группа ГГ"; ПГ — группа прилагательного, вершина — краткое прилагательное (КрП) или прилагательное (П); ПрГ — предложная группа, вершина — предлог (Пр); ИнфГ — инфинитивная группа, вершина — инфинитив (Инф); ВспГ — вспомогательный глагол „быть", Нар — наречие; кроме того, символ „*" означает, что элементы группы могут стоять также и в обратном порядке; косая линия показывает положение группы относительно вершины: /ИГ=Вершина^ИГ, ИГ/=ИГ^\Вершина; стрелкой обозначено направление зависимости (от вершины к зависимому); в фигурных скобках указана часть речи.

Для определения падежа, в котором стоит зависимое слово при подчинительной связи, используется словарь [5]. Со временем предполагается создать словарь, предназначенный непосредственно для автоматического синтаксического анализа.

ИГ {Сущ}/{М} ГГ' {ГГ"} ПГ {КрП} ПрГ {Пр} ГГ" { Глаг} ИнфГ {Инф}

— ИГ* управление /ИГ управление /ИГ управление — ИГ* управление

/{ИГ} управление ИГ/ управление /ИГ управление {Нар}/ примыкание {ВспГ}^ {КрП}

{П}/ согласование ПрГ* примыкание {Нар}* примыкание

/Союз-{Сущ} ИГ/ управление /ПрГ примыкание {Нар}/ примыкание /{Нар} примыкание

/ИГ управление /ПрГ примыкание

/ИнфГ примыкание

Рис. 1. Типы ФК, используемых в модуле синтаксического анализа

Программная реализация модуля синтаксического анализа. Структурная схема модуля приведена на рис. 2. Входные данные представляют собой список простых предложений, который поступает в блок синтаксического анализа. В блоке обработки предложения обрабатываются пословно. Исходная словоформа передается в блок морфологического анализа [6], в котором для нее подбираются все возможные варианты основ и соответствующие грамматические показатели. В зависимости от части речи и грамматических показателей словоформы выделяется соответствующая синтаксическая группа. Группа может определяться однозначно, либо могут существовать варианты ее определения. Например, если на вход поступило имя существительное, то первая группа в предложении будет именной. В этом случае запоминается порядковый номер группы и обрабатывается следующее слово. Если же первым словом в предложении является наречие, то оно может относиться как к глагольной группе, так и к группе прилагательного. В этом случае для однозначного определения группы требуется проанализировать следующее слово.

Синтаксический анализатор Блок обработки предложений

Блок генерирования гипотез

I Блок отсеивания неправильных гипотез I

I_______________________________1.1

Рис. 2. Структурная схема модуля синтаксического анализа

Начиная со второго слова в предложении важную роль играет не только часть речи, которой выражена данная словоформа, но и информация о группе или группах, выделенных на данный момент. Поступившая на вход словоформа может принадлежать текущей синтаксической группе или выделяться в другую группу. В этом случае формируется дополнительная гипотеза и рассматриваются оба варианта. В конечном счете в предложении выделяются группа подлежащего и группа сказуемого. Важно отметить, что некоторые группы, например глагольная, могут содержать в себе другие группы.

Выходной файл представляет собой список предложений, каждое из которых разбито на синтаксические группы. Если предложение содержит слово, отсутствующее в словаре системы, то оно выводится без разбора.

Морфологический

анализатор (входные данные)

Тестирование модуля МСА осуществлялось с использованием ГОСТ Р 50840-95 [7]. При анализе результатов были выявлены ошибки, представленные в табл. 1.

_Таблица 1

Ошибка Количество ошибок, %

Наличие в анализируемом тексте синтаксических конструк- 26

ций, отличных от исходных синтаксических групп

Наличие в тексте слов, отсутствующих в словаре 6

Общее количество неправильно разобранных предложений 32

Семантическая и морфологическая неоднозначность слов, 22

порождающая несколько вариантов разбора предложения

Семантическая и морфологическая неоднозначность слов приводит к построению большого количества гипотез, и не все из них могут быть отсеяны за счет проверки синтаксических связей в предложении. В этом случае, кроме правильно разобранного предложения, выводится еще и неправильный вариант разбора, который не был отсеян программно. В тестовом корпусе таких предложений оказалось 22 %. В обработанном тексте только для 12 % предложений было построено по одной гипотезе, остальные 88 % предложений порождали несколько гипотез разбора; из них в 66 % случаев удалось автоматически избавиться от неправильных вариантов за счет анализа морфологических показателей словоформ и синтаксических связей между словами.

Анализ причин возникновения ошибки такого типа был проведен по 50 тестовым предложениям. Статистика по количеству слов, порождающих несколько гипотез вследствие лексической и морфологической неоднозначности, представлена в табл. 2. Частеречная неоднозначность возникает в основном среди наречий, частиц и кратких форм прилагательных. Кроме того, существительным присуща семантическая и просодическая неоднозначность, а также омонимия.

Таблица 2

Причина порождения гипотез Количество слов

Слова, относящиеся к нескольким частям речи 48

Слова, имеющие одинаковые словоформы в именительном 24

и винительном или родительном падежах

Слова, содержащие в себе обе причины порождения гипотез 10

Общее количество слов в тестируемом тексте 206

Заключение. Разработка систем автоматического распознавания речи, содержащих большой словарь, а также систем стенографирования требует формирования грамматически правильных предложений в процессе обработки. Построение статистической модели языка и согласование окончаний словоформ в распознанной фразе можно осуществить путем проведения автоматического синтаксического анализа. При анализе результатов тестирования разработанного модуля, построенного на основе концепции выделения фразовых категорий, были выявлены ошибки, для устранения которых необходимо расширить базу синтаксических групп за счет анализа большего количества текстов. Также планируется разработка алгоритма автоматического расширения словаря.

Работа выполнена в рамках проекта Российского фонда фундаментальных исследований (№ 08-08-00128) и проекта ОИТВС РАН (№ 4.2).

список литературы

1. Тестелец Я. Г. Введение в общий синтаксис. М.: Изд-во Рос. гос. гуманит. ун-та, 2001.

2. Фундаментальные направления современной американской лингвистики: сб. обзоров / Под ред. А. А. Кибрика и др. М.: УРСС, 1997.

Учет особенностей спонтанной речи

51

3. ГОСТ 16600 — 72. Передача речи по трактам радиотелефонной связи: Требования к разборчивости речи и методы артикуляционных изменений. М.: Изд-во стандартов, 1973.

4. Лингвистический энциклопедический словарь / Под ред. В. Н. Ярцевой и др. М.: Сов. энциклопедия, 1990.

5. Большой толковый словарь русского языка / Под ред. Д. Н. Ушакова. М.: Альта-принт, 2005.

6. Kagirov I. A., Leontyeva An. B. Grammar-based speech- and word-splitting // Proc. of 3rd Language & Technology Conf., Oct. 5—7, 2007, Poznan, Poland. Poznan: Fundacja Uniwersytetu im. A. Mickiewicza, 2007. P. 413—417.

7. ГОСТ Р50840 — 95. Передача речи по трактам связи. Методы оценки качества, разборчивости и узнаваемости. М.: Изд-во стандартов, 1995.

Ильдар Амирович Кагиров Анастасия Борисовна Леонтьева

Поступила в редакцию 06.05.08 г.

УДК 004.522

Сведения об авторах

СПИИРАН, лаборатория речевых и многомодальных интерфейсов; E-mail: kagirov@iias.spb.su

СПИИРАН, лаборатория речевых и многомодальных интерфейсов; E-mail: an_leo@iias.spb.su

Ал. Б. Леонтьева, И. С. Кипяткова

УЧЕТ ОСОБЕННОСТЕЙ СПОНТАННОЙ РЕЧИ ПРИ СОЗДАНИИ СИСТЕМ АВТОМАТИЧЕСКОГО РАСПОЗНАВАНИЯ

Рассматривается подход к автоматической обработке спонтанной русской речи, заключающийся в распознавании нефонемных элементов и моделировании альтернативных вариантов произношения слов. Представлен ряд акустических и лексических моделей, предназначенных для отделения помех от ключевых слов и учитывающих возможные элементы спонтанной речи. Приведен алгоритм создания альтернативных транскрипций с помощью расширенных правил транскрибирования. Представлены результаты экспериментов.

Ключевые слова: распознавание речи, альтернативная транскрипция, нефонемные элементы.

Введение. Большинство современных систем автоматического распознавания речи способны обрабатывать только прочитанные фразы или изолированно произнесенные слова. Распознавание спонтанной речи затрудняется наличием эмоций, различного рода шумов, невербальных и вокализованных пауз, артефактов [1]. Присутствие таких элементов является полезной информацией в задачах идентификации или верификации пользователей, но в задаче распознавания речи это ведет к снижению точности. Кроме того, при спонтанном речевом взаимодействии человеку свойственно использовать большее количество слов, чем необходимо для четкого выполнения конкретной задачи. Междометия и вводные слова, выполняющие определенную дискурсивную роль при общении людей, для диалоговой системы, настроенной на решение узкой задачи, не будут нести информативной нагрузки.

В спонтанной речи произношение слов сильно варьируется различными людьми, а также зависит от контекста. В результате этого транскрипции произнесенных слов часто не совпадают с транскрипциями, созданными по правилам фонетики русского языка. Перечисленные явления не препятствуют общению между людьми, но могут стать критичными для автоматической системы распознавания речи.

Анализ составляющих спонтанной речи. Запись спонтанной речи содержит звуки фонемной и нефонемной природы, причем как звуки, производимые пользователем, непосредственно

Автоматический синтаксический анализ русских текстов на основе грамматики составляющих Текст научной статьи по специальности «Языкознание и литературоведение»

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Кагиров Ильдар Амирович, Леонтьева Анастасия Борисовна

Похожие темы научных работ по языкознанию и литературоведению , автор научной работы — Кагиров Ильдар Амирович, Леонтьева Анастасия Борисовна

Automatic Syntactic Analysis of Russian Texts Based on the Phrase-Structure Grammar

Текст научной работы на тему «Автоматический синтаксический анализ русских текстов на основе грамматики составляющих»