Научная статья на тему 'Автоматический анализ русских сложных слов'

Автоматический анализ русских сложных слов Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
390
75
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
АВТОМАТИЧЕСКАЯ ОБРАБОТКА ТЕКСТА / МОРФОЛОГИЧЕСКИЙ РАЗБОР / СЛОЖНЫЕ СЛОВА / СИСТЕМЫ АНАЛИЗА ТЕКСТА / ОСНОВАННЫЕ НА ПРАВИЛАХ / TEXT PROCESSING / MORPHOLOGICAL PARSING / COMPOUNDS / RULE-BASED ALGORITHMS

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Гращенков Павел Валерьевич

В проектах, связанных с автоматической обработкой текста, мы регулярно сталкиваемся с проблемой анализа неизвестных слов, до 75% которых приходится на сложные слова. Правила образования сложных слов в русском языке прозрачны и более чем продуктивны. В статье описываются основные морф(он)ологические правила образования сложных слов в русском языке и описан алгоритм обработки сложных слов на основе установленных правил. Мы также предлагаем прототип такого алгоритма, реализованный автором на языке Питон и имеющий на данный момент значения полноты и точности 0,52 и 0,87 соответственно. Статья завершается описанием дальнейшей работы по компьютерной реализации предложенного алгоритма анализа сложных слов.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по языкознанию и литературоведению , автор научной работы — Гращенков Павел Валерьевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Automatic Analysis of Russian Compounds

Text processing projects regularly face a problem of unknown word analysis. Up to 75% of unknown words in Russian are compounds. In Russian, the rules of compound derivation are clear and very productive. The paper first proposes the list of base morpho(no)logical rules underlying compound formation in Russian. Then we develop the rule-based algorithm that capture all the main types of Russian adjectival compounds. We also developed a Python-based prototype of such algorithm having approximately 0.52 recall and 0.87 precision for the moment. We end up with the roadmap of the full implementation of rule-based analysis of compounds for Russian.

Текст научной работы на тему «Автоматический анализ русских сложных слов»

П.В.Гращенков

Автоматический анализ русских сложных слов1

В проектах, связанных с автоматической обработкой текста, мы регулярно сталкиваемся с проблемой анализа неизвестных слов, до 75% которых приходится на сложные слова. Правила образования сложных слов в русском языке прозрачны и более чем продуктивны. В статье описываются основные морф(он)ологические правила образования сложных слов в русском языке и описан алгоритм обработки сложных слов на основе установленных правил. Мы также предлагаем прототип такого алгоритма, реализованный автором на языке Питон и имеющий на данный момент значения полноты и точности 0,52 и 0,87 соответственно. Статья завершается описанием дальнейшей работы по компьютерной реализации предложенного алгоритма анализа сложных слов.

Ключевые слова: автоматическая обработка текста, морфологический разбор, сложные слова; системы анализа текста, основанные на правилах.

Text processing projects regularly face a problem of unknown word analysis. Up to 75% of unknown words in Russian are compounds. In Russian, the rules of compound derivation are clear and very productive. The paper first proposes the list of base morpho(no)logical rules underlying compound formation in Russian. Then we develop the rule-based algorithm that capture all the main types of Russian adjectival compounds. We also developed a Python-based prototype of such algorithm having approximately 0.52 recall and 0.87 precision for the moment. We end up with the roadmap of the full implementation of rule-based analysis of compounds for Russian.

Key words: text processing, morphological parsing, compounds, rule-based algorithms.

1. Актуальность задачи2

Все системы автоматического анализа текста сталкиваются с проблемой неизвестных слов (т. е. слов, которых нет в морфологических словарях и которые вследствие этого препятствуют корректному автоматическому анализу) [Segalovich, 2003]. Каждому поступившему на вход токену3 (словоформе, числовой последовательности, знаку препинания и т. д.)

1 Исследование выполнено в рамках проекта РНФ № 16-18-02003.

2 Ряд идей на начальных этапах разработки был обсужден с А. А. Оленевым (МГТУ им. Баумана).

3 Токен - «слово» в автоматическом анализе текста, наряду со словами естественного языка может соответствовать также цифрам, спец. символам и т.д.

должна быть приписана релевантная морфологическая информация. Это объясняется не только потребностью в анализе данного конкретного токе-на, но и тем, что один токен, лишенный (корректно приписанных) тегов4, может быть причиной неправильного разбора всего предложения в целом.

По некоторым оценкам сложные слова составляют около 75% всех неизвестных слов5. Они появляются в современном русском языке более чем регулярно:

(I)6

А вот по мне среднескоростной и ритмичный, что аж я под него танцую и при этом не устаю, так это вот этот альбомчик: Merlin -Brutal Constructor.

В порывах нервных всплесков, и в связи с кучей недавних событий, я решил написать негодующе-гневный текст.

Мне повыписывали витаминов, железо и йодосодержащий препарат.

Подобная продуктивность приводит к проблемам при автоматическом анализе сложных слов. Для того чтобы адекватно анализировать сложные неологизмы, можно применять несколько подходов. Один из них -словарный: при нем однажды встреченные неизвестные слова, опознанные как сложные, вносятся в словарь наряду с уже имеющимися там элементами. Подобный подход применяется в ряде систем; его минусом, однако, является «запоздалое реагирование»: новое слово не может быть правильно проанализировано сходу.

Существует и другой метод, при котором система заранее «обучается» распознаванию неологизмов на имеющемся корпусе, содержащем сложные слова. Обучение проводится при помощи стандартных статистических моделей, на вход которым подаются релевантные (с точки зрения разработчиков) признаки: длина слова, его буквенный состав, окружение и т. д.

Чрезвычайная продуктивность процесса образования сложных слов приводит к чрезмерному увеличению размера словаря при использовании словарного метода анализа морфологии либо к непропорциональному росту корпуса при статистическом корпусном подходе.

4 Теги - служебная информация, маркирующая словоформы при автоматическом анализе, передает сведения о части речи, грамматических признаках словоформы и т.д.

5 Данные предоставлены разработчиками компании InfoQubes.

6 Примеры собраны при помощи поисковых систем Яндекс и Google.

2. Языковой материал

Сделаем несколько оговорок о терминологии и языковом материале, для автоматического анализа которого создана описываемая нами систе-

Под сложными словами мы будем понимать далее такие дериваты, в состав которых входит более одного корня - независимо от (наличия и способов) дальнейшего маркирования словообразовательными единицами, ср.: «Словоформы со сложной основой обладают разнообразным морфным строением; количество их типов потенциально не ограничено... Я-ьЯГ" (ярк-о-син-ий...); Я-б-ьЯГ- (свет-л-о-зелен-ый); Я-б-ьЯ-бГ (желез-н-о-дорож-н-ый); Я-ьЯ-бГ- (быстр-о-ход-н-ый...); . ..рг-Я-ьЯ-Б-Б-f (о-плод-о-твор-я-вш-ий...); ...(сам-о-опыл-я-вш-ий-ся); Я-ьЯ-ьрг-рг-Я-б-б-б-Г (пыл-е-влаго-не-про-ниц-аЦ\-ем-ость-...» [АГ-80: §189]. «Словоформы со сложной основой» (сложные слова в нашей терминологии) будут интересовать нас именно потому, что они являются регулярным источником новых (неизвестных морфологическому парсеру) слов.

Аналогично со сложными словами в том понимании, которое представлено выше, мы будем анализировать и дериваты, традиционно относимые к приставочным: настенный, привокзальный и т. д. Основные причины, по которым приставочные дериваты, имеющие коррелят в виде предложной группы (на стене, при вокзале), будут объединены со сложными словами, следующие. Во-первых, некоторые из интересующих нас слов имеют в качестве первого морфа единицы, чей статус отличается от на-, по-, под- и т. д. Так, единицы типа против (противоатомный, противоболевой) и около (околоземный, окологлоточный) могут, например, нести на себе дополнительное ударение, что невозможно даже для двусложных приставок типа пере-. Явно приставочные морфы типа пере- или рас- мы, напротив, не будем относить к сложным словам - они не могут быть представлены в виде предложной группы. Второй причиной нашего решения является прозрачность семантики - в интересующих нас сложных словах значение деривата всегда восходит к значению его частей (настенный - тот, который на стене, привокзальный - тот, что при вокзале).

Для начального этапа разработки были выбраны сложные прилагательные. Во-первых, для единиц с адъективными флексиями качество морфологического анализа будет наиболее высоким - адъективные флексии менее других омонимичны с флексиями иных лексических категорий в русском языке. Таким образом, на данном этапе легче всего будет

сосредоточиться непосредственно на качестве разбора сложного слова, не ставя решение проблемы парсинга сложных слов в зависимость от качества обработки флективной морфологии. Во-вторых, прилагательные демонстрируют наибольшее количество моделей образования сложных слов.

Все сказанное делает прилагательные наиболее приоритетным кандидатом для первого подхода к парсингу сложных слов по следующим причинам: а) больший охват потенциально проблемного материала; б) после доведения системы анализа прилагательных до должного уровня качества расширить алгоритм на сложные слова других категорий представляется задачей чисто технической. Образование сложных существительных ограничено по сравнению с прилагательными, глаголы - еще менее продуктивны, см. [Тагабилева, 2012], [Пазельская, 2013].

В данной работе мы предлагаем систему анализа сложных слов, основанную на правилах. Мы обсудим общие правила образования сложных слов в русском языке (на примере прилагательных), а затем опишем осуществленный нами вариант их компьютерной реализации и его преимущества по сравнению с применяемыми на сегодня алгоритмами.

3. Правила организации сложных слов в русском языке

3.1. Морфемные границы

Граница между первой и второй основой сложных слов орфографически может соответствовать интерфиксу либо, в случае его отсутствия, проходить просто по основам (полным или усеченным). Обратимся к [АГ-80: §775], где перечисляются возможные в сложных прилагательных интерфиксы, учтем также написание вариантов слитно или через дефис:

(2)

a. о / е: долгоиграющий, древнеримский;

b. о /е с дефисом: бело-розовый, советско-монгольский, сине-зеленый;

c. и (-ск, цк): греческиримский, иронически-оптимистический;

d. у(х(ъ)), ех и, а: двуплановый, двухтомный, двухъярусный, трехэтажный, десятиметровый, сорокаметровый;

e. нулевой интерфикс: хлоруксусный, кремнийорганический, настенный;

£ нулевой интерфикс с дефисом: электронэлектронный, рязань-воронежский.

Детальное различение границ сложного слова в нормированных (прошедших редактирование) русских текстах позволяет составить гипотезы о внутренней организации сложного слова уже на этапе разбиения на основы. Так, дефис соответствует сочинительной связи (советско-монгольский проект, рязань-воронежский информационный портал); интерфикс -и, употребленный после -ск / -цк, также говорит о сочинении (самый иронически-оптимистический фильм); специальным образом маркируется первая основа - числительное. Наиболее проблемными с точки зрения разбиения на основы представляются случаи бездефисных слов с о / е, так как они омонимичны между подчинительной (долгоиграющая пластинка) и сочиненительной связью (грекоримская борьба), а также случаи типа настенный или хлоруксусный. Предложные сочетания тем не менее реализованы в нашем алгоритме, в то время как разбор сложных слов типа хлоруксусный пока не включен в алгоритм в силу его ресурсоемкости и невысокой продуктивности данного шаблона в языке.

3.2. Отношения между основами сложных слов

В отечественной лингвистике, где словообразование на определенном этапе было выделено в отдельное направление, анализу сложных слов посвящено достаточное количество исследований, см. прежде всего работы Е.А. Земской [Земская, 1992], [Земская, 2011], а также статью [Федорова, 2015], типологически ориентированное исследование И.А. Муравьевой [Муравьева, 2004] и т. д. Ниже мы будем ориентироваться на материал [АГ-80], иногда дополняя его примерами из Интернета.

Как показывают примеры в Таблице (3), в основе сложных прилагательных лежат регулярные словообразовательные модели, соответствующие основным типам синтаксических проекций: именной группе, группе глагола, группе прилагательного, сочиненным составляющим и предложной группе. Следующая таблица суммирует допустимые и недопустимые типы составляющих, на основе которых строятся сложные прилагательные:

Таблица (1). Синтаксические источники сложных прилагательных

Тип проекции Пример

именная группа (ИГ)

а. с прилагательным ок высокогорный, равнобедренный

Ь. с количественным числительным ок двухъярусный, трехэтажный

с. с порядковым числительным ок первоклассный, второсортный,

Тип проекции Пример

d. с квантором ? всепогодный, каждодневный

e. с генитивным зависимым * *отцедомный, *ведроводный

£ с лексическим зависимым * *детеподарочный, *музыкострастный

глагольная группа (ГГ)

с прямым объектом ok бумагоделательный, звуковоспроизводящий

к с инструментом / средством ok электроосветительный, газоснабжающий

К с лексическим зависимым * *врагогрозящий, *нищеподающий

j. с обстоятельством образа действия ok долготерпеливый, здравомыслящий

к с локативным участником ok мореходный, водоплавающий

группа прилагательного (ГП)

с наречием-интенсификатором * *оченьинтересный, *совсемпустой

m. с лексическим зависимым * *витаминобогатый, *отцепохожий

п. с предложным зависимым * солнцестойкий, влагозависимый

сочиненная группа

o. прилагательные, причастия ok сдавленно-сдержанный, сиренево-желтый

предложная группа (ПГ)

P. предлог и имя ok околонаучный, послеполуденный

Прокомментируем некоторые из не / возможных моделей. В случае именных групп наиболее продуктивны модели с прилагательными и числительными и не встречаются модели с зависимыми именами в генитиве или косвенном (лексическом падеже). В случае глагола частотны образования с прямым объектом, обстоятельством образа действия и локативными участниками. Подлежащные зависимые основы в сложных прилагательных запрещены, так как субъектом признака / состояния / действия, передаваемого прилагательным, всегда является существительное, которое им определяется. Также запрещены и лексические зависимые глагола. Запрет на лексические зависимые вообще представляется достаточно универсальным, ср. : (1), (т). В случае прилагательных единственная продуктивная модель - инкорпорация предложных зависимых (с опущением предлога); важно отметить, что список прилагатель-

ных в отличие от глаголов здесь достаточно ограничен. Наконец, сочиняться могут любые прилагательные и причастия (удовлетворяющие релевантным для говорящего в данной ситуации прагматическим ограничениям). Конструкция «предлог + имя» также представляется высокопродуктивной.

Если учитывать все перечисленные выше ограничения, круг возможных потенциальных слов существенно сужается. Таким образом, эксплицитно сформулированные запреты в случае автоматического анализа помогают значительно снизить количество перебираемых вариантов и, следовательно, заметно снизить время работы системы и повысить ее качество.

4. Система анализа сложных слов ReLex7

4.1. Альтернативные системы

Развитые системы автоматической обработки текста, используемые, например, в поисковых машинах Яндекс или Google или программе Microsoft Word, предполагают обязательную возможность разбора сложных слов. Так, в (3) ниже не предполагается поиска точной формы, встретившейся в запросе, т. е. Яндекс анализирует внутреннюю форму слова и в выдачу попадают примеры со словами скорый и слепить. В то же время в (4), при ограничении поиска точной формой (запрос с восклицательным знаком), в результаты попадают лишь примеры со словом скоросле-пленный. Результат работы морфологического анализатора можно наблюдать по различию в выдаче:

Запрос: скорослепленный Результат:

Развитие Деревья художественных (лепка) Тема: «Божьих коровок скорее слепите! Умений наши от тли спасите!»

Запрос: !скорослепленный Результат:

До конца досмотреть я так и не смогла. «Скорослепленный» фильм, не стоит терять на него время.

7 Recursive Lexicon, Real Lexicon, etc.

(3)

(Яндекс)

(4)

(Яндекс)

Сразу отметим, что Яндекс делает характерную для поисковых систем ошибку: по основе скор он восстанавливает прилагательное скорый, система допускает «перепроизводство» (overgeneration) вариантов. В случае применения правильного алгоритма анализа сложных слов таких ошибок можно избежать.

Платформа ABBYY Compreno8 также обладает развитой системой анализа сложных слов, позволяющей, в частности, устанавливать семантические роли и отношения внутри композитов и т. д.

Поскольку все известные нам на данный момент системы анализа русских сложных слов разработаны в рамках коммерческих проектов, провести относительную оценку качества работы достаточно затруднительно.

Одна из задокументированных доступных разработок представлена в [Loginova-Clouet & Daille, 2013]. Представленный алгоритм, предназначенный, по мнению авторов, для анализа сложных слов на разных языках, достигает достаточно высокой точности (до 0,93, от подсчета полноты авторы отказываются), однако использует при этом как словарь, так и корпус. Другим фактором, обычно замедляющим работу системы, является перебор всех возможных кандидатов в основы и «взвешивание» их с учетом расстояния Левенштейна относительно известных похожих слов. Утверждается также, что ряд принципов анализа сложных слов универсален; в частности, предлагается анализировать немецкие и русские композиты при помощи одних и тех же правил. Очевидно, что это верно не всегда. Направление ветвления внутри композитов (релевантное для установления семантических отношений, не производимого в цитируемой работе) в немецких и русских композитах действительно совпадает, а вот степень допустимой рекурсии - нет. Немецкие композиты с зависимой структурой ветвятся рекурсивно (kiloelectronvolt), в то время как русские сложные слова, в которых выделяются главная и зависимая основы, не обладают такой возможностью (* многотысячевольт-ный).

Как и в случае других проблем автоматического анализа текста, большое количество подходов к проблеме сложных слов основываются на статистических и корпусных методах. Например, в [Koehn & Knight, 2003] предлагается посчитывать относительную частотность потенциальных частей сложных слов и на основании такого ранжирования определять границы внутри композитов. Для анализа немецких композитов

8 http://www.abbyy.ru/isearch/compreno/

предлагается также использовать параллельные тексты на английском языке, где переводные эквиваленты немецких основ могут быть представлены полноценными английскими словами, - это должно увеличить точность распознавания.

Привлечение данных о частотности потенциальных составных частей композитов имеет свои преимущества. Как показано в [Popovic, Stein & Ney, 2006], информация о частотности отдельных частей слова помогает правильно определить границы частей сложных слов в немецком языке, где композиты могут состоять из трех и более частей. «Грубое» разбиение на максимально мелкие части немецких сложных слов часто оказывается ошибочным. Очевидно, однако, что для русского языка такая проблема не актуальна.

У чисто статистических подходов есть ряд недостатков. Во-первых, все они работают «вслепую» - например, определяют морфемные границы, не имея представления о морф(он)ологической структуре сложного слова. Во-вторых, с помощью статистических алгоритмов затруднительно производить анализ семантических отношений внутри композитов. Лишь информация о синтаксическом и семантическом устройстве композитов может помочь определить тип семантических отношений между их частями, в противном случае можно надеяться лишь правильно «нащупать» морфемную границу. Наконец, приемлемые значения полноты (recall) анализа предполагают непропорциональное увеличение обучающего корпуса.

4.2. Принципы работы системы анализа сложных слов

Полноценная система анализа композитов должна уметь извлекать следующую информацию: i) определять морфологические признаки словоформы (т. е. производить POS9-tagging); ii) разбивать сложное слово по частям; iii) определять семантические отношения между отдельными частями. Лишь некоторые системы анализа сложных слов (например, ABBYY Compreno) наделены этим функционалом, большинство систем ограничивается задачами 2) и 3). Представленная нами система ReLex также способна производить анализ семантических отношений.

Для автоматического определения внутренней структуры сложных словах мы используем представленный выше в таблице (1) перечень син-

9 Part-Of-Speech tagging, часто подразумевает также приписывание всей релевантной морфологической информации, т. е. определение значения падежа, числа и других словоизменительных признаков.

таксических отношений внутри композитов. После обнаружения составных частей сложного слова, на основании их частеречной принадлежности и таблицы (1) устанавливается тип семантических отношений между основами (определительные, обстоятельственные, аргументные и т. д.).

Полный анализ происходит по следующей схеме: (5)

1) определение того, является ли словоформа прилагательным10;

2) поиск лексемы в словарях прилагательных;

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

3) поиск границ отдельных частей сложной лексемы;

4) анализ внутренней структуры сложной лексемы.

Шаги 1) и 2) достаточно тривиальны, остановимся вкратце на 3) и 4).

Анализ морф(он)ологической структуры необходим для выделения кандидатов в сложные слова. В случае числительного и существительного (двухъярусный) или сочиненной структуры (бело-розовый) граница между первой и второй основами определяется без труда.

При анализе всех других сложных сложных слов на первом этапе выделяются пары-кандидаты на поиск первой и второй основы (среднеско-ростной — средн; скорост), а затем каждая из пар проверяется в словаре. Предварительное разбиение на основы помогает ускорить обход словаря.

Словарь при простановке морфемной границы оказывается целесообразным использовать лишь для композитов с участием предлогов (настенный), когда количество и буквенная длина первых основ незначительны.

При разбиении по соединительному гласному о / е в ряде случаев возникает проблема омонимии - у некоторых прилагательных (среднеско-ростной) необходимо выделять множество пар-кандидатов в первую и вторую основу (среднескоростной — средн-скорост, среднеск-рост). На этом же этапе применяется анализ слоговой структуры потенциальных кандидатов, что позволяет исключить из разбора фонологически невозможные единицы (*ср-скорост, *среднескор-ст).

Еще одной проблемой является омонимия при анализе предлогов (по-слепростудный — *по-слепростудный, после-простудный), невозмож-

10 При распространении алгоритма на существительные необходимо будет расширить набор именных парадигм. Из-за большей омонимичности именной морфологии по сравнению с адъективной возможно потребуется усложнение логики анализа, в частности, введение «забегания вперед» (look ahead), призванного строить гипотезы о POS-тегах на основании информации о второй части сложного слова.

ные кандидаты здесь отбрасываются после поиска в словаре второй основы.

Таким образом, «нащупывание» границы слов по соединительному гласному улучшает качество и снижает время обработки. Альтернативный нашему алгоритм, используемый, например, в [Koehn & Knight, 2003], состоит в том, чтобы искать в составе сложного слова все словоформы, входящие в тестовый корпус и / или словарь. Очевидно, что время (и, возможно, качество) процессинга в этом случае снижается из-за появления лишних основ-кандидатов, ср.: ягодосборный ■ я, год, с, бор и т. п.

Еще один пример ошибок при игнорировании правил морфемной границы - система проверки орфографии программы Microsoft Word, которая для словоформы скорослепленный наряду со скоро-слепленный предлагает вариант скор-ослепленный.

Следующий за морф(он)ологическим разбором анализ отношений между основами реализует описанные выше модели устройства сложных прилагательных, см. Таблицу (1). В данной части системы также реализован учет ограничений на структуру русских сложных слов. Например, система сразу пытается определить, сочинительной или подчинительной связью соединяются части сложного слова. Если связь подчинительная, ищется лишь одна первая основа, при сочинении может быть более двух частей (сине-бело-голубой и т. п.)

Учет информации о морфонологической и морфосинтаксической организации сложных слов, таким образом, помогает улучшить качество и отсечь ненужные варианты.

4.3. Инструменты, примеры работы и оценка текущего

уровня качества

Прототип системы реализован в программной среде Python версии 3.5.0 и использует встроенные библиотеки, а также модуль nltk [Bird, Loper & Klein, 2009]. В качестве лексикона используется компьютерная версия словаря [Зализняк, 1977], дополненного лексической и грамматической информацией.

Ниже мы приводим некоторые примеры разбора отсутствующих в словаре сложных прилагательных:

(6)

коротководный ==> ИГ, прилагательное «короткий» и существительного «вода»;

трехъядерный ==> ИГ, числительное «три» + существительное «ядро»;

сдавленно-угрожающий ==> сочинение определений «сдавленный» и «угрожающий»;

послепростудный ==> ПГ, предлог «после» и существительное «простуда»;

странноиграющий ==> ГГ, наречие «странно» и глагол «играть».

На данном этапе работы над системой качество простановки POS-те-гов, т. е. определение того, что a) перед нами неизвестное слово и b) данное слово является прилагательным в определенном падеже, числе и роде, близко к оптимальному. Иными словами, практически все неизвестные прилагательные определяются как таковые. Этого не так сложно добиться, используя стемминг11 адъективных флексий.

Для тестирования качества разбиения сложных прилагательных на основы был использован массив сложных слов, составленный из запросов пользователей в одной из коммерческих систем извлечения информации, дополненный искусственными примерами. Полнота (recall) системы на выборке, включающей около 500 таких сложных прилагательных, составила 0,4. На другой выборке, состоящей из 50 прилагательных, полнота оказалась равна 0,52.

Для оценки качества установления семантических отношений между частями сложных слов было использовано несколько десятков сложных прилагательных, составленных специально для этой задачи (предыдущая выборка страдала отсутствием разнообразия семантических отношений). Точность (precision) извлечения отношений составила 0,8712. Полнота (recall) извлечения семантических отношений - 0,52.

5. Предварительные результаты и дальнейшее развитие системы Реализованный нами алгоритм, как мы полагаем, позволяет говорить об эффективности систем (морфологического и синтаксического) анализа, использующих лингвистические правила. Использование лингвисти-

11 Стемминг - алгоритм морфологического анализа, сводящийся к отсечению флексий. Стемминг часто используется в случае, когда словоформу невозможно найти в словаре.

12 Правильными считались случаи, при которых для одного сложного слова среди нескольких предложенных системой вариантов основ и отношений находились верные. Отрицательным результатом (false positive) для точности, соответственно, считалось отсутствие верно распознанных семантических отношений.

ческих правил позволяет создать платформу, обладающую «универсальной сферой действия»: она демонстрирует приемлемые значения полноты (recall) на произвольном тексте без специального предварительного обучения. Более того, такая система избавляет от необходимости ресурсоемкого поиска по словарям и / или составления чрезмерно больших корпусов. Еще одним важным преимуществом разработанного алгоритма является возможность извлечения семантических отношений.

Последующая работа предполагает доведение системы до уровня промышленного использования, прежде всего дальнейшее улучшение качества и производительности. Также планируется добавление вывода эксплицитной семантической информации (что отчасти уже реализовано), а также другие работы по улучшению качества, предполагающие, в частности, учет информации об ударении и т. п.

Представляется возможным расширение функционала системы на случай «развернутого» сочинения в сложных словах (двух- и четырехколесный), хештегов (#футбольныйматч, #детирешают), а также сложных слов, состоящих из двух или более заимствованных основ (таск-ме-неджер, десижнмейкер).

Список литературы

АГ-80: Шведова Н.Ю. (отв. ред.). Грамматика современного русского литературного языка. Т. I—II, М., 1980. Зализняк А. А. Грамматический словарь русского языка. Словоизменение. М., 1977.

Земская Е.А. Словообразование как деятельность. М., 1992. 221 с. ЗемскаяЕ.А. Современный русский язык. Словообразование. М., 2011. 323 с. Муравьева И.А. Типология инкорпорации: Дисс. ... докт. филол. наук.

РГГУ М., 2004. 286 с. Пазельская А.Г. Инкорпорация в глагольных формах в русском языке // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Междунар. конф. «Диалог» (Бекасово, 29 мая — 2 июня 2013 г.) / Ред.: В.П. Селегей и др. Вып. 12 (19). Т. 1. М., 2013. Тагабилева М.Г. О некоторых моделях образования сложных слов со значением nomina agentis в русском языке // Материалы Девятой Конференции по типологии и грамматике для молодых исследователей. СПб., 2012. С. 209—214. Федорова Л.Л. Сложные прилагательные неотчуждаемой принадлежности в русском языке // Вестник РГГУ Сер. «История. Филология.

Культурология. Востоковедение». 2015. № 8; Московский лингвистический журнал. 2015. Т. 17. Вып. 2. С. 61-74. Bird S., Loper E., Klein E. Natural Language Processing with Python. Sebastopol, etc. 2009. 504 p. Koehn P., KnightK. Empirical Methods for Compound Splitting: Proceedings

of EAC-2003. Budapest, 2003. P. 187-914. Loginova-Clouet E., Daille B. Multilingual Compound Splitting Combining Language. Dependent and Independent Features // Компьютерная лингвистика и интеллектуальные технологии... Вып. 12 (19). М., 2013. С. 455 -463.

Popovic M., Stein D., Ney H. Statistical Machine Translation of German Compound Words // Proceedings of the 5th International Conference on Advances in Natural Language Processing. FinTAL'06. Berlin; Heidelberg,

2006. P. 616-624.

Segalovich I. A Fast Morphological Algorithm with Unknown Word Guessing Induced by a Dictionary for a Web Search Engine // Proceedings of the International Conference on Machine Learning; Models, Technologies and Applications. MLMTA'03. Las Vegas, 2003. P. 273-280.

Сведения об авторе: Гращенков Павел Валерьевич, канд. филол. наук, старший преподаватель отделения теоретической и прикладной лингвистики филологического факультета МГУ имени М.В.Ломоносова, научный сотрудник Института востоковедения РАН, старший научный сотрудник Московского педагогического государственного университета. E-mail: [email protected].

i Надоели баннеры? Вы всегда можете отключить рекламу.