Научная статья на тему 'От коллокаций к конструкциям'

От коллокаций к конструкциям Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
668
124
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КОЛЛОКАЦИИ / COLLOCATIONS / КОНСТРУКЦИИ / CONSTRUCTIONS / ВЫЧИСЛИТЕЛЬНЫЙ ЭКСПЕРИМЕНТ / COMPUTATIONAL EXPERIMENT / ЭКСПЕРИМЕНТ С ИНФОРМАНТАМИ / EXPERIMENT WITH INFORMANTS / КОНТЕКСТ / CONTEXT / ТЕКСТ / TEXT / КОЛЛЕКЦИИ ТЕКСТОВ / TEXT COLLECTIONS / ФУНКЦИОНАЛЬНЫЙ СТИЛЬ ТЕКСТА / TEXT GENRE

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Пивоварова Лидия Михайловна, Ягунова Елена Викторовна

В статье обсуждаются направления исследования неоднослов-ных единиц, выделяемых статистическим образом; статистические характеристики, описывающие тип и степень неслучайности (устойчивости); выявление зависимости статистических характеристик и списков выделяемых единиц коллокации и конструкций от типа контекста. Основное внимание уделяется вопросу классификации и интерпретации выделяемых единиц по отношению к шкале«от коллокации к конструкции». Эти задачи диктуют необходимость сплошного анализа материала, полученного в ходе разнообразных вычислительных экспериментов (на примере новостных vs. научных текстов). Мы предлагаем схему классификации, задающей основные параметры движения по шкале «от коллокаций к конструкциям» снечеткими границами. Принципы и положения классификации верифицируются с помощью эксперимента с информантами.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

From collocations to constructions

The paper is devoted to statistical studies of multiword expressions (MWE): collocations and constructions. We observe (1) the statistical features which determine the degree of MWE non-randomness (stability);(2) the influence of context on the statistical and linguistic features of extracted MWE. The main emphasis of the paper is on the classification and interpretation of MWE in a range between collocation and construction. We describe series of computational experiments on the basis of news vs. scientific texts; the results of these experiments are lists of all corpus n-grams ordered according to various statistical measures. Then we discuss and interpret these lists, and propose a fuzzy classification schema, which sets the main parameters of distribution in the range between collocation and construction. The classification principles are verified by experiments with informants.

Текст научной работы на тему «От коллокаций к конструкциям»

СПбГУ, Санкт-Петербург, Хельсинкский университет, Хельсинки

ОТ КОЛЛОКАЦИЙ К КОНСТРУКЦИЯМ

1. Введение

1.1. Постановка задачи

Настоящая статья представляет возможные направления исследования неоднословных единиц, выделяемых в тексте статистическим образом. Мы используем различные статистические характеристики, описывающие тип и степень устойчивости сочетания лексических единиц. При этом основное внимание уделяется вопросу классификации и интерпретации выделяемых единиц на шкале «от коллокации к конструкции». Этот вопрос является основополагающим и в то же время актуальным и неоднозначно решаемым.

Разработанная нами методика позволяет выявить зависимость статистических характеристик и списков выделяемых единиц — коллокаций и конструкций — от контекста, причем от контекста различных типов. В данном случае речь идет о контекстах трех видов: 1) о коллекциях текстов разных функциональных стилей и разной степени однородности; 2) о выборках из этих коллекций; 3) об отдельных текстах в рамках рассматриваемых коллекций.

В ходе наших исследований мы выбрали в качестве базовых две статистические меры: MI (mutual information) и t-score. Мы остановились на этих мерах, т. к. их специфика выделяет «коллокации» (в прикладных работах под коллокациями могут пониматься и конструкции) двух полярных типов [Manning, Schutze 2002; Stubbs 1995]. Эти полярные типы в известной степени соотносимы с полюсами на предлагаемой шкале.

В наших предыдущих работах выдвигались и верифицировались следующие две гипотезы.

1. Коллокации, выделяемые с помощью меры MI, чаще всего являются сложными номинациями (терминами, наименованиями объектов, ключевых для определения предметной области).

2. Критерий —соге направлен, прежде всего, на выделение «устойчивых конструкций», клише и «общеязыковых устойчивых сочетаний» (производных служебных слов, дискурсивных слов) [Ягунова, Пивоварова 2010а].

Однако для решения поставленных вопросов существенную роль играет тип анализируемого контекста. Особенно ярко описанное противопоставление тех единиц, которые можно выделить на основе меры MI и меры ^тоге, проявляется для коллекций текстов одного функционального стиля, но неоднородных в области тематики [Ягунова, Пивоварова 2010а, 2010б]. При работе с коллекциями мы решали задачу выделения наиболее значимых, характерных для каждой из рассматриваемых коллекций коллокаций и конструкций (т. е. основное внимание уделялось точности, а не полноте).

Для монотематической коллекции текстов одного функционального стиля наблюдается зона пересечения, то есть фиксируются сочетания, которые выделяются на основании обеих мер. Влияние монотематичности коллекции как особого типа контекста исследуется нами на примере материалов конференции «Корпусная лингвистика» [Пивоварова, Ягунова 2010; Ягунова, Пивоварова 2010б].

Таким образом, мы предлагаем в этой статье «схему движения» с указанием потенциальных нечетких границ между разными классами неоднословных единиц с опорой на различные типы контекста.

1.2. Терминология и теоретические предпосылки

Понимание терминов «коллокация» и «конструкция» оказывается различным в зависимости от выбора той или иной парадигмы исследования. Во многих случаях одни и те же единицы могут быть названы и «коллокацией», и «конструкцией». Отдельно стоит прагматический признак: в прикладных исследованиях автоматической обработки текста, как правило, можно встретить термин «коллокация». В настоящее время появляются

первые попытки использовать «конструкции» в прикладных исследованиях, см. [Muischnek, Sahkai 2009; Lagus et al. 2009]1.

В современной лингвистике, ориентированной, с одной стороны, на функциональность и антропоцентричность описания, а с другой стороны — на возможности корпусных исследований, уже практически очевидна необходимость использования основных положений грамматики конструкций и близких к ней научных направлений. Подход "CxG" (грамматики конструкций), который начал разрабатываться с 1970-х годов, широко представлен в разных направлениях современной лингвистики: [Fillmore, Kay 1993; Fillmore 1999; Fried, Ostman 2004; Goldberg 1995; Goldberg 2006; Masini 2005] и многие другие; подробную библиографию см. в http://constructiongrammar.org/.

Кажется, стало уже традицией опираться на те свойства конструкций, которые были указаны Филлмором и его соавторами в [Fillmore et. al 1988]. Сформулируем главные для наших исследований признаки.

1. Конструкции состоят из «родительских» и «дочерних» элементов, отношения между которыми могут различаться по степени жесткости.

2. Конструкции определяют в первую очередь синтаксические параметры, но могут определять и лексические, семантические, прагматические аспекты.

3. Конструкции могут (и в некоторых случаях должны) быть идиоматичными, тогда семантика конструкции как целого будет шире семантики составляющих элементов (семантика суммы не будет выводиться из семантики компонентов).

Очевидно, множество таким образом определяемых конструкций очень неоднородно: они будут различаться степенью и типом идиоматичности, жесткостью и закрепленностью определенных лексем (классов лексем).

В широком понимании любая синтаксическая единица является конструкцией, статус такой единицы-конструкции зависит от классификации по названным параметрам.

1 Впрочем, показательно, что даже в этих и других работах того же цикла ("Workshop on extracting and using constructions in NLP") активно используется именно термин «коллокация».

В предельном случае мы имеем дело с ориентацией на радикальный вариант грамматики конструкций У. Крофта (Radical Construction Grammar), отрицающий композициональность конструкций, т. е. постулирующий, что не конструкции конструируются из элементов более низких уровней иерархии (например, слов), а наоборот, элементы более низких уровней иерархии (слова) могут вычленяться в результате процедур обработки из целостной конструкции [Croft 2001; Croft, Cruse 2004].

Другой вариант грамматики конструкций у Филлмора, реализующего проект «Конструктикон» как продолжение идей и принципов лексикографического проекта FrameNet на материале корпуса предложений с разметкой конструкций [Fillmore et al. 2012]. Ч. Филлмор вводит свою терминологию и — главное — схему описания конструкций: "Constructions are the rules that license 'new' linguistic signs based on other linguistic signs. The structures licensed by one or more constructions are called CONSTRUCTS, following the terminology of Sign-based Construction Grammar. A construction can be described formally, in Attribute-Value Matrix form, or informally in prose, but annotation must be of constructs: each annotation captures the properties of a particular construct with respect to a particular construction that licenses it"2 [Fillmore et al. 2012: 321]. В его проекте делается попытка скорее сблизить синтаксис и лексикон: "There were numerous reasons for trying to articulate a lexicon with a constructicon: serious work in lexical description was unable to escape the need to appeal to features of grammar that go beyond the basic structures that define ordinary valence satisfaction <...)"3 [ibid.: 367].

2 «Конструкции — это правила, которые регулируют порождение "новых" языковых знаков на основе других языковых знаков. Структуры, определяемые одной или более конструкцией, именуются КОНСТРУКТАМИ, что следует терминологии основанной на знаках грамматики конструкций. Конструкции могут описываться формально, в виде матрицы «атрибут-значение», или неформально с помощью текстового описания, но аннотироваться должны именно конструкты: каждая аннотация описывает свойства конкретного конструкта с отсылкой к той конструкции, которая его определяет».

3 «Существует множество причин, чтобы пытаться связать лексикон с конструкциями: серьезная работа по описанию лексики не может

В рамках парадигмы корпусных и когнитивных исследований нас интересует изучение лексико-грамматических явлений (вернее было бы даже сказать: лексики и морфолого-синтаксических явлений) при восприятии и порождении текста. Поэтому для нас наиболее интересным является объединение идей, заложенных в моделях грамматики конструкций и в различных контекстно-ориентированных моделях: от широко известной «Контекстуальной теории значения» (Contextual Theory of Meaning) Ферса (см., например, [Firth 1957, 1968]) до современных Usage-based models (см. обзор в [Barlow, Kemmer (eds.) 2000]). Как известно, в процедурах обработки текста происходит максимальная опора на контекст. Причем понятие «контекст» также может рассматриваться в разных смыслах:

• минимальный контекст, в котором реализуются лексические и морфолого-синтаксические явления;

• текстовый контекст, включающий в себя фрагменты текста вплоть до текста целиком;

• контекст, предполагающий учет текстов определенного типа (заданного функционального стиля, отобранной коллекции текстов и т. д.); подробнее см. [Ягунова 2008а].

Можно было бы добавить еще одно понимание контекста: совокупность текстового опыта человека, а тем самым — знание языка (на основании опыта по восприятию и порождению текстов). Такое понимание «широкого контекста» в известной степени моделируется в создании и последующем изучении Национальных корпусов.

Процедуры обработки текста носят вероятностный характер. Безусловно вероятностный характер носят механизмы обработки (восприятия, понимания) текста человеком (см. например, [Фрумкина (отв. ред.) 1971, 1974] и т. д.). О вероятностном характере процедур обработки текста мы можем говорить в отношении многих систем автоматического понимания текста (ср., например, системы кластеризации новостных текстов на новостных порталах или машинный перевод, основанный на статисти-

проводиться без привлечения грамматических свойств, которые выходят за пределы базовых структур, описывающих простое заполнение валентностей».

ческом анализе). Возможны, наконец, процедуры автоматического анализа текста, моделирующие стратегии обработки текста человеком.

«Коллокация» также является неоднозначным термином, использование которого в не меньшей степени зависит от парадигмы исследования.

Сравним несколько определений этого понятия. "Collocations of a given word are statements of the habitual or customary places of that word"4 [Firth 1957: 181]. "A collocation is an expression consisting of two or more words that correspond to some conventional way of saying things"5 [Manning, Schutze 1999: 141].

В отечественной литературе достаточно часто встречается понимание лингвистами коллокаций как несвободных сочетаний, не относящихся к идиомам, когда, с одной стороны, ключевое слово этих сочетаний может появляться в контексте разных языковых единиц, а с другой стороны, эти единицы (т. е. контекст ключевого слова) можно перечислить в виде закрытого («полузакрытого») списка (ср., например, работы Л. Н. Иорданской, И. А. Мельчука и их последователей по исследованию лексических функций и моделей управления ).

Чаще всего принцип выделения коллокаций (в идеале список) отражает традицию определенной школы и собственную интуицию исследователя. Даже в рамках русистики существует огромное количество терминологических и теоретических сложностей, что отражается в различии трактовок в словарях и грамматиках.

В качестве примера позволим себе цитату из предисловия к электронному ресурсу «Словарь русской идиоматики» (это один из словарных ресурсов, создаваемых на основе Национального

4 «Коллокации заданного слова — это установления обычных или привычных мест этого слова».

5 «Коллокация — это выражение, состоящее из двух или более слов, которое соотносится с некоторым конвенциональным способом выражения смыслов».

6 См. подробнее в [Иорданская, Мельчук 2007; Iordanskaja, Рарето 1996]; сейчас такие работы ведутся на основе Национального корпуса русского языка (НКРЯ), в частности, они представлены на http://dict.ruslang.ru/ [Кустова 2008; Бирюк и др. 2008].

корпуса русского языка): «(...) в отечественной традиции принято различать собственно фразеологизмы (идиомы), в которых исходное значение полностью переосмысляется (медведь на ухо наступил, ломиться в открытую дверь), и коллокации, в которых одно слово выступает в своем обычном значении, а другое — во фразеологически связанном (плакать навзрыд, в стельку пьяный)» [Кустова 2008: 2]. Это предисловие как бы примиряет отечественные традиции и исследовательскую парадигму корпусной лингвистики. Все чаще приходится признавать, что границы между классами оказываются проницаемыми. В словаре представлены «наряду с настоящими идиомами (фразеологизмами, ср. круглый сирота) и коллокациями (ср. плакать навзрыд, диаметрально противоположный), менее идиоматичные (ср. глубоко огорчен), а также свободные (семантически мотивированные, ср. чрезвычайно огорчен) сочетания со значением высокой степени» [Кустова 2008: 2]. Такое решение создателей ресурса отвечает основным задачам контекстно-ориентированных и корпусных исследований.

Попытки последовательно учитывать контекст (причем, как указывалось выше, разные типы контекстов) ставят перед исследователем дополнительные задачи. Обычно получаемые в работах списки коллокаций лишь в некоторой степени могут быть соотносимы с исследованием тех особенностей, которые не просто заложены в языке (всех текстах на этом языке), но в существенной степени зависят от типа контекста (например, от функционального стиля текстов, конкретной коллекции или отдельного текста по отношению к этой коллекции).

Реализовать контекстно-ориентированный подход можно с использованием различных статистических мер, позволяющих автоматически выделить из текстов коллокации и ранжировать их по степени неслучайности в соответствии со значениями выбираемых мер [Stubbs 1995]. При этом нечеткое и интуитивное понятие «контекста» принимает черты объективности — в узком смысле это та коллекция, на которой проводится исследование. Возможность варьировать коллекции (например, выбирая коллекции текстов разных функциональных стилей или даже отдельные тексты из этих коллекций) позволяет получать списки коллокаций, различающие различные контексты. Именно тексто-

вый материал, реализация лексико-грамматических и синтаксических явлений, оказывается базой для исследования.

1.3. Терминологическое обобщение для решения задач данной работы

Во всех проводимых нами работах под коллокациями мы понимаем статистически неслучайное сочетание двух и более лексических единиц, характерное прежде всего для определенного типа текстов, т. е. для коллекции текстов, соответствующих определенным исследовательским условиям .

Систему языка в целом мы представляем как стратифицированную систему языков, обслуживающих разные коммуникативные ситуации или разные типы текстов (функциональные стили, жанры, предметные области и т. д.). Этот подход определяется тем, что главным для нас является опора на коллекцию текстов или даже единичные тексты из этой коллекции. Мы в своем исследовании языка и речи идем от реализации, от имеющегося в нашем распоряжении материала. Именно материал диктует возможность выбора тех или иных теоретических положений и принципов классификации.

Разумеется, любое лингвистическое исследование в той или иной степени опирается на языковой материал, однако наш подход опирается на идеи сплошного анализа языкового материала, т. е. последовательного рассмотрений всех п-грамм (цепочек из п словоупотреблений) определенной длины, встретившихся в исследуемой коллекции. Понятно, что такое исследование может проводиться только с использованием статистических мер, позволяющих оценивать степень неслучайности той или иной последовательности слов. Основное положение, которое лежит в основе этого метода, заключается в том, что статистическая значимость имеет несомненное лингвистическое значение, т. к. она является косвенным признаком наличия устойчивой семантической и/или синтаксической связи между языковыми единицами и позволяет проверять достоверность выделения той или иной неоднословной целостности как самостоятельной единицы.

7 Коллокации и конструкции, которые одинаково часто встречаются во всех типах текстов, крайне редки, и их исследование остается за рамками данной работы.

В то же время, очевидно, что списки единиц, получаемые на основании чистой статистики, оказываются не вполне однородными, требуют дальнейшей классификации и теоретической интерпретации. Однако эти списки отражают основные особенности контекстов: различных коллекций новостных и научных текстов (и их подвыборок), а также отдельных текстов [Ягунова, Пивоварова 2010а; Ягунова, Пивоварова 20106; Пивоварова, Ягунова 2010; Пивоварова 2010].

Идея настоящей статьи возникала в процессе анализа большого и неоднородного материала, полученного в ходе разнообразных вычислительных экспериментов. Оказалось, что представленные в литературе принципы описания (например, разработанные И. А. Мельчуком четыре стратегии, на основании последовательного применения которых можно получить 54 типа «фразем» [Mel'chuk 1995]), не вполне подходили к нашему материалу. Итак, как уже говорилось, необходимость сплошного анализа неоднословных единиц, выделяемых с помощью статистических мер (контекстно ориентированного анализа), потребовала нового подхода.

Мы предлагаем некоторую схему классификации, задающей основные параметры такого разделения. В ходе наших исследований было установлено, что эта схема хорошо соответствует экспериментальным данным. Однако на настоящем этапе положения данной классификации представляются набором гипотез, которые, несомненно, надо верифицировать, и верификация должна происходить именно с опорой на «контекст» в обрисованном выше понимании.

Если пытаться разделить термины «коллокация» и «конструкция» «по совокупности пониманий», то получится некоторое градуальное противопоставление: от «скорее конструкции» к «скорее коллокации».

Чаще всего термин «коллокация» используется при решении задачи выделения и описания неоднословных номинаций (не только в прикладной области). Ср. примеры из [Halliday 1966: 150]: strong vs. *powerful tea 'крепкий vs. *сильный чай', где соче-таемостные ограничения диктуют выбор прилагательного strong для cigarettes, tea и coffee ('сигареты', 'чай' и 'кофе'), но powerful для heroin ('героин'). Такие неоднословные номинации как, на-

пример, белый медведь, белый гриб, белое вино или проливной дождь, заклятый враг очевидным образом ложатся в таким образом понимаемую идею коллокаций. Более того, такие традиционные признаки как «устойчивость» и «идиоматичность» (ср. [Мельчук 1960]) в известной степени переосмысляются. Ко-локации выходят за пределы исследования «чистой фразеологии», зачастую их целостность как единой номинации оказывается более значимым признаком, а под устойчивостью понимается скорее степень неслучайности совместной встречаемости слов. Такое понимание устойчивости ощущается носителем языка и может быть выявлено в ходе экспериментов с информантами (мы подробнее рассматриваем методику такого эксперимента в 2.2.3). Так, например, для анализируемых нами новостных и научных текстов среди таких коллокаций выступают самые разные с лингвистической точки зрения неоднословные номинации: непосредственная близость, стихийное бедствие, Нижний Новгород, Саудовская Аравия, Бритни Спирс, Невский экспресс и корпусная лингвистика, речевой акт, именительный падеж, речевой сигнал, концептуальный граф, внешний посессор соответственно.

Коллокации достаточно часто выступают в качестве важной и частотной единицы словаря. Практические задачи автоматической обработки текста (информационный и фактографический поиск) чаще всего связаны с поиском и идентификацией разнообразных сложных номинаций. Таким образом выделяются неоднословные термины, могут определяться предметные области и ключевые словосочетания, характеризующие заданную коллекцию текстов или ее подвыборку, и т. п. Именно коллокации, соответствующие неоднословным номинациям, по всей видимости, могут претендовать на статус «ядерных коллокаций». В этом смысле можно было бы представить себе даже более развернутую шкалу: от слова до коллокации, от колокации к конструкции. Тогда «коллокация» будет представляться как бы в виде промежуточного звена при движении от слова к конструкции.

Для русского языка с его развитой морфологией еще на начальном этапе выделения коллокаций встает существенный вопрос: коллокация — это сочетание лексем или сочетание словоформ? Общего ответа на этот вопрос не существует, но лексемные сочетания, как правило, ближе к «ядерным коллокациям»

(больше парадигматической информации), а словоформные сочетания, напротив, включают больше синтагматической информации.

Конструкции чаще всего представляют собой единицы скорее синтаксического плана. Таким образом, типовые или ядерные коллокации и конструкции часто могут оказаться противопоставленными как парадигматические vs. синтагматические единицы; инвентарные vs. конструктивные единицы (по В. Б. Касевичу [Касевич 1988]); единицы, принадлежащие лексикону vs. синтаксису; номинации vs. предикативные единицы. Предикативность анализируемых единиц понимается, прежде всего, как потенциальная способность занять позицию предиката в предложении. Таким образом, наиболее явная предикативность будет у сочетаний с вершиной в виде глагола в личной форме (хотя, конечно, не исчерпывается этим типом сочетаний).

Впрочем, и здесь проявляется неоднозначность, т. к. предикативные образования, обладающие высокой степенью воспроизводимости и/или идиоматичности, будут концентрироваться на шкале(-ах) от коллокации к конструкции ближе к конструкциям. Приведенные выше примеры медведь на ухо наступил, ломиться в открытую дверь, плакать навзрыд и т. д. окажутся в зоне конструкций именно благодаря ярко выраженной предикативности. Однако для того, чтобы о них зашла речь, необходимо, чтобы они были реализованы в текстах и — соответственно — их можно было выделить с помощью статистических мер. Те, кто работает с корпусами, знает, что многие фразеологизмы в текстах встречаются редко.

Особое внимание обратим на одно из традиционных свойств конструкций по Филлмору [Fillmore et. al 1998]: конструкции как единицы уровня синтаксиса могут включать в свой состав фиксированные лексические единицы. Следовательно, существует противопоставление с точки зрения включенности фиксированных лексем (вернее словоформ) или лексем, принадлежащих фиксированной лексико-семантической группе: например, А еще N называется! (А еще друг называется!) (один из многочисленных примеров «синтаксических фразем», собранных и проанализированных в диссертационном сочинении М. В. Копотева [Копотев 2008: 125]).

К данному типу конструкций относятся многие клише: высокочастотные конструкции, характерные для определенного типа текстов — например, сообщений из новостных лент. Группа клише выделяется, прежде всего, на основании стилевого (и стилистического) набора признаков: к клише относятся те сочетания, которые маркируют специфический стиль («казенный», подчеркнуто навязчивый). Поэтому среди клише мы можем найти не только типовые конструкции с ярко выраженной предикативностью, но и, например, предложно-падежные сочетания (со ссылкой, по данным, в настоящее время), дискурсивные слова (может быть, по крайней мере), производные служебные слова (в качестве, в отличие, в зависимости), если эти единицы высокочастотны для рассматриваемой коллекции и их отличают особые стилевые характеристики.

Таким образом, клише пересекается и с конструкциями, и с устойчивыми сочетаниями. Использование термина «клише» в нашей статье целесообразно именно в силу того, что материал анализируется по многим факторам; клишированность сочетаний выступает как своеобразный дополнительный параметр анализа, с одной стороны, необходимый в силу того, что он, очевидно, связан с частотностью, а с другой — как бы «перпендикулярный» заявленной шкале (-ам) «от коллокации к конструкциям».

Забегая вперед, упомянем, что конструкции-клише — например, конструкции, которые вводят источник информации, — высокочастотны в новостных текстах. Приведем в качестве примера результаты анализа новостного портала lenta.ru: сообщает РИА 17081, сообщает агентство 10590, пишет газета 7722, передает агентство 7683, передает РИА 4487 (числа означают частоты в ipm, эта часть нашего анализа осуществлялась на коллекции объемом около 300 миллионов словоупотреблений [Клы-шинский и др. 2010]).

Для информационно насыщенных коллекций конструкции, выделяемые на основании статистических мер, могут достигать длины более 5 словоупотреблений (например, сообщает Интерфакс со ссылкой на источник в правоохранительных органах из сообщает X со ссылкой на N). Именно такой тип единиц принимает крайнее значение «чистой конструкции» на предложенной нами шкале(-ах) от колокации к конструкциям: она частотна,

синтаксична, предикативна и синтагматична, в вершине («родитель») глагол в личной форме. Полагаем, что конструкции типа сообщает X со ссылкой на являются максимально близким приближением к прототипической CxG конструкции, которого можно достичь при использовании предложенных в работе методов.

Производная служебная лексика (например, предлоги в течение, в качестве) и дискурсивные слова (например, по крайней мере, может быть) чаще всего выступают под маркой «сочетаний, эквивалентных слову», хотя степень устойчивости этих единиц может существенно различаться, что находит отражение и в в словарях (например, [Богданов, Рыжова 1997]).

Полагаем, что в качестве условного приближения можно допустить, что эти единицы расположены в некоторой срединной зоне, равноудаленной от «ядерных коллокаций» и «ядерных конструкций». Это зона распределения соответствующих «сочетаний, эквивалентных слову». Чем выше предикативность (особенно для дискурсивных слов и наречных образований), тем они оказываются ближе к конструкциям. Другим параметром является степень устойчивости: чем она выше, тем эти единицы оказываются ближе к полюсам сосредоточения коллокаций как целостных единиц словаря (мы сейчас абстрагируемся от лингвистического анализа процессов фразеологизации).

Напомним, что предикативность понимается нами как возможность занять позицию предиката в предложении, что сравнительно часто может относиться к дискурсивным словам и наречным образованиям.

На следующих этапах анализа и интерпретации, когда рассмотрению подлежат характеристики как коллекций, так и конкретных текстов, составляющих эти коллекции, шкалы конкретизируются. Так, например, по крайней мере, может быть оказываются ближе к коллокациям в шкалах словарь vs. грамматика и инвентарные vs. конструктивные единицы, но ближе к конструкциям в шкале номинация vs. предикативная единица, парадигматика vs. синтагматика.

Цели исследования и способы решения поставленных задач вынуждают нас двояко рассматривать анализируемые единицы с точки зрения того, включают ли они заполняемые различными

единцами слоты или представлены в виде единиц с фиксированным лексическим наполнением.

Слоты или, другими словами, лексические элементы, которые могут варьироваться, нас интересуют в тех конструкциях, в которых и само их наличие, и варианты их заполнения важны для решения определенных задач, прежде всего, задач анализа текстов. Сошлемся на приведенные выше примеры конструкций введения источника информации, где слот как раз и занимает обозначение источника информации: сообщает X, сообщает Интерфакс со ссылкой на N.

В случае исследования, например, производной неоднословной служебной лексики мы останавливаемся на варианте представления, предполагающем фиксированное лексическое наполнение: в зависимости от, а не в зависимости от X. Причина выбора такого варианта рассмотрения состоит том, что, как мы предполагаем, возможные виды заполнения слота для решения задач анализа текстов информационно незначимы. Если при анализе какой-либо коллекции выявляется явное статистическое предпочтение одного или нескольких вариантов заполнения потенциального слота X, производный предлог «сдвинется» в сторону конструкции со слотом (в качестве гипотетического примера можно представить такую коллекцию, где в конструкции в зависимости от X переменная X предпочитает принимать значения цели, задачи или гипотезы).

2. Материал и методика

2.1. Материал

В качестве основного материала для исследований, описанных в данной статье, использовались три коллекции текстов.

1) Тексты портала Лента.ру (www.lenta.ru) с апреля по декабрь 2009 г.; общий объем проанализированных текстов более 66 000 000 «токенов» (словоупотреблений и знаков препинания).

2) Материалы конференции «Корпусная лингвистика» 2004-2008 гг. (монотематическая коллекция); объем коллекции составляет около 220 000 «токенов».

3) Материалы сборника «Компьютерная лингвистика и интеллектуальные технологии» (по материалам международной

конференции «Диалог») за 2003-2009 гг.; объем коллекции составляет около 2 500 000 «токенов».

Кроме того, нами привлекался дополнительный материал (новостные источники, отличающиеся от Ленты.ру по жанру, предметной области, стилевым и прочим характеристикам, связанным со степенью информационной насыщенности): «РИА Новости», «РосБизнесКонсалтинг», «Компьюлента», «Независимая газета». Эта часть работы подробно описывается в [Ягунова и др. 2011], некоторые результаты приводятся для сравнения в разделе 3.3 данной статьи.

Дополнительный материал в статье анализировался только тогда, когда описанные на материале портала Лента.ру особенности характеризовали новостные тексты только одного жанра (например, текстов сообщений новостной ленты).

Морфологическая разметка коллекций осуществлялась при помощи свободно распространяемого программного обеспечения АОТ (www.aot.ru) . Для разметки использовался, в первую очередь, модуль морфологического анализа; модуль синтаксического анализа использовался для частичного снятия морфологической омонимии. В тех случаях, когда полностью снять омонимию не удавалось (по приблизительным оценкам — около 6% случаев), для анализа использовалась первая из предложенных анализатором лемм, т. е. неоднозначность разбора просто игнорировалась. При выделении коллокаций учитывались знаки препинания: рассматривались любые последовательности слов в тексте, не разделенных знаками препинания.

2.2. Методика

2.2.1. Вычислительный эксперимент с использованием мер MI и t-score. Как уже было сказано, на данном этапе нами использовались две меры: MI (mutual information, коэффициент взаимной информации) [Church, Hanks 1990] и t-score [Church et al. 1991]. MI вычисляется по формуле (1), где c и c2 — лексические единицы; f(ci,c2) — абсолютная частота встречаемости биграммы c1 c2 (с учетом порядка единиц внутри биграммы);

8 Пользуясь случаем, благодарим В. В. Бочарова за помощь в этой части работы.

Дс1), Дс2) — абсолютные частоты с! и с2 в корпусе; N — общее число словоупотреблений в корпусе.

о м'(с-с-)=^ {"А

/(с1)х /(с2)

С точки зрения теории вероятности, мера М1 является способом проверить степень независимости появления двух слов в тексте — если слова полностью независимы, то вероятность их совместного появления равна произведению вероятностей появления каждого из них, т. е. произведению частот, а значение меры М1 равно нулю.

Значение меры М1 на практике часто зависит от размера корпуса (это отмечено, например, в [Stubbs М. 1995]): чем больше исследуемый корпус, тем выше в среднем получаемые по нему значения М1. В частности, для конкретной коллокации значения М1 для полного корпуса и для части того же корпуса могут различаться. Это свойство, неоднократно проверенное нами в экспериментах, по всей видимости, связано с недостаточным объемом исследуемых нами коллекций. Теоретически, при условии «достаточно большого корпуса», где частоты слов/словосочетаний зависят только от их вероятностей, значение меры М1 не должно зависеть от размера корпуса. На практике же частоты напрямую связаны с вероятностями только для отдельных слов, а для словосочетаний даже на самых больших из наших коллекций (десятки миллионов токенов) имеют место краевые эффекты .

Однако создание «достаточно больших коллекций» не всегда возможно: существующие коллекции научных статей в прин-

9 Очень грубо это можно пояснить следующим примером. Предположим, что два слова встречаются в корпусе по сто раз, а их сочетание — десять раз. Если мы возьмем в качестве коллекции половину того же корпуса, то можно предположить, что отдельные слова встретятся там примерно пятьдесят раз — т. е. их относительная частота, скорее всего, практически не изменится. Для сочетания двух слов все может оказаться намного драматичнее — например, все десять его употреблений могут случайно оказаться в одной половине корпуса с довольно заметной вероятностью (около 0,2%); для каждого из слов аналогичное событие почти исключено.

ципе не очень велики по объему; иногда в качестве «контекста» исследования выступают новостные тексты определенного издания за месяц или неделю, которых также не очень много.

Зависимость меры MI от размера корпуса затрудняет сравнение значений мер, полученных на разных корпусах, или например, на полной коллекции и ее части. Один из способов решения это проблемы, используемый нами в данной работе, это игнорирование числового значения меры MI и использование ее только в качестве средства ранжировать биграммы внутри одного корпуса по степени их связанности.

Другим недостатком меры MI, который отмечают многие исследователи (в том числе [Stubbs, 2008; Manning, Schutze 2002] и др.), является ее свойство завышать значимость редких словосочетаний. Чем более редки слова, образующие коллокацию, тем выше будет для них значение MI, что делает данную меру совершенно «беззащитной» перед опечатками, окказионализмами, иностранными словами и другим информационным шумом, который неизбежен в большой коллекции. Поэтому для данной меры используется порог отсечения по частоте. К сожалению, правильный подбор порога отсечения оказывается чрезвычайно сложной задачей. Во-первых, при его определении исследователь чаще всего опирается на задачу исследования, в рамках которой он определяет требуемые пределы точности и/или полноты выборки. Во-вторых, соедует принимать во внимание основные характеристики коллекции — не только объем, но и степень однородности и монотематичности. В-третьих, необходимо проводить отдельный вычислительный эксперимент по подбору значений порогов с последующим экспресс-анализом получаемых выборок и распределений значений мер.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Таким образом, для каждой коллекции подбирается свое пороговое значение. В данной работе мы рассматривали только те биграммы, которые встретились в коллекции не менее 40 раз для коллекций «Лента.ру» и «Диалог» и не менее 16 раз для коллекции «Корпусная лингвистика». Высокие пороги отсечения определялись самой постановкой задачи: наша цель была в том, чтобы выделить наиболее значимые, характерные для данной коллекции коллокации и конструкции, т. е. акцент делается на точности, а не на полноте.

Другой мерой, которая использовалась в данном исследовании, стала мера ^соге, которая учитывает частоту совместной встречаемости ключевого слова и его коллоката, отвечая на вопрос, насколько неслучайной является сила ассоциации (связанности) между коллокатами.

Данная мера используется гораздо реже, чем мера М1, в частности, потому что она является лишь несколько модифицированным ранжированием коллокаций по частоте. Очевидно, что значение данной меры тем выше, чем выше частота коллокации в коллекции. Хотя данная мера содержит коррекционный компонент — вычитание деленного на размер коллекции произведения частот коллокатов, — эта поправка отражается лишь на самых частотных словах. М. Стаббс показывает (на примере английского языка), что значение меры ^соге для знаменательных слов примерно равно корню из частоты коллокации и лишь для служебных заметно меньше этого значения [Stubbs 1995]. В литературе эта особенность часто трактуется как малопригодность этой меры для поиска терминологических словосочетаний и номинаций; для этой цели она, как правило, не используется. Естественно, что мера ^соге, в отличие от М1, не преувеличивает значимость редких словосочетаний и не требует использования порогов отсечения. Тем не менее мы использовали для ^соге те же пороги отсечения, что и для М1, чтобы в обоих случаях работать с одним и тем же множеством коллокаций.

В нашем исследовании мы учитывали порядок единиц внутри биграммы.

Меру М1 можно обобщить для любого числа коллокатов (см., например, [Ре^оую et al. 2006]). Нами проводились исследования коллокаций, включающих от двух до пяти коллокатов. Сопоставление различных вариантов обобщения этой меры (например, [Boulis 2002; Ре^оую et al. 2006; TadiC, Sojat 2003; Su et al. 1994]) представляет собой тему отдельного исследования. В данной статье мы рассматриваем результаты, полученные с помо-

/ (С1, С2 )

/ (с,) х / (с2)

N

щью следующего варианта (данная формула эквивалентна формуле (5) из [Petrovic et. al. 2006]):

(3) MI= log * )*

у (с,)*Ук)*...*у (с)'

где i — число коллокатов в составе коллокации, а остальные условные обозначения те же, что и для формул 1 и 2 .

Обобщение меры ^соге для п-грамм, состоящих из трех или большего числа компонентов, в литературе не встречается. Причиной этого может быть тот факт, что мера ^соге является аппроксимацией частоты, которая за счет поправочного коэффициента «понижает» значимость словосочетаний, состоящих из двух очень частотных слов (например, двух союзов или союза и предлога). Поскольку сами единицы очень частотны, такие би-граммы становится частотными просто в силу вероятностных причин. Однако чем больше единиц входит в п-грамму, тем меньше сила этого эффекта (не говоря уже о сомнительности появления в тексте, например, трех союзов подряд). Поэтому для многословных словосочетаний использование ^соге не представляется осмысленным, а сама частота становится более надежным источником информации, чем для биграмм. В нашей работе для многословных сочетаний используется собственно частота п-граммы (вместо расширенного варианта ^соге).

Вопрос о выборе первичной лексической единицы анализа — лексемы и/или словоформы — для русского языка (как языка с развитой морфологией) не всегда решается однозначно. Ответ на него зависит от целей исследования, от типа текстов и от многих дополнительных факторов. Мы в своей работе опирались на единицы обоих типов, исходя из того, что они отражают разные аспекты и уровни лексико-грамматической информации.

10 Теоретически данная формула эквивалентна следующей:

р( с, ,с2 ,...,с{) М1= -ь-

р( с1 )* р( с2 )*...* р( с{ )

где р(х) — это относительная частота единицы х. На практике, однако, расчеты лучше проводить, используя абсолютные частоты, чтобы избежать потери точности.

Для словоформ использовались те же формулы и пороги отсечения, что и для лексем.

Методика первичной обработки выдач (списков сочетаний), полученных на разных коллекциях и с помощью разных мер, включала удаление из первоначальных списков тех сочетаний, которые включали слово(-а), написанные латиницей. Затем биграммы упорядочивались по убыванию значения меры MI или t-score. Главное внимание при классификации и интерпретации уделялось биграммам с наибольшим значением соответствующих мер («топу» списков). Последовательный анализ возможных вариантов привел к тому, что на всех выделяемых коллекциях анализируемый топ состоял из 100 коллокаций .

2.2.2. Серия экспериментов с информантами по оценке устойчивости и /или связанности. Списки сочетаний с максимальной степенью связанности выявлялись, как уже было сказано, на основании статистических мер (MI и t-score). Однако затем степень устойчивости и/или связанности этих сочетаний анализировалась в ходе экспериментов с информантами, что можно рассматривать как оценку работы нашего метода с помощью информантов (предварительные результаты см. [Савина, Ягунова 2011; Yagunova, Savina 2011])12. Была проведена серия экспериментов, в которых испытуемые должны были оценивать целостность-связанность-неслучайность (относя сочетания к одному из трех заданных классов) приводимых в анкете сочетаний; в качестве материала использовались сочетания, имеющие наиболее высокие значения мер.

В качестве информантов выступали студенты младших курсов специальности «Прикладная информатика» (СПбГУ), которые, с одной стороны, имеют общее представление о том, что такое корпусная лингвистика, но, с другой стороны, не могут

11 Информативный (по названным критериям) топ мог колебаться от 90 до 100 единиц в зависимости от анализируемой коллекции (ср. [Ягунова, Пивоварова 2010а; Ягунова, Пивоварова 2010б]), но для единообразия для всех коллекций рассматривался топ из 100 коллокаций.

12

Надеемся, что в ближайших публикациях мы сможем показать специфику принятия решения испытуемыми при оценке степени устойчивости-связанности и дать тщательную лингвистическую интерпретацию параметров, влияющих на принятие решения.

считаться экспертами ни в языкознании, ни в информационном анализе текстов.

В каждой из анкет были собраны сочетания, относящиеся только к одной коллекции, а информантам сообщалось, из каких текстов — научных или новостных — были извлечены сочетания. В инструкции информантам было сказано: «Перед Вами сочетания слов (биграммы) из научных текстов (материалов специализированной лингвистической конференции), выделенные на основании статистических критериев». Или — в другом варианте — было сказано, что в анкете «(...) сочетания слов из новостных текстов».

Оценка информантами связанности предлагаемых в анкете коллокаций происходила на основании интуиции носителя языка (и его представления о предметной области корпусной лингвистики) в ходе двух экспериментов.

В эксперименте 1 (25 информантов) информанту предлагалось определить, к какому из трех классов — «правильные», «ожидаемые» и «остальные» — относится каждое из сочетаний предлагаемого списка. Используемые в эксперименте названия классов условны (возможно, терминологически они далеко не точны), но они были понятны информантам. Информанты интуитивно относили приводимые в анкете сочетания к классам с этими условными названиями, не испытывая серьезных затруднений в выполнении задания.

Эксперимент 2 (22 информанта) представлял собой эксперимент на шкалирование степени связанности в шкале от 0 до 5, где «0» соответствует минимальной, а «5» — максимальной степени связанности с точки зрения информантов. Информантам не давалось никаких указаний о том, что считать связанностью (какие признаки учитывать); эксперимент 2 позволил оценить степень связанности между словами и адекватность выделения классов в эксперименте 1. Оба эксперимента проводились на одних и тех же списках биграмм, в экспериментах участвовали разные группы информантов [Савина, Ягунова 2011].

2.2.3. Серия экспериментов по оценке совместной встречаемости и взаимного притяжения слов с опорой на ближайший контекст. Кратко остановимся на проекте, реализуемом в настоящее время. Об окончательных результатах этого проекта го-

ворить еще рано, но, несмотря на это, упоминание проекта и используемой в нем методики, на наш взгляд, более чем логично в рамках данной статьи. Именно в нем реализуется подход, позволяющий сопоставлять результаты, полученные на материале коллекции и на материале отдельного текста из этой коллекции. Тем самым реализуется возможность наиболее точного учета контекста. Более того, этот подход кажется нам изначально ориентированным на соединение антропоцентричности и вычислительных процедур в рамках исследования обработки текста.

Этот проект предполагает сочетание вычислительного эксперимента и эксперимента с информантами. В ходе вычислительного эксперимента мера совместной встречаемости высчиты-вается на основании коэффициента Дайса (Dice, см. (4)).

где Д(х) и Ду) — частота встречаемости слов х и у в коллекции, а Дх,у) — частота совместной встречаемости слов х и у.

Практически более удобным оказывается использовать видоизмененную меру Дайса, см. (4а). Эта мера оказывается сходной с широко используемой мерой М1, но авторы метода находят ее более применимой для дальнейшей разметки коллекции и отдельных текстов этой коллекции, т. к., в отличие от М1, она не смещена в сторону низкочастотных коллокаций и может использоваться без использования порогов отсечения [Daudaravicius 2010].

Процесс вычислительного эксперимента можно коротко описать следующим алгоритмом. Сначала для всех пар слов по всей коллекции считается коэффициент Дайса. Затем для каждого конкретного текста, представляющего собой цепочку слов (или, вернее, цепочку пересекающихся пар — слово х с предшествующим словом и слово х с последующим словом), осуществляется «сборка» связанных сегментов. При последовательном прохождении от слова к слову в каждом тексте уже известны соответст-

вующие значения коэффициента Дайса для всех пересекающихся пар. На основании значений этой статистической меры слова объединяются в связанные группы с учетом ближайшего контекста (принимается решение о том, надо ли присоединить текущее слово к предыдущему). Слово не присоединяется к предыдущему, если значение коэффициента Дайса для данной пары ниже порогового, или если оно ниже, чем среднее арифметическое того же коэффициента для левой и правой пары. Во всех остальных случаях слово присоединяется.

Текст в итоге выглядит следующим образом: А_В_С D_F. То, что связано знаком подчеркивания, воспринимается программой как связанный сегмент текста (коллокация или конструкция), там, где такого знака нет, проходит граница между сегментами. Сегмент может включать произвольное число слов.

В результате такого вычислительного эксперимента мы получаем два набора: набор связанных биграмм по коллекции (упорядоченный по убыванию значения меры) и набор связанных сочетаний, подсчитанных для каждого текста отдельно, а затем объединенный в некое подобие частотного словаря связанных сочетаний. Программа, реализующая этот алгоритм, доступна для скачивания с сайта ее создателя: http://donelaitis.vdu.lt/~vidas /tools.htm.

Нас интересует именно результат сравнения связанности в корпусе (по мере Дайса) и связанности в рамках контекста, заложенного в конкретном тексте. Более того, результаты данного вычислительного эксперимента, как мы полагаем, должны в значительной степени соотноситься с процедурами анализа текста испытуемыми.

3. Результаты

3.1. М1-коллокации

Как уже говорилось, под типичными («ядерными») колло-кациями в нашей классификации мы понимаем прежде всего неоднословные номинации и сложные термины, т. е. неоднословные целостности, определенные в терминах лексем. Более того, такие колокации зачастую выходят за пределы «чистой фразеологии», их целостность как единой номинации оказывается более

значимым признаком, а под устойчивостью понимается скорее степень неслучайности совместной встречаемости слов, а не семантическая целостность.

Коллокации достаточно часто выступают в качестве важной и частотной единицы словаря. В этом смысле «ядерные» ко-локации могут рассматриваться не только на шкале от «коллока-ции до конструкции», но и на дополнительной шкале «от слова до коллокации».

Слово — казалось бы, ведущая единица языка и речи — так же является поводом для терминологических споров. Не углубляясь в определения этого понятия, остановимся только на важном с практической точки зрения вопроса о том, что считать основной единицей анализа — лексему или словоформу. Можно считать более чем обоснованным и экспериментально доказанным положение о том, что словоформа является ведущей единицей анализа русского текста (лексема выполняет роль дополнительной единицы анализа, используемой лишь в особых случаях) [Касевич, Ягунова 2004; Касевич, Ягунова 2006]. Вероятно, такое противопоставление роли лексемы и словоформы отчасти обусловлено типологическими характеристиками русского языка как флективного языка с богатой морфологией.

При работе с коллокациями выбор основной единицы анализа (слова или лексемы) представляет собой дополнительный вопрос.

Разберем возможности решения вопроса о выборе основной единицы анализа (словоформы или лексемы) на примере би-грамм: полагаем весьма показательным сопоставление биграмм, выявленных для лексем и/или для словоформ.

На материале новостных текстов был проведен предварительный сопоставительный анализ (1) списка сочетаний, выделяемых для лексем (но не словоформ), (2) списка сочетаний, выделяемых для словоформ (но не лексем), и (3) списка сочетаний, выделяемых и для лексем, и для словоформ (подробнее см. [Ягу-нова, Пивоварова 2010а])13.

13 -о

Во всех трех случаях под «списком» имеется в виду первая сотня словосочетаний, выявленных тем или иным способом. Очевидно, что списки, взятые целиком, будут совершенно идентичны, т. к. статистические меры подсчитывались для всех словосочетаний с частотой, большей чем заранее заданная. Нас интересует, однако, словосочетания

1. В список 1 попадают составные номинации, характеризуемые максимальной свободой (максимальным разнообразием, минимальной ограниченностью) набора выполняемых ими в предложении семантико-синтаксических ролей. Примеры би-грамм первого списка (число обозначает порядковый номер, каждая единица сочетания приведена в нормализованном виде (словарной форме), что обозначается с помощью прописных букв):

• для новостных текстов — 5 КУРМАНБЕК БАКИЕВ, 6 АЛИШЕР УСМАНОВ, 7 БЕНЕДИКТ XVI, 8 УСЕЙН БОЛТ, 12 СЕРДЕЧНЫЙ ПРИСТУП, 13 ОСАМА БИН, 16 СТИХИЙНЫЙ БЕДСТВИЕ, 21 ЛАМПА НАКАЛИВАНИЕ, 22 РАДОВАН КАРАДЖИЧ, 23 ПОЛЕЗНЫЙ ИСКОПАЕМОЕ, 24 ДЖОННИ ДЕПП, 25 ФИДЕЛЬ КАСТРО, 30 САДДАМ ХУСЕЙН, 33 СИМФОНИЧЕСКИЙ ОРКЕСТР, 35 КРОВНЫЙ МЕСТЬ, 37 РАФАЭЛЬ НАДАЛЬ, 38 РИММА САЛОНЕН, 40 КРУГЛЫЙ СТОЛ, 41 ГАРРИ ПОТТЕР, 42 РОБЕРТО МИЧЕЛЕТТИ, 43 ЗАРАБОТНЫЙ ПЛАТА, 44 БОСНИЙСКИЙ СЕРБ, 45 ЧЕН ИР;

• для текстов по корпусной лингвистике — 9 ВИНИТЕЛЬНЫЙ ПАДЕЖ, 17 ИМЕНИТЕЛЬНЫЙ ПАДЕЖ, 24 АКТУАЛЬНЫЙ ЧЛЕНЕНИЕ, 29 ИНСТРУМЕНТАЛЬНЫЙ СРЕДА.

Список на материале новостных текстов представляет большую сложность. Среди первых 100 новостных лексемных би-грамм, выделяемые с помощью меры М1, большинство составляли имена собственные: 43 наименования лица, 17 наименований объектов (главным образом, организаций), 10 географических наименований. Среди первых 100 биграмм было выделено 25 устойчивых сочетаний, условно разделенных на сочетания терминологического и общеязыкового характера (приблизительно поровну: 13 и 12 соответственно). Деление на термины и нетермины для новостных текстов довольно условно, т. к. многие номинации, исходно носящие терминологический характер, давно и прочно вошли в общеязыковую практику (например, лампа накаливания, стихийное бедствие, полезные ископаемые). В данном исследовании сравниваются биграммы из новостных и науч-

с наибольшим значением меры, т. е. верхние части списков, которые мы в дальнейшем для краткости именуем просто списками.

ных коллекций, поэтому деление на термины и нетермины оказывается необходимым.

Как уже было сказано, показательна высокая доля, которую имеют в этом классе наименования лиц и терминов. Для сочетаний, входящих в этот класс, попытка ранжировать семантико-синтаксические роли по степени употребительности, разумеется, приведет к тому, что среди них выделятся более употребительные и менее употребительные, но максимально характерная для каждого сочетания роль будет для него лишь несколько более употребительной, чем остальные возможные роли.

В этом отличие многих номинаций (наименований персон, организаций, географических названий) от других сочетаний, которые, по нашим данным, имеют ярко выраженные предпочтения той или иной формы и чаще всего не реализуют теоретически возможных морфологических форм. Таким образом, номинации, условно говоря, можно сопоставить со словом, которое характеризуется более или менее полной парадигмой словоизменения.

2. Биграммы второго типа (выделенные на основе анализа словоформ), как правило, являются номинациями, употребленными в определенной синтаксической позиции. Примеры би-грамм этого списка (числом обозначен порядковый номер):

• для новостных текстов — 3 парниковых газов, 5 Соединенных Штатов, 6 Женской Теннисной, 10 кредитном портфеле, 11 Палестинской автономии, 13 встречную полосу, Нижнем Новгороде, 18 Федеральную трассу;

• для научных текстов — 10 речевой акт, 50 речевых актов, 19 именная группа, 65 именных групп, 27 коммуникативного акта, 62 коммуникативных актов, 77 просодических характеристик, 78 прошедшего времени, 74 речевого сигнала.

Кроме того, биграммы этого подкласса могут относиться к части целостной номинации, например, сочетание речевых актов часто является частью триграммы «теории речевых актов».

Среди первых 100 биграмм из словоформ встретились повторения лишь трех номинаций: Саудовская Аравия и Саудовской Аравии, Бараком Обамой и Бараку Обаме, Хромой лошади и Хромая лошадь. Большая часть словоформных биграмм так же представляли собой имена собственные, однако их доля была существенно ниже, чем в случае лексемных биграмм. Лишь 20 из

этих биграмм — это наименования лица, 23 — наименования объекта (или часть этого наименования, например, Женской теннисной из Женской теннисной ассоциации), 16 — географические наименования (или их части). Среди биграмм из словоформ выше доля сочетаний, претендующих на устойчивость в качестве сложных номинаций и терминов, чем для лексемных биграмм .

В этих списках в обоих случаях некоторая составная номинация или термин резко тяготеет к выполнению некоторой типичной (излюбленной) для нее семантико-синтаксической роли (то есть «излюбленная» роль для этой номинации оказывается гораздо употребительнее остальных возможных для нее ролей). Такое тяготение является частным проявлением более общего закона тяготения номинативных единиц некоторого грамматико-семантического разряда к выполнению некоторой типичной для них семантико-синтаксической функции. Такое тяготение оказывается важным и для однословных номинаций и для неоднословных .

В том случае, если определенная составная номинация входит в состав некоторой более крупной — трехсловной или даже более протяженной, — например, (Женской теннисной) ассоциации, теории (речевых актов), сочетание является более устойчивым на синтагматической оси, чем в случае прочих словоформ-ных биграмм (допускающих более свободные связи с соседями на синтагматической оси).

3. Биграммы третьего класса, т. е. те, которые попали и в лексемный, и в словоформный топ, занимают в текущем словарном составе некое промежуточное место между биграммами класса «1» и биграммами класса «2». Это сочетания, у которых тоже статистически вырисовывается «излюбленная» синтаксическая роль, однако она противопоставлена остальным возможным

14 См. подробнее в [Ягунова, Пивоварова 2010а]. Словоформы как единицы биграмм демонстрируют морфологически оформленные синтаксические отношения. В анализируемой части («топе») новостных биграмм 56 связано атрибутивной связью и лишь 2 биграммы имеют генитивную связь (как дополнительный способ выражения атрибутивного значения); кроме того, 6 биграмм содержат два прилагательных (являются компонентом атрибутивного комплекса).

15

О действии такого закона применительно к словам писали, в частности, Н. Д. Арутюнова, Г. А. Золотова, В. Г. Гак, Ю. Д. Апресян.

для этого сочетания синтаксическим ролям не столь резко, как это было в типе «2», но в то же время не столь слабо, как это было в классе «1»16.

По нашему мнению, сформировавшемуся в результате пристального изучения списков, этот третий класс — биграммы, которые выделяются, как при анализе лексем, так и при анализе словоформ, — оказывается наиболее информативным. Таким способом мы можем выделить наиболее информационно-нагруженные и точные сочетания, характеризующие данную коллекцию текстов.

В приводимых ниже Таблицах 1, 2 и 3 представлены примеры биграмм, которые попадают в топ М1-сочетаний как при анализе с использованием лексем, так и при анализе с использованием словоформ. Для простоты восприятия в таблицах биграм-мы представлены в виде сочетаний словоформ. Сочетания упорядочены по порядковому номеру в словоформном списке. Для иллюстрации того, что даже в рамках топов лексемные и слово-формные биграммы могут иметь существенно различающиеся порядковые номера, в Таблице 1 приводятся порядковые номера для двух списков: и для лексемного, и для словоформного (можно заметить, что во многих строках они существенно различаются). Полужирным шрифтом в Таблице 1 выделены те биграммы, которые относятся к первой половине лексемного списка, но при этом находятся во второй половине словоформного списка. В Таблицах 2 и 3 мы для краткости приводим толькоте номера, которые биграммы получают в словоформном списке.

Ведущее место в таблицах отводится интересующим нас «ядерным коллокациям». Однако в таблицах присутствуют и сочетания, рассматриваемые нами в разделе 3.2 (М1-конструкции), особенно в тех случаях, когда приводятся результаты для научных коллекций.

16 Причина попадания в класс «3» может быть и в отсутствии формальной морфологической оформленности: в него могут попадать сочетания, состоящие из двух неизменяемых слов (например, РАО ЕЭС, Бритни Спирс, Ле Бурже). В таких сочетаниях ни один из членов не содержит в себе морфологического показателя выполняемой им синтаксической роли.

Таблица 1. Пример пересечения между списками биграмм для лексем и для словоформ (для первой сотни, в порядке убывания значения меры). Материал портала lenta.ru 2009 г.17

порядковый номер биграмма

для лексем для словоформ

1 1 Бритни Спирс

2 2 Эльвира Набиуллина

3 23 Ле Бурже

9 36 Лионель Месси

10 4 мысе Канаверал

11 43 бин Ладена [sic!]

14 9 Норильского никеля

15 7 дельты Нигера

17 50 Ак Барс

18 28 тротиловом эквиваленте

19 20 тройскую унцию

20 70 Ролан Гаррос

26 49 дель Торо

27 87 дель Потро

29 33 Арбат Престиж

31 96 РАО ЕЭС

32 35 Салават Юлаев

34 51 Арсений Яценюк

36 42 голубых фишек

39 29 адронного Коллайдера

17 Для удобства рассмотрения лексемы даются прописными, а словоформы строчными буквами.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Таблица 2. Биграммы (MI-score), выделяющиеся и для лексем, и для словоформ (в порядке убывания значения меры). Материал конференции «Корпусная лингвистика»

номер биграмма номер биграмма

2 наш взгляд 36 одной стороны

3 (по) крайней мере 37 таким образом

4 речевой деятельности 40 разрешения неоднозначности

5 художественной литературы 41 английский язык

7 первую очередь 43 кроме того

9 общим объемом 47 Национальный корпус

11 корпусная лингвистика 48 грамматических категорий

13 имена собственные 52 устная речь

15 математической лингвистики 54 база данных

16 словарной статьи 58 во многих

17 свою очередь 61 лексических единиц

18 предметной области 62 дает возможность

19 машинного перевода 63 зависит от

20 точки зрения 64 отличие от

22 за счет 65 русский язык

24 речь идет 67 корпусные данные

25 прежде всего 68 отличается от

26 большое количество 71 зависимости от

28 настоящее время 72 работы над

31 представляет собой 79 частей речи

32 млн словоупотреблений 80 во всех

34 другой стороны 84 при помощи

35 семантических состояний 86 морфологической разметки

Таблица 3. Биграммы (MI-score), выделяющиеся и для лексем, и для словоформ (в порядке убывания значения меры). Материал конференции «Диалог»18

номер биграмма номер биграмма

1 ударном слоге 28 интеллектуальные технологии

2 концептуальных графов 30 корпусная лингвистика

4 внешним посессором 33 отглагольных существительных

5 оперативной памяти 37 знаки препинания

8 вокального жеста 38 педагогической коммуникации

14 крайней мере 42 основного тона

16 XIX века 46 машинного перевода

17 лингвистического процессора 61 устойчивых словосочетаний

21 положение дел 63 точки зрения

22 первую очередь 70 меньшей мере

25 картине мира 72 вряд ли

26 множественного числа 73 предметной области

85 вплоть до

3.2. М1-конструкции

Большинство клише и конструкций выделяется с помощью меры ^соге. Однако некоторые типы клише и конструкций хорошо извлекаются с помощью меры М1 (т. е. основываясь на выраженных сочетаемостных ограничениях). Особенно эти разные типы противопоставлены для новостной коллекции. Прежде всего, эти М1-клише и М1-конструкции носят более казенный и (ква-зи)терминологический характер: злоупотребление должностными полномочиями, причинение тяжкого вреда и т. д.

Общее количество клише в списках подсчитывалось на основании экспертной оценки. Если для новостных биграмм отмечены лишь отдельные случаи: конструкция НАЧИНИТЬ ВЗРЫВ-

18 Меньшую длину списка мы связываем с меньшей однородностью данной коллекции.

ЧАТКА для лексем и обогащению урана для словоформ, — то в списках триграмм для новостной коллекции клише и конструкции составляют, по нашим оценкам, более 30% (30% для словоформ и 35% для лексем). Ниже приводятся примеры:

• для лексем — УМЫСЛИТЬ ПРИЧИНЕНИЕ ТЯЖКИЙ, КРАТКИЙ ИЗЛОЖЕНИЕ ПРИВОДИТЬСЯ, ПОДРЫВ НЕВСКИЙ ЭКСПРЕСС, ПРЕВЫШЕНИЕ ДОЛЖНОСТНОЙ ПОЛНОМОЧИЕ, ПСИХОЛОГИЧЕСКИ ВАЖНЫЙ ОТМЕТКА, ДА ПРИЙТИ СПАСИТЕЛЬ, ТЯЖКИЙ ВРЕД ЗДОРОВЬЕ, ВРЕМЕННО НЕДЕЙСТВУЮЩИЙ ЧЕМПИОН, ЗАСЛУГА ПЕРЕД ОТЕЧЕСТВО, ЭКОНОМИЧЕСКИ АКТИВНЫЙ НАСЕЛЕНИЕ, КРАТКИЙ ИЗЛОЖЕНИЕ ПРИВОДИТЬ, ЗЛОУПОТРЕБЛЕНИЕ ДОЛЖНОСТНОЙ ПОЛНОМОЧИЕ, СОСТОЯНИЕ АЛКОГОЛЬНЫЙ ОПЬЯНЕНИЕ, НАПИСАНИЕ ДАННЫЙ ЗАМЕТКА, ДАТЬ ПРИЗНАТЕЛЬНЫЙ ПОКАЗАНИЕ, ПАДЕНИЕ БЕРЛИНСКИЙ СТЕНА, КРУШЕНИЕ НЕВСКИЙ ЭКСПРЕСС, ОБЪЕДИНИТЬ АВИАСТРОИТЕЛЬНЫЙ КОРПОРАЦИЯ, РАЗЛИЧНЫЙ СТЕПЕНЬ ТЯЖЕСТЬ, ПОКОНЧИТЬ ЖИЗНЬ САМОУБИЙСТВО, ОСВОБОДИТЬ ИЗ-ПОД СТРАЖА;

• для словоформ — злоупотреблении должностными полномочиями, причинение тяжкого вреда, написания данной заметки, превышении должностных полномочий, краткое изложение приводится, совершил аварийную посадку, покончил жизнь самоубийством, превышение должностных полномочий, произошла массовая драка, сработало взрывное устройство, краткое изложение приводит, числятся пропавшими без, такому выводу пришли, фондовые индексы завершили, выглядит следующим образом.

Приведенные примеры показывают, что многие из конструкций имеют явно выраженную предикативность. Так, конструкции с глагольной вершиной составляют 12% от М1-конструкций для словоформ, и 11% — для лексем; с отглагольным существительным — 6% случаев для словоформ и 7% для лексем.

Граница между клише и конструкциями во многих случаях нечеткая. Так, например, должностные полномочия могут сочетаться с злоупотреблением или превышением, с злоупотреблять или превышать. Общая логика заставляет предполагать чуть большую близость клише к конструкциям в случаях с глагольной

вершиной. По-видимому, можно выделить два фактора, в какой-то степени разводящих клише и конструкции: глагольность и интуитивно ощущаемый казенно-канцелярский «аромат» сочетаний. С точки зрения этих двух критериев, наиболее клишированными среди выделяемых сочетаний кажутся конструкции типа такому выводу пришли, фондовые индексы завершили, выглядит следующим образом.

Граница между коллокациями и клише также нечеткая. Результаты анализа полученных списков позволяют предполагать, что признаками, которые можно считать условно разделяющими чистые коллокации и клише, являются казенный колорит и рефе-ренциальный статус. Упоминание последнего признака связано с тем, что «чистые» коллокации чаще всего включают в себя сложные номинации, обозначающие уникальный объект (или информационно важный класс объектов) внеязыковой действительности; клише, как правило, относятся к «традиционным» и сравнительно большим классам объектов внеязыковой действительности, например, ВЕТЕРАН ВЕЛИКИЙ ОТЕЧЕСТВЕННЫЙ, КОЛОНИЯ СТРОГИЙ РЕЖИМ, САМОДЕЛЬНЫЙ ВЗРЫВНОЙ УСТРОЙСТВО.

В целом можно рассматривать признаки, выделяющие единицы класса «клише», как «перпендикулярные» по отношению к противопоставлениям на шкале «коллокация-конструкция»; попадание в класс «клише» отражает скорее стилистические характеристики, а с морфосинтаксической точки зрения, как ясно из обсуждения выше, клише может являться как коллокацией, так и конструкцией. Отметим также, что клише являются неотъемлемой частью газетного стиля, их обилие в новостных текстах, как нам кажется, можно объяснить следующими условиями:

• большое количество информации, полученной из официальных источников, и как следствие, сильное влияние официально-делового функционального стиля;

• требование оперативности, высокая скорость порождения текстов, которая приводит к многократному использованию одних и тех же шаблонов;

• высокие требования к скорости и качеству усвоения информации, которая для этого должна быть представлена в узнаваемой, всегда одной и той же форме.

Эти условия приводят к известной шаблонности новостных текстов, существенно облегчающей их обработку в системах автоматического анализа (можно заметить, что эти системы довольно плохо справляются с художественными и художественно-публицистическмими текстами).

3.3. -соге-конструкции

Множество биграмм, выделяемых с помощью меры ^соге, гораздо более однородно. Даже для новостной коллекции в 80% случаев мы наблюдаем пересечение списка словоформных и лексемных биграмм (ср. Таблицу 4).

Данная мера позволяет выделять высокочастотные колло-кации (в частности, коллокации с высокочастотыми компонентами — прежде всего, предлогами). Она эффективна при поиске «общеязыковых устойчивых сочетаний», вернее, при поиске того, что может рассматриваться как устойчивое сочетание для данной коллекции. В случае с однородной новостной коллекцией эта мера описывает стилистические особенности данной коллекции, независимо от конкретной тематики сообщений. Выделяемые биграммы в основном являются языковыми выражениями, которые используются для указания источников информации (например, по словам, со ссылкой, РИА Новости), а также места и времени (в течение, во время, в России).

Сравнительно многие из рассматриваемых биграмм принято считать единым словом (например, к числу таких биграмм относятся такие составные служебные и дискурсивные слова, как в течение, в качестве, может быть19). Интересно, однако, что наряду с ожидаемыми общеязыковыми устойчивыми сочетаниями в списках присутствуют те единицы, которые можно назвать «собственно общеновостными устойчивыми сочетаниями»: РИА Новости, миллион долларов, миллион рублей, ПО ДАННЫЕ, КАК СООБЩАТЬ, СО ССЫЛКА20.

19 Ср. единицы в Корпусном словаре неоднословных лексических единиц (оборотов) на базе НКРЯ (http://www.ruscorpora.ru/obgrams.html).

20 Это, очевидно, составные части более длинных выражений «как сообщает корреспондент», «по данным агенства», «со ссылкой на», которые оказываются среди наиболее частотных триграмм и п-грамм, состоящих из большего количества слов.

Таблица 4. Биграммы с наиболее высокими значениями меры ^соге (в порядке убывания значения меры). Материал портала lenta.ru 2009 г.

Лексемные биграммы Словоформные биграммы

ОБ ЭТО об этом

ОДИН ИЗ по словам

ПО СЛОВО а также

А ТАКЖЕ со ссылкой

ПО ДАННЫЕ ссылкой на

ССЫЛКА НА по данным

СО ССЫЛКА кроме того

В РЕЗУЛЬТАТ РИА Новости

КРОМЕ ТО этом сообщает

РИА НОВОСТЬ при этом

В ЧАСТНОСТЬ в том

ЭТО СООБЩАТЬ в России

МИЛЛИОН ДОЛЛАР во время

В РОССИЯ пока не

МИЛЛИАРД ДОЛЛАР о том

ВО ВРЕМЯ в результате

ПРИ ЭТО настоящее время

В КОТОРЫЙ миллионов долларов

КАК СООБЩАТЬ связи с

О ТОМ сообщает РИА

В ХОД в результате

В ТОТ в частности

В СВОЙ миллиарда долларов

ПОКА НЕ как сообщает

Выделим несколько основных типов такого рода сочетаний, отражающих особенности новостных текстов (см. Таблицу 4):

• составные служебные и дискурсивные слова, например, в течение, в качестве, в ходе, в частности, в результате, кроме того и близкие к ним конструкции типа пока не;

• сложные номинации, прежде всего, относящиеся к наименованиям источников информации (материал для раздела 3.4, например, РИА Новости), при переходе к более длинным сочетаниям (три и более единиц) они входят в состав конструкций «введения источника информации»;

• колокации-клише (например, миллионов долларов, миллиарда долларов), которые при переходе к более объемным сочетаниям могут входить в состав конструкций;

• сочетания, имеющие все показатели конструкций (как правило, компоненты конструкций «введения источника информации»): с глаголом (например, сообщает РИА, как сообщает, этом сообщает) или с существительным (например, со ссылкой, по ссылкам).

Для научных текстов также выделяется ряд типов ^соге-сочетаний, маркирующих научный функциональный стиль (см. Таблицы 2 и 3). В число таких ^соге-сочетаний входят как составные служебные и дискурсивные слова: (по) крайней мере, (в) первую очередь, (с) точки зрения, (по) меньшей мере, прежде всего, — так и конструкции: дает возможность, зависит от, отличается от — и сходные с ними составные обороты (в) зависимости от, (в) отличие от.

Во введении мы сформулировали — в качестве условного приближения — предположение о том, что производная служебная лексика (например, предлоги в течение, в качестве) и дискурсивные слова (например, по крайней мере, может быть) расположена в некоторой срединной зоне, равноудаленной от «ядерных кодллокаций» и от «ядерных конструкций». Чем выше предикативность (особенно для дискурсивных слов и наречных образований), тем они оказываются ближе к конструкциям. Другим параметром, по которому противопоставлены конкретные единицы, является степень устойчивости: чем она выше, тем эти единицы оказываются ближе к полюсам сосредоточения коллокаций как целостных единиц словаря (мы сейчас абстрагируемся от процессов фразеологизации).

Таким образом, в предлагаемой схеме — в соответствии с признаком предикативности — сочетания в зависимости от и в отличие от находятся ближе к середине, а зависит от и отличается от — чуть ближе к конструкциям.

Степень устойчивости и/или связанности сочетаний уточняется на основании результатов серии экспериментов с информантами и дальнейшей лингвистической интерпретации полученных результатов (подробнее см. [Савина, Ягунова 2011;

Yagunova, Savina 2011])21. Результаты экспериментов позволили установить дополнительные шкалы, опирающиеся уже не только на значения статистических мер, но и на связанность, ощущаемую носителями языка и эксплицируемую в ходе экспериментов. Такой комплексный экспериментальный подход выявил зоны нестабильности в отношении ряда сочетаний (терминологических сочетаний, сложных номинаций, производных служебных слов и т. д.).

В качестве примера зон нестабильности (в соответствии с введением дополнительных шкал, соответствующим результатам экспериментов) приведем некоторые данные по устойчивым сочетаниям (производным служебным словам). Для научных текстов сочетания в частности и с помощью характеризуются большей целостностью и связанностью, чем в качестве, за счет, на основе .Такие сочетания, как с одной стороны, с другой стороны, по сравнению с и в отличие от характеризуются меньшей целостностью, чем с точки зрения и в соответствии с. Таким образом, например, морфологическая цельнооформленность в отличие от не явилась для наивных носителей языка (участников эксперимента) решающим признаком для признания высокого уровня целостности и связанности.

Аналогично, для новостной коллекции такие сочетания, как, например, этом сообщает, в результате являются менее целостными, чем как сообщает, по данным. Сочетания сообщает РИА Новости, об этом сообщается обладают большей целостностью и связанностью, чем новости со ссылкой, по его словам, об этом сообщает.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Данные экспериментов демонстрируют также зависимость от функционального стиля (типа коллекции), например, в частности и (в) том числе характеризуется большей целостностью для научных текстов, чем для новостных (подробнее см. [Савина, Ягунова 2011]).

На рассматриваемом нами материале типичными представителями конструкций («ядерными конструкциями») являются

21

Надеемся, что в ближайших публикациях мы сможем показать специфику принятия решения испытуемыми при оценке степени устойчивости-связанности и дать более тщательную лингвистическую интерпретацию параметров, влияющих на принятие решения.

«конструкции ввода информации» в новостных текстах. В Таблице 5 мы привели верхушку списка частотных «пятиграмм». Напомним, что «пятиграммы» выделялись на основании частоты встречаемости коллокации: для больших п мера ^соге как аппроксимация частоты оказывается избыточной (см. раздел 2.2.1).

Из Таблицы 5 на следующей странице видно, что среди первых тридцати наиболее частотных «пятиграмм» встретилось двадцать семь конструкций ввода информации. Из рассматриваемого набора только два сочетания не имели функции введения источника информации. Кроме того, мы не стали исключать слова, написанные латиницей, для иллюстрации того, что в состав этих конструкций в принципе могут входить наименования информационных агентств любого типа.

Наиболее частотная схема такой конструкции может быть представлена в следующем виде: 1-2 (об этом) + 3 глагол (сообщает, сообщается, пишет, говорится и др.) + 4 название информационного агентства + 5-7 со ссылкой (на) + 8 источник информации.

В текстах портала «Лента.ру» наиболее часто в состав конструкции входит глагол сообщает или сообщается.

Для того чтобы выявить другие глаголы, возможные в этой позиции, было проведено дополнительное исследование [Ягунова и др. 2011]. Предварительные результаты статистического анализа шести информационных источников свидетельствуют о том, что конструкции «введения источника информации» и особенно глагол, находящийся в вершине такой конструкции, характеризуют информационные источники, в первую очередь с точки зрения их главной функции — информационной или публицистической. Портал «Лента.ру» относится к ярко выраженным информационно насыщенным источникам (новостные ленты и близкие к ним формы подачи материала). Среди рассмотренных информационных источников к информационно насыщенным — ведущим себя в целом аналогично коллекции портала «Лента.ру» — относятся «РИА Новости», «РосБизнесКонсалтинг», «Компью-лента». Наиболее яркие свойства публицистической направленности (подчеркнутого внимания к адресату) проявляются для «Независимой газеты» [Ягунова и др. 2011].

Таблица 5. Наиболее частотные «пятиграммы», являющиеся «конструкциями ввода информации» в новостных текстах. Материал портала lenta.ru 2009 г. (в порядке убывания частоты встречаемости)

«пятигр амма» Частота (ipm)

РИА Новости со ссылкой на 12678

сообщает РИА Новости со ссылкой 11048

сообщает Интерфакс со ссылкой на 10079

со ссылкой на источник в 9354

Об этом сообщает РИА Новости 9149

(об) этом сообщает РИА Новости со22 6845

на источник в правоохранительных органах 6733

(со) ссылкой на источник в правоохранительных 6688

Об этом сообщает официальный сайт 6446

Об этом сообщается в пресс-релизе 6230

агентство Интерфакс со ссылкой на 6083

Об этом сообщает Интерфакс со 5982

(об) этом сообщает Интерфакс со ссылкой 5982

сообщает AFP со ссылкой на 5880

Об этом пишет газета Коммерсант 5841

Новости со ссылкой на источник 5683

Об этом пишет газета Ведомости 5670

Интерфакс со ссылкой на источник 5438

сообщает ИТАР-ТАСС со ссылкой на 5002

сообщает агентство Интерфакс со ссылкой 4987

Об этом сообщает Associated Press 4941

Об этом сообщается на сайте 4925

Интерфакс со ссылкой на пресс-службу 4895

Об этом говорится в официальном 4591

газета Ведомости со ссылкой на 4508

Новости со ссылкой на пресс-службу 4440

газета Коммерсант со ссылкой на 4388

22

Здесь и далее в скобках приводится расширение «пятиграммы» до полной конструкции; анализ шестиграмм в данной работе не производился, однако такое расширение является достаточно достоверным в силу большой степени пересечений между конструкциями.

Такое различие проявляется, например, в том, что для «Независимой газеты» биграмма ссылкой на стоит на 1551-м месте среди словоформных биграмм, упорядоченных по значению меры ^соге, а со ссылкой — на 1591-м месте. Среди лексем первая биграмма со словом «сообщать» — КАК СООБЩАТЬ — стоит на 967-м месте, следующая — СООБЩАТЬ ИНТЕРФАКС — на 5096-м и т. д. Ср. также с данными «Статистического словаря русской газеты» А. Я. Шайкевича [Шайкевич и др. 2008]: сообщается 492, сообщать — 1614, сообщаться — 29, сообщение — 2488, сообщить — 8248 (корпус 1997-го года, 15 млн. словоупотреблений). Как можно видеть, несмотря на то, что само по себе слово сообщать и однокоренные ему слова достаточно частотны в новостных текстах, конструкции с ними нашими методиками на материале «Независимой газеты» не выделяются, в отличие от обсуждавшейся выше «Ленты.т».

Для «Независимой газеты» наиболее частотными глаголами в коммуникативной функции оказываются сказать, говорить, считать, заявить. Вместо ранее обсуждаемых газетных клише в «Независимой газете» используются более привычные «негазетные» способы передачи информации; эти способы весьма разнообразны, и потому сложно выделить частотные п-граммы, которые можно было бы назвать конструкциями ввода источника информации. В текстах «Независимой газеты» наиболее частотными сочетаниями оказываются те, которые характерны для текстов-интервью: отвечать на вопросы (чуть реже отвечать на вопрос), обратились к X, где X — это президенту, правительству, главе, руководству и т. д. (перечислены в порядке убывания частоты встречаемости).

3.4. -соге-коллокации

Как уже было сказано, данная мера используется гораздо реже, чем мера М1, поскольку она является лишь несколько модифицированным ранжированием коллокаций по частоте. Обычно она считается малопригодной для поиска информационно важных номинаций и терминологических словосочетаний.

Однако все зависит от контекста, в данном случае от степени монотематичности и однородности коллекции. Так, в процессе работы над новостными коллекциями мы обнаружили, что эта мера оказывается полезна для выделения тех единиц, которые

характеризуют все тексты коллекции (или их подавляющее большинство). Основная масса таких сочетаний характеризует скорее особенности стиля текстов коллекции; впрочем, используя минимальный морфологический фильтр из списков ^соге-коллокаций, мы могли выделить те сочетания, которые могут рассматриваться как терминологические. Таким образом был получен список терминологических биграмм, общих для всех (или подавляющего большинства) текстов рассматриваемых коллекций (см. Таблицы 6 и 7).

Таблица 6. Терминологические биграммы (^соге), выделяющиеся и для лексем, и для словоформ. Материал конференции «Диалог»

лексемные биграммы словоформные биграммы

РУССКИМ ЯЗЫК русского языка

русском языке

предметный область предметной области

Таблица 7. Терминологические биграммы (^соге),

выделяющиеся и для лексем, и для словоформ. Материал конференции «Корпусная лингвистика»

лексемные биграммы словоформные биграммы

РУССКИЙ ЯЗЫК русского языка

русский язык

КОРПУС ТЕКСТ корпус текстов

корпуса текстов

НАЦИОНАЛЬНЫЙ КОРПУС национального корпуса

национальный корпус

ЧАСТЬ РЕЧЬ части речи

частей речи

АНГЛИЙСКИЙ ЯЗЫК английского языка

КОРПУС РУССКИЙ корпус русского

корпуса русского

МАШИННЫЙ ПЕРЕВОД машинного перевода

СЕМАНТИЧЕСКИЙ РАЗМЕТКА семантической разметки

ПРЕДМЕТНЫЙ ОБЛАСТЬ предметной области

ЛЕКСИЧЕСКИЙ ЕДИНИЦА лексических единиц

ПАРАЛЛЕЛЬНЫЙ ТЕКСТ параллельных текстов

Анализ списков терминологических биграмм, общих для всех (или подавляющего большинства) текстов (^соге-биграмм-коллокаций) рассматриваемых коллекций, приводит нас к следующим выводам.

1. Тематика конференции «Диалог» настолько широка, что на основании общих терминологических сочетаний мы могли бы сделать вывод лишь о том, что, как правило, в качестве основного материала исследований выступает русский язык, который изучается на материале из различных предметных областей.

2. Представляемые на «Корпусной конференции» исследования чаще всего ориентированы на русский язык или английский язык. В качестве материала (и/или объекта исследования) в большинстве работ выступает корпус текстов, при этом особое внимание уделяется лексическим единицам (частям речи, семантической разметке лексических единиц). Многие исследования ориентированы на решение вопросов машинного перевода и связаны с текстами заранее заданной предметной области. Таким образом, выводы касательно тематики конференции, полученные на основании нашей методики, согласуются с традиционной анонсируемой тематикой конференции, что отражено в наборе «общих» терминологических сочетаний.

Заметим, что именно биграммы (а не триграммы и далее п-граммы) дают на нашем материале наиболее информационно насыщенную картину. Впрочем, возможно, что одна из причин этого лежит в сравнительно небольшом корпусе материалов конференции «Корпусная лингвистика» (см. раздел 2.1).

По-видимому, чем выше однородность коллекции, тем более информативным окажется набор подобных ^соге-биграмм-коллокаций для описания коллекции как целостного информационного потока (обзор математических моделей информационных потоков см., например, в [Ландэ и др. 2009], о некоторых методах работы с информационными потоками в русле лингвистики текста см. в [Антонов, Ягунова 2010]).

4. Заключение

В данной статье мы обсудили неоднозначность терминов «коллокация» и «конструкция», причины, следствия и возможные пути разрешения этой неоднозначности. В качестве основных

направлений анализа для разграничения этих двух типов неоднословных целостностей мы назвали: принципы сплошного анализа материала и учета контекста (от специально подобранных коллекции до единичных текстов), статистический способ выделения потенциальных коллокаций и конструкций и, конечно, шкалирование (прежде всего, определение положения той или иной единицы на пути от коллокаций к конструкциям). Были рассмотрены возможные направления исследования неоднословных единиц, статистические характеристики, описывающие тип и степень неслучайности (устойчивости), а также зависимость статистических характеристик и списков выделяемых единиц — коллокаций и конструкций — от контекста, причем от контекста разных типов.

Основное положение, которое лежит в основе предложенного подхода, заключается в том, что статистически значимая неслучайность сочетания имеет несомненное лингвистическое значение, т. к. она является косвенным признаком наличия устойчивой семантической и/или синтаксической связи между языковыми единицами, и позволяет проверять достоверность выделения той или иной неоднословной целостности как самостоятельной единицы.

Систему языка в целом мы представляем как стратифицированную систему кодов (языков), обслуживающих разные коммуникативные ситуации или разные типы текстов (функциональные стили, жанры, предметные области и т. д.). Естественным следствием возможностей использования статистических методов является корпусной подход с последовательно иерархическим способом формирования коллекций .

Исследование отдельных текстов в рамках рассматриваемых коллекций позволяет проследить формирование и функционирование коллокаций при обработке текста, учесть ближайший текстовый контекст анализируемой единицы. Такой анализ в наибольшей степени ориентируется на процедуры, используемые человеком при анализе текста, недаром именно в этой части максимально согласуются друг с другом вычислительные экспери-

23

Наши коллекции также могут именоваться корпусами, т. к. коллекции-корпуса тщательно подбираются с учетом основных параметров метаразметки (стиль, жанр, предметная область или тематика, источник и т. д.), имеют морфологическую разметку.

менты и эксперименты с носителями языка [Ягунова, Пивоварова 2011; Касевич, Ягунова 2006; Ягунова 2008б].

Этот подход определяется тем, что главным для нас является опора на контекст — на коллекцию текстов или даже единичные тексты из этой коллекции. Мы в своем исследовании языка и речи идем от реализации, от имеющегося в нашем распоряжении материала. Именно материал диктует возможность выбора тех или иных теоретических положений и принципов классификации.

В данной статье разрабатываются базовые принципы анализа большого и неоднородного материала, полученного в ходе разнообразных вычислительных экспериментов, вызванных необходимостью сплошного статистического анализа неоднословных единиц.

В статье предлагается схема классификации, задающей основные параметры движения по шкале (-ах) «от коллокации к конструкции» с нечеткими границами. Шкалу «коллокация-конструкция» в ряде случаев должно рассматривать как систему из нескольких сходных шкал «от парадигматических к синтагматическим единицам»; «от инвентарных к конструктивным единицам (ср. [Касевич 1977; Касевич 1988]); «от лексикона к синтаксису» и «от номинаций к предикативным единицам».

Положения данной классификации представляются набором гипотез, с одной стороны, уже верифицированных, а с другой — требующих дальнейшей верификации с учетом все большего числа параметров (прежде всего, контекстно-ориентированных).

Коллокации, соответствующие неоднословным номинациям, в максимальной степени могут претендовать на статус типичных, «ядерных», коллокаций, т. е. полюса на шкале «от коллока-ций к конструкциям». В этом смысле можно было бы представить себе даже более развернутую шкалу: от слова до коллока-ции, от колокации к конструкции, где «коллокация» оказывается промежуточным звеном при движении на расширенной шкале «от слова к конструкции».

Конструкции, напротив, чаще всего представляют собой единицы скорее синтаксического плана. Типичные, «ядерные», конструкции обладают свойством предикативности, понимаемой как потенциальная способность занять позицию предиката в

предложении. Наиболее явная предикативность будет у сочетаний с вершиной в виде глагола в личной форме (хотя, конечно, способы выражения предикативности в тексте не исчерпываются этим типом сочетаний).

Предикативные образования, обладающие высокой степенью воспроизводимости и/или идиоматичности, будут, по всей видимости, распределены по шкале(-ам) движения от коллокации к конструкции ближе к конструкциям. Примеры медведь на ухо наступил, ломиться в открытую дверь, плакать навзрыд, в стельку пьяный и т. д. окажутся одновременно в зоне предикативных единиц и в зоне инвентарных единиц. Однако для того, чтобы о них зашла речь, необходимо, чтобы они оказались реализованными и неслучайными в текстах и — соответственно — чтобы их можно было выделить с помощью статистических мер.

На анализируемом материале наиболее типичными представителями конструкций («ядерными конструкциями») являются «конструкции ввода информации» в новостных текстах. В текстах портала «Лента.ру» наиболее часто в состав конструкции входит глагол сообщает или сообщается (например, об этом сообщает РИА Новости со ссылкой на X, где X — источник информации), большинство такого рода конструкций — это частотные и стандартные «клише». Для «Независимой газеты» — источника с другими стилевыми характеристиками — наиболее частотными глаголами в этой функции оказываются сказать, говорить, считать, заявить (например, отвечать на вопросы, обратились к X, где X — это президенту, правительству, главе, руководству и т. д.).

В данной статье, помимо основной шкалы коллокация-конструкция, мы рассматриваем также «перпендикулярный» к ней класс клише. Клише являются неотъемлемой частью новостного и официально-делового стиля, а с морфосинтаксической точки зрения могут быть как коллокациями, так и конструкциями.

Производная служебная лексика (например, предлоги в течение, в качестве) и дискурсивные слова (например, по крайней мере, может быть) расположены в некоторой срединной зоне на шкале коллокация-конструкция. Положение конкретной единицы на данной шкале может определяться на основе таких параметров, как предикативность (ключевое свойство конструкции) и

устойчивость (это свойство характерно в первую очередь для коллокаций). Например, в предлагаемой схеме — в соответствии с признаком предикативности — сочетания в зависимости от и в отличие от находятся ближе к середине, а зависит от и отличается от — чуть ближе к конструкциям.

В заключение хотелось бы присоединиться к следующим положениям: «Возможности создания (...) грамматик (и словарей. — Е. Я., Л. П.) определяются следующими факторами, характеризующими современное состояние лингвистической науки:

1. Достаточной развитостью полученных на основании изучения текстов знаний о грамматических системах конкретных языков и грамматики в целом.

2. «Воссоединением» лингвистики с другими науками о человеке (а также информатикой и автоматическим анализом текста. — Е. Я., Л. П.).

3. Революционными процессами в области развития технологии лингвистического исследования. (...) Самым важным в области методологии является возможность обращения к различным Интернет-ресурсам, в первую очередь к большим массивам данных, организованным в корпусы. Появление новых методологических возможностей позволяет решать вопросы, которые накапливались в лингвистике в течение десятилетий» [Русакова 2009].

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Литература

Антонов, Ягунова 2010 — А. В. Антонов, Е. В. Ягунова. Охват содержимого информационных потоков путем анализа сверток текстов // Труды 12-й Всероссийской научной конференции RCDL'2010 «Электронные библиотеки: перспективные методы, технологии, электронные коллекции» (Казань, 13-17 октября 2010 года). Казань: Изд-во К(П)ФУ, 2010. С. 79-84. Бирюк и др. 2008 — О. Л. Бирюк, В. Ю. Гусев, Е. Ю. Калинина. Словарь глагольной сочетаемости непредметных имен русского языка. 2008. (http://dict.ruslang.ru/abstr_noun.php) Богданов, Рыжова 1997 — С. И. Богданов, Ю. В. Рыжова. Русская служебная лексика. Сводные таблицы. СПб.: Изд-во СПбГУ, 1997. Иорданская, Мельчук 2007 — Л. Н. Иорданская, И. А. Мельчук. Смысл

и сочетаемость в словаре. М.: Языки славянских культур, 2007. Касевич 1977 — В. Б. Касевич. Элементы общей лингвистики. М.: Наука, ГРВЛ, 1977.

Касевич 1988 — В. Б. Касевич. Семантика. Синтаксис. Морфология. М.: Наука, 1988.

Касевич, Ягунова 2004 — В. Б. Касевич, Е. В. Ягунова. Перцептивный словарь взрослых и детей // Т. И. Ерофеева (отв. ред.). Проблемы социо- и психолингвистики: Сб. статей. Вып. 6. Пермь: Изд-во Перм. ун-та, 2004. С. 19-25.

Касевич, Ягунова 2006 — В. Б. Касевич, Е. В. Ягунова. Корпуса письменных текстов и моделирование восприятия речи // Вестник СПбГУ [Серия 2] 3, 2006. С. 20-32.

Клышинский и др. 2010 — Э. С. Клышинский, Н. А. Кочеткова, М. И. Литвинов, В. Ю. Максимов. Автоматическое формирование базы сочетаемости слов на основе очень большого корпуса текстов // А. Е. Кибрик (гл. ред.). Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 26-30 мая 2010 г.). Вып. 9(16). М.: Изд-во РГГУ, 2010. C. 181-185.

Копотев 2008 — М. В. Копотев. Принципы синтаксической идиомати-зации. Хельсинки: Helsinki University Press, 2008.

Кустова 2008 — Г. И. Кустова. Словарь русской идиоматики. Сочетания слов со значением высокой степени. 2008. (http://dict.ruslang.ru/ magn.php)

Ландэ и др. 2009 — Д. В. Ландэ, А. А. Снарский, И. В. Безсуднов. Ин-тернетика. Навигация в сложных сетях: модели и алгоритмы. М.: Либроком, 2009.

Мельчук 1960 — И. А. Мельчук. О терминах «устойчивость» и «идио-матичность» // Вопросы языкознания 4, 1960. С. 73-80.

Пивоварова 2010 — Л. М. Пивоварова. Устойчивые конструкции, характеризующие тексты СМИ // Т. Г. Скребцова (ред.). Материалы XXXIX Международной филологической конференции: Прикладная и математическая лингвистика. СПб.: СПбГУ, 2010. С. 50-55.

Пивоварова, Ягунова 2010 — Л. М. Пивоварова, Е. В. Ягунова. Извлечение и классификация терминологических коллокаций на материале лингвистических научных текстов (предварительные наблюдения) // С. Д. Шелов (отв. ред.). Терминология и знание. Материалы II Международного симпозиума (Москва, 21-22 мая 2010 г.). М.: Изд. центр «Азбуковник», 2010. С. 215-219.

Русакова 2009 — М. В. Русакова. Речевая реализация грамматических элементов русского языка. Автореф. дисс. ... докт. филол. наук. СПбГУ, СПб., 2009.

Савина, Ягунова 2011 — А. В. Савина, Е. В. Ягунова. Исследование кол-локаций с помощью экспериментов с информантами // В. П. Захаров (отв. ред.). Труды международной конференции «Корпусная

лингвистика — 2011». 27-29 июня 2011 г., Санкт-Петербург. СПб.: СПбГУ, Филологический факультет, 2011. С. 303-308.

Фрумкина (отв. ред.) 1971 — Р. М. Фрумкина (отв. ред.). Вероятностное прогнозирование в речи. Сб. статей. М.: Наука, 1971.

Фрумкина (отв. ред.) 1974 — Р. М. Фрумкина (отв. ред.). Прогноз в речевой деятельности. М.: Наука, 1974.

Шайкевич и др. 2008 — А. Я. Шайкевич, В. М. Андрющенко, Н. А. Ребецкая. Статистический словарь языка русской газеты (1990-е годы). М.: Языки славянских культур, 2008.

Ягунова 2008а — Е. В. Ягунова. Вариативность стратегий восприятия звучащего текста (экспериментальное исследование на материале русскоязычных текстов разных функциональных стилей). Пермь: Изд-во Перм. ун-та, 2008.

Ягунова 2008б — Е. В. Ягунова. Исследование контекстной предсказуемости единиц текста с помощью корпусных ресурсов // А. С. Герд, В. П. Захаров, О. А. Митрофанова (отв. ред.). Труды международной конференции «Корпусная лингвистика — 2008». СПб.: С.-Петербургский гос. университет, Факультет филологии и искусств, 2008. С. 396-403.

Ягунова и др. 2011 — Е. В. Ягунова, Л. М. Пивоваров, Э. С. Клышин-ский. Коммуникативная функция глаголов в газетных и научных текстах // Материалы конференции «Понимание в коммуника-ции-5». Сб. работ. М.: МГПУ, 2011. С. 206-209.

Ягунова, Пивоварова 2010а — Е. В. Ягунова, Л. М. Пивоварова. Природа коллокаций в русском языке. Опыт автоматического извлечения и классификации на материале новостных текстов // Научно-техническая информация [Серия 2] 6, 2010. С. 30-40.

Ягунова, Пивоварова 2010б — Е. В. Ягунова, Л. М. Пивоварова. Извлечение и классификация коллокаций на материале научных текстов. Предварительные наблюдения // V Международная научно-практическая конференция «Прикладная лингвистика в науке и образовании» памяти Р. Г. Пиотровского (1922-2009): Материалы. СПб.: Лема, 2010. С. 356-364.

Ягунова, Пивоварова 2011 — Е. В. Ягунова, Л. М. Пивоварова. Исследование структуры новостного текста как последовательности связных сегментов // А. Е. Кибрик (гл. ред.). Компьютерная лингвистика и интеллектуальные технологии. По материалам ежегодной международной конференции «Диалог». Выпуск 10 (17). М.: РГГУ, 2011. С. 698-711.

Barlow, Kemmer (eds.) 2000 — M. Barlow, S. Kemmer (eds.). Usage-Based Models of Language. Stanford, Calif.: CSLI Publications, 2000.

Boulis 2002 — С. Boulis. Clustering of Cepstrum Coefficients Using Pair-wise Mutual Information. Technical Report EE516. Seattle: University of Washington, 2002.

Church et al. 1991 — K. Church, W. Gale, P. Hanks, D. Hindle. Using statistics in lexical analysis // U. Zernik (ed.). Lexical Acquisition. Engle-wood Cliff — NJ: Erlbaum, 1991. P. 115-64.

Church, Hanks 1990 — K. Church, P. Hanks. Word association norms, mutual information, and lexicography // Computational Linguistics 16(1), 1990. P. 22-29.

Croft 2001 — W. Croft. Radical Construction Grammar. Syntactic Theory in Typological Perspective. Oxford: Oxford University Press, 2001.

Croft, Cruse 2004 — W. Croft, A. Cruse. Cognitive Linguistics. Cambridge: Cambridge University Press, 2004.

Daudaravicius 2010 — V. Daudaravicius. Automatic identification of lexical units // Informatica 34, 2010. P. 85-91.

Fillmore 1999 — Ch. J. Fillmore. Inversion and constructional inheritance // G. Webelhuth, J. Koenig, A. Kathol (eds.). Lexical and Constructional Aspects of Linguistic Explanation. Stanford, Ca: CSLI, 1999. P. 113-128.

Fillmore et al. 1988 — Ch. J. Fillmore, P. Kay, M. C. O'Connor. Regularity and idiomaticity in grammatical constructions: the case of let alone // Language 64, 3, 1988. P. 501-538.

Fillmore et al. 2012 — Ch. J. Fillmore, R. R. Lee-Goldman, R. Rhomieux. The FrameNet Constructicon // H. C. Boas, I. A. Sag (eds.). Sign-based Construction Grammar. Stanford: CSLI, 2012. P. 309-372.

Fillmore, Kay 1993 — Ch. J. Fillmore, P. Kay. Construction Grammar Coursebook. Manuscript. Berkeley: University of California at Berkeley, Department of linguistics, 1993.

Firth 1957 — J. R. Firth. Papers in Linguistics. 1934-1951. London: Oxford University press, 1957.

Firth 1968 — J. R. Firth. Selected Papers of J. R. Firth, 1952-1959. London: Longmans, Green & Co., 1968.

Fried, Ostman 2004 — M. Fried, J.-O. Ostman. Construction grammar: a thumbnail sketch // M. Fried, J.-O. Ostman (eds.). Construction Grammar in a Cross-language Perspective. Amsterdam — Philadelphia: John Benjamins, 2004. P. 11-86.

Goldberg 1995 — A. E. Goldberg. A Construction Grammar Approach to Argument Structure. Chicago: University of Chicago Press, 1995.

Goldberg 2006 — A. E. Goldberg. Constructions at Work: The Nature of Generalization in Language. Oxford: Oxford University Press, 2006.

Halliday 1966 — M. Halliday. Lexis as a Linguistic Level // C. Bazell, J. Catford, M. Halliday, R. Robins (eds.). In Memory of J. R. Firth. London: Longman, 1966. P. 150-161.

Iordanskaja, Paperno 1996 — L. Iordanskaja, S. Paperno. A Russian-English Collocational Dictionary of the Human Body. Columbus (Ohio): Slavica, 1996.

Lagus et al. 2009 — K. Lagus, O. Kohonenand, S. Virpioja. Towards unsupervised learning of constructions from text // M. Sahlgren, O. Knutsson (eds.). Proceedings of the Workshop on extracting and using constructions in NLP of 17 th Nordic Conference on Computational Linguistics. Odense: SICS, 2009. P. 16-21.

Manning, Schutze 2002 — C. Manning, H. Schutze. Collocations // C. Manning, H. Schutze. Foundations of Statictical Natural Language Processing. Cambridge (Mass.): MIT Press, 2002. P. 151-189.

Masini 2005 — F. Masini. Multi-word Expressions between Syntax and the Lexicon: the case of Italian Verb-particle Constructions. SKY // Journal of Linguistics 18, 2005. P. 145-173.

Mel'chuk 1995 — I. A. Mel'chuk. Phrasemes in Language and Phraseology in Linguistics // M. Everaert, E.-J. van der Linden, A. Schenk, R. Schreuder, R. Schreuder (eds.). Idioms: Structural and Psychological perspectives. New Jersy: Hillsdale, 1995. P. 167-232.

Muischnek, Sahkai 2009 — K. Muischnek, H. Sakhai. Using collocation-finding methods to extract constructions and to estimate their productivity // M. Sahlgren, O. Knutsson (eds.). Proceedings of the Workshop on extracting and using constructions in NLP of 17th Nordic Conference on Computational Linguistics. Odense: SICS, 2009. P. 22-27.

Petrovic et al. 2006 — S. Petrovic, J. Snajder, B. D. Basic, M. Kolar. Comparison of collocation extraction for document indexing // Journal of Computing and information technology 14, 4, 2006. P. 321-327.

Stubbs 1995 — M. Stubbs. Collocations and semantic profiles: on the case of the trouble with quantitative studies // Functions of language 2 (1), 1995. P. 23-55.

Su et al. 1994 — K.-Y. Su, M.-W. Wu, J.-S. Chang. A Corpus-based Approach to Automatic Compound Extraction // Proceedings, 32nd Annual Meeting of the ACL. Las Cruces, NM, ACL, 2004. P. 242-247.

Tadic, Sojat 2003 — M. Tadic, K. Sojat. Finding multiword term candidates in Croatian // M. Cunningham (ed.). Proceedings of IESL2003 Workshop. Borovets, Bulgarian Academy of Sciences, 2003. P. 102-107.

Yagunova, Savina 2011 — E. Yagunova, A. Savina. The Experimental Study of Terminology Collocations: Calculations and Experiments with Informants // T. Gornostay, A. Vasiljevs, I. Skadina (eds.). Proceedings of the workshop on creation, harmonization and application of terminology resources: CHAT 2011 (May 11, 2011) [NEALT Proceedings Series]. 2011. P. 40-43.

i Надоели баннеры? Вы всегда можете отключить рекламу.