Научная статья на тему 'Принципы создания «Частотного грамматико-семантического словаря языка произведений А. П. Чехова»'

Принципы создания «Частотного грамматико-семантического словаря языка произведений А. П. Чехова» Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
413
50
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
А. П. ЧЕХОВ / ПРОЗА И ДРАМАТУРГИЯ А. П. ЧЕХОВА / СЛОВАРЬ ЯЗЫКА ПРОИЗВЕДЕНИЙ А. П. ЧЕХОВА / ЭЛЕКТРОННЫЙ КОРПУС ЧЕХОВСКИХ ПРОИЗВЕДЕНИЙ / ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ «КИИС "ИСТОК"» / A. P. CHEKHOV / A. P. CHEKHOV'S PROSE AND PLAYS / CONCORDANCE OF A. P. CHEKHOV / ELECTRONIC TEXT CORPUS OF A. P. CHEHOV'S WORKS / COMPUTER PROGRAM "KIISA 'ISTOK'"

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Суровцева Екатерина Владимировна

В статье описываются принципы создания «Частотного грамматико-семантического словаря языка произведений А. П. Чехова (с приложением Электронного корпуса текстов)» и Электронного корпуса текстов А. П. Чехова. Работа над Словарём и Корпусом завершена в лаборатории общей и компьютерной лексикологии и лексикографии филологического факультета Московского государственного университета имени М. В. Ломоносова. Описываются также основные возможности, предоставляемые программным обеспечением «КИИС "ИСТОК"», разработанным в лаборатории для работы с Корпусом.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

PRINCIPLES UNDERLYING FREQUENCY GRAMMATICAL-SEMANTIC CONCORDANCE OF A. P. CHEKHOV

The article formulates principles underlying "Frequency Grammatical-semantic concordance of A. P. Chehov (supplemented by Electronic text corpus)" and the Electronic text Corpus itself. The concordance and corpus project was accomplished by the Laboratory of general and computer lexicology and lexicography of Philological faculty of Moscow State University. The paper also considers prospects offered by computer program "KIISa 'ISTOK'" created at the laboratory for the Corpus.

Текст научной работы на тему «Принципы создания «Частотного грамматико-семантического словаря языка произведений А. П. Чехова»»

which he aligns system relations while describing vernacular in general explanatory dictionaries of different historical periods.

Key words: standard dictionary, dictionary labels, literary vernacular, non-standard vernacular, substandard vocabulary, restricted usage vocabulary.

© 2011

Е. В. Суровцева

ПРИНЦИПЫ СОЗДАНИЯ «ЧАСТОТНОГО ГРАММАТИКО-СЕМАНТИЧЕСКОГО СЛОВАРЯ ЯЗЫКА ПРОИЗВЕДЕНИЙ

А. П. ЧЕХОВА»

В статье описываются принципы создания «Частотного грамматико-семантическо-го словаря языка произведений А. П. Чехова (с приложением Электронного корпуса текстов)» и Электронного корпуса текстов А. П. Чехова. Работа над Словарём и Корпусом завершена в лаборатории общей и компьютерной лексикологии и лексикографии филологического факультета Московского государственного университета имени М. В. Ломоносова. Описываются также основные возможности, предоставляемые программным обеспечением «КИИС "ИСТОК"», разработанным в лаборатории для работы с Корпусом.

Ключевые слова: А. П. Чехов, проза и драматургия А. П. Чехова, Словарь языка произведений А. П. Чехова, Электронный Корпус чеховских произведений, программное обеспечение «КИИС "ИСТОК"».

В настоящий момент в лаборатории общей и компьютерной лексикологии и лексикографии (ЛОКЛЛ) филологического факультета Московского государственного университета им. М. В. Ломоносова, которой заведует А. А. Поликарпов, завершена работа над «Частотным грамматико-семантическим словарём языка художественных произведений А. П. Чехова» (авторы О. В. Кукушкина, Е. В. Суровцева, Д. Ю. Рюдигер, Л. В. Лапонина; под общей редакцией А. А. Поликарпова), посвящённым 150-летию со дня рождения А. П. Чехова. Данный словарь является первым полным словарём языка художественных произведений А. П. Чехова. Он создан на основе анализа 600 текстов, в число которых вошли все законченные прозаические и драматические произведения писателя (17 пьес и 583 прозаических произведения без вариантов и редакций). Тексты исследовались по академическому собранию сочинений писателя [Чехов 1974-1983].

Основой для Словаря послужил созданный в ЛОКЛЛ Электронный корпус художественных произведений А. П. Чехова. Корпус входит в Словарь в качестве электронного приложения и даёт читателю возможность ознакомиться со всеми

Суровцева Екатерина Владимировна — кандидат филологических наук, старший научный сотрудник Московского государственного университета им. М. В. Ломоносова. E-mail: surovceva-ekaterina@yandex.ru, chzhong.a@bk.ru

контекстами употреблений словарных единиц и с теми произведениями, в которых используется та или иная единица.

Таким образом, данная работа представляет собой лексикографический продукт нового типа, в котором реализовано сочетание Словаря и Электронного корпуса текстов. Это сочетание представляется нам принципиально важным и перспективным, так как оно создаёт новые возможности для работы со Словарём и для дальнейшего самостоятельного исследования особенностей языка и творчества писателя.

Сначала остановимся на составе словаря и общих принципах группировки единиц.

В Словаре три раздела: Общий словарь; Подсловари; Частотные таблицы.

Общий словарь содержит 34 752 заглавных слова (включая цифры, средства нумерации списков, компоненты фраз на иностранных языках). Число слов с учётом вариантов — 36 289. Общий объём словоупотреблений, которые отражает данный Словарь, — 1 257 115.

Словарь организован в соответствии с грамматико-семантическим, а не частотным или алфавитным принципом. Частотная информация дана здесь как дополнительная. Сначала даются имена собственные вместе с производными от них словами разных частей речи. Как показал анализ, в текстах А. П. Чехова представлены четыре основных денотативных типа имён собственных: 1) имена лиц, 2) клички животных, 3) названия кораблей, 4) топонимы, этнонимы и т. п. Эти типы слов описываются в Словаре отдельно, но в составе общей группы «Имена собственные».

Слова, не являющиеся именами собственными (и их производными), разделяются на группы с учётом частеречной принадлежности. Это разделение имеет некоторые особенности по сравнению с традиционным делением слов на части речи. Во-первых, слова знаменательных частей речи разделены только на три класса: 1) существительные; 2) глагольные слова; 3) неглагольные признаковые слова. Это позволяет объединить разные в грамматическом отношении, но близкие лексически единицы (напр., глагол вспыхнуть и бессвязочный предикатив вспых). В идеале, в группу признаковых слов нужно было бы поместить и существительные-синтаксические дериваты (вспышка и т. п.), однако сведение слов в гиперлексемы — особая задача, работа над которой ещё только ведётся. Во-вторых, местоимённая лексика не выделяется в самостоятельный класс и даётся в начале каждого из трёх основных классов, на которые разделены знаменательные части речи, в качестве особой группы. Это позволяет, с одной стороны, сохранить единство слов с местоимённым типом значения, и, с другой стороны, даёт возможность объединить последние с полнозначными единицами сходного денотативного типа. В-третьих, звукоподражания даются как особая группа, а не вместе с междометиями. В одну группу со звукоподражаниями объединены также названия букв, нот и части слов, встречающиеся в текстах произведений.

В разделе «Подсловари» представлены результаты выборки из общего словаря писателя единиц нескольких семантических и функциональных типов. При составлении подсловарей мы пытались отобрать такие признаки, которые являются наиболее специфичными для языка писателя и интересными для лингвистиче-

ских, литературоведческих и когнитивных исследований (см. подсловари «Цвето-обозначения», «Звукообозначения», «Наименования лиц» и пр.).

В разделе «Частотные таблицы» представлены некоторые результаты количественной обработки информации. Сначала дано количественное соотношение единиц выделяемых в Словаре классов единиц (таблица 1). Затем даётся перечень наиболее регулярных слов произведений А. П. Чехова — отдельно для драм и для прозы. В него включены те лексические единицы, которые употребляются в 100 и более прозаических произведениях; в 8-ми и более пьесах. Среди таких слов есть и единицы с относительно невысоким количеством употреблений, однако число текстов (политекстия), в которых употреблена единица, является, как нам представляется, более важным и информативны показательным, чем частотность. Мы полагаем, что эти слова составляют то, что можно назвать «лексическим ядром» чеховских художественных произведений. В этой же таблице указаны самые регулярные слова драматургических произведений, употреблённые в 8 и более пьесах. В словаре есть таблица «Слова с наибольшим количеством употреблений», которая содержит традиционный для частотных словарей перечень слов с наибольшим числом употреблений (первая тысяча).

В Приложении дано описание Электронного корпуса текстов «Художественные произведения А. П. Чехова», на основе которого сделан Словарь, а также краткое описание возможностей программной оболочки, работающей с корпусом.

Словарная статья Общего словаря содержит следующие данные: 1) заглавное слово; 2) его частеречная характеристика; 3) количественная характеристика; 4) семантический комментарий (не во всех случаях); 5) данные о вариантах. В отдельных случаях приводится контекст употребления с указанием произведения (напр., для слова затрогивание). Для фамилий является обязательным указание произведений.

При каждой единице словаря даётся количественная информация двух типов: 1) число употреблений; 2) число текстов, в которых использовано слово (политек-стия). Эта информация приводится как для всех текстов в целом, так и для прозы и драматургии в отдельности. Число текстов даётся в скобках. Сначала указывается общее число употреблений и текстов, затем (после разделителя '|д.') — данные о пьесах, затем (после разделителя '|п.') — о прозаических произведениях. Ср.: красавица \ {сж} 120(55) | д. 16(6) | п. 104(49) — слово употреблено 120 раз в 55 текстах, из них 16 раз в 6 драматургических, и 104 раза в 49 прозаических произведениях.

При работе с количеством употреблений мы столкнулись с такой трудностью, как огромное дословное совпадение двух произведений: пьес «Иванов» (1887 г.) и «Иванов» (1889 г.). Это совпадение искажает общие данные об употребительности единиц, поэтому было принято следующее решение: в Словаре материал «Иванова» (1887 г.) используется только в том случае, если какое-то употреблённое в этом произведении слово (или вариант) уникальны, т. е. не встречается ни в одном другом произведении. Такие единицы даны в косых скобках и с обязательным указанием произведения («Иванов» 1887). Во всех остальных случаях количество употреблений и политекстия даётся без учёта этой пьесы, т. е. только по «Иванову» (1889). В таких случаях при указании названия произведения год не называется.

Частеречная характеристика, данная в Словаре, в целом соответствует системе грамматических классов «Грамматического словаря русского языка» А. А. Зализняка. Т. е. в Словаре используются такие «нетрадиционные», но функционально необходимые классы, как предикатив, сравнительная степень, вводное слово, местоимение-существительное. Дополнительно указаны такие типы единиц, как звукоподражания, буквы, ноты, части слов, средства рубрикации, а также компоненты иностранного текста. В последний класс включались слова, использованные не как вкрапления в русский текст, а как входящие во фразу на иностранном языке. Такие слова не приведены к начальной форме и грамматически не охарактеризованы.

При работе с текстами А. П. Чехова ярко проявилась такая особенность его языка, как высокая степень вариативности. Писатель последовательно отражает диалектные, социальные, произносительные, орфографические, словообразовательные и др. варианты слов. Основная часть вариантов, за исключением явных интонационных и индивидуальных, сведена и даётся в единой словарной статье.

В разделе «Подсловари» приведён также особый подсловарь произносительных вариантов, не включенных в основной словарь. Эти варианты отражают, прежде всего, «интонационные» особенности произношения слов, а также отдельные дефекты речи, акцент и пр.

Проблема разграничения омонимии и полисемии решалась нами на денотативном основании.

При описании фамилий реализован следующий принцип: имена реальных лиц и персонажей, имеющих одинаковую фамилию, описывались как «омонимы».

Для самых регулярных единиц (бог, чёрт1, дьявол, чай1) была проделана дополнительная работа по разделению полнозначных и неполнозначных употреблений. Эти употребления разведены и охарактеризованы в словарных статьях.

В части случаев комментарий является явно избыточным для специалистов и носит культурологический характер. «Избыточность» связана с тем, что словарь ориентирован на широкий круг читателей. Описания значений доступны и в ходе работы с электронным корпусом текстов (см. «Словарь значений»).

Считаем необходимым особо отметить, что в качестве толковательной основы при работе над семантическим комментарием использовался «Толковый словарь русского языка» С. И. Ожегова и Н. Ю. Шведовой (М., 2003). Большая часть описаний значений заимствованы непосредственно из этого словаря.

Теперь коротко охарактеризуем Электронный корпус текстов А. П. Чехова, на основе которого был создан Словарь.

Основные количественные характеристики корпуса таковы:

Тип единиц Количество

Тексты 600: 17 пьес, 583 прозаических произведения

Словоупотребления 1 271 656: пьесы — 176 307; проза — 1 095 349

Разные словоформы 101 302: пьесы — 23 093; проза — 96 161

Разные лексемы 36 454: пьесы — 11 824; проза — 34 798 (без сведения вариантов)

Помимо стандартных типов (словоформа, начальная форма, название произведения), корпус размечен также другими типами информации: период, в который написано произведение (не существует единой и общепринятой периодиза-

ции творчества А. П. Чехова, поэтому мы использовали при разметке текстов не одну, а три разных периодизации — Р. Б. Ахметшина и И. Е. Гитович; В. Б. Катаева и П. Н. Долженкова; А. П. Чудакова); тип текста (прозаический или драматический); подпись; жанр текста; авторский жанр; речевой жанр; тип повествователя; темы (под темой понимается тип ситуаций, изображаемых в произведении, а также основные проблемы, в нём затрагиваемые. Темы выделялись эмпирически, с опорой на анализ лексического состава произведения); семантические классы слов (класс «гео» — топонимы, этнонимы и их производные; класс «имя» — имена собственные и их производные; класс «лицо» — нарицательные существительные, обозначающие лиц; класс «цвет» — существительные с «цветовым» значением; класс «звук» — существительные со «звуковым» значением; класс «произведения» — названия упоминаемых печатных изданий и произведений); части речи (частеречная информация в основном соответствует классификации, представленной в «Грамматическом словаре» А. А. Зализняка, однако в отдельный класс были выделены звукоподражания); варианты слов; год написания произведения; место написания; подзаголовок и адресат посвящения.

Электронный корпус текстов А. П. Чехова предполагается издать на диске в качестве приложения к «Частотному грамматико-семантическому словарю языка произведений А. П. Чехова». На диске, кроме самого корпуса, находится программное средство, позволяющее работать с ним. В качестве такого средства выступает разработанная в ЛОКЛЛ Корпусная информационно-исследовательская система «Исследование словаря, текстовых особенностей, конкордансов» (КИИ-Са «ИСТОК»), которая представляет собой достаточно универсальный инструмент филологического исследования текстов. Система позволяет: а) просматривать и копировать в файл имеющиеся словари и конкордансы; б) получать новые словари и конкордансы путём комбинирования тех типов информации, которыми размечен корпус; в) работать с каждым произведением в полнотекстовом режиме и получать справочную информацию о нём.

Соединение словаря языка писателя и корпуса текстов, на основании которого сделан словарь, позволяет создать лексикографический продукт нового поколения. Он не только делает доступным для читателя все контексты употребления словарной единицы, но и позволяет вести дальнейшее самостоятельное исследование особенностей языка и творчества писателя.

ЛИТЕРАТУРА

Ожегов С. И., Шведова Н. Ю. Толковый словарь русского языка / РАН. Ин-т рус. яз. им. В. В. Виноградова. — М.: ИТИ ТЕХНОЛОГИИ, 2003. — 944 с.

Зализняк А. А. Грамматический словарь русского языка. Словоизменение. — М.: Рус. яз., 1977. — 880 с.

Чехов А. П. Полное собрание сочинений и писем: в 30 т. — М.: Наука, 1974-1983.

i Надоели баннеры? Вы всегда можете отключить рекламу.