Научная статья на тему 'Картотеки «Словаря русского языка XIX века»: истоки, состояние и проблемы формирования'

Картотеки «Словаря русского языка XIX века»: истоки, состояние и проблемы формирования Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
179
20
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
XIX ВЕК / РУССКАЯ ИСТОРИЧЕСКАЯ ЛЕКСИКОГРАФИЯ / СЛОВАРНАЯ КАРТОТЕКА / XIX CENTURY / RUSSIAN HISTORICAL LEXICOGRAPHY / CARD INDEX

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Калиновская Валентина Николаевна, Старовойтова Ольга Альбертовна, Эзериня Светлана Аркадьевна

Статья посвящена истории создания и основным принципам формирования словарной картотеки исторического «Словаря русского языка XIX века». Основанная в конце 1980-х гг. выдающимся специалистом в области исторической русской лексикологии и лексикографии Ю.С. Сорокиным в традиционной карточной форме, в настоящее время картотека Словаря дополнена электронным вариантом, а также репрезентативной электронной базой текстов XIX в., насчитывающей свыше 4000 единиц.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The Card Index for the Dictionary of XIX Century Russian: Sources, Status, and Elaboration Issues

The paper addresses the history of and the general principles for the elaboration of the Card Index for the Dictionary of the XIX Century Russian. The Card Index, founded in the late 1980s by the prominent Russian historical lexicographer Yu. S. Sorokin as a collection of cards, is now supplemented with its electronic variant and a representative electronic database of XIX Century texts comprising over 4,000 items.

Текст научной работы на тему «Картотеки «Словаря русского языка XIX века»: истоки, состояние и проблемы формирования»

КАРТОТЕКИ «СЛОВАРЯ РУССКОГО ЯЗЫКА XIX ВЕКА»: ИСТОКИ, СОСТОЯНИЕ И ПРОБЛЕМЫ ФОРМИРОВАНИЯ1

Традиционно эмпирическую базу любого словаря составляет его картотека. Начало формированию картотеки «Словаря русского языка XIX века» было положено сотрудниками группы исторической лексикологии и лексикографии («Словарь русского языка XVIII века»), где, собственно, родилась и к концу 1980-х гг. окончательно сложилась концепция исторического словаря нового (дифференциального) типа, где в 2002 году был подготовлен и опубликован Проект данного Словаря2. Е. Н. Этерлей были составлены «Правила для выборщиков», учитывающие специфику будущего Словаря, в которых определялись принципы работы с источниками и были даны рекомендации для выборки лексического материала и оформления цитат.

В настоящее время Картотека на бумажных носителях, основу которой составляет материал, подготовленный сотрудниками группы исторической лексикологии и лексикографии, в разные годы работавшими в ее составе (Е. Н. Этерлей, 3. М. Петровой,

А. А. Алексеевым, Е. Э. Биржаковой, Э. В. Осиповой, Е. Д. Конопляной, И. Е. Кузнецовой), хранится в группе «Словаря русского языка XIX века». Занимая 105 каталожных ящиков малого размера, она насчитывает более 50 тысяч карточек. Большая часть материалов (по известным причинам, связанным с переездом Картотеки и ремонтом) систематизировалась уже в последние 2-3 года.

При отборе источников для выборки основной акцент был сделан на тексты авторов, по тем или иным причинам неполно или

1 Исследование выполнено при финансовой поддержке РГНФ в рамках научно-исследовательского проекта: формирование дифференциального словника «Словаря русского языка XIX в.», № 11-0400056 а.

2 Словарь русского языка XIX века. Проект. СПб. 2002.

вовсе не представленных в Большой Картотеке Словарного отдела (произведения А. А. Шаховского, В. А. Соллогуба, Я. П. Полонского, Н. Ф. Павлова, К. К. Павловой и др.), на поэтические сочинения (стихотворения Д. В. Веневитинова, В. Г. Бенедиктова, В. С. Курочкина; соч. А. А. Дельвига; полн. собр. стихотворений Н. М. Языкова), были расписаны переводные тексты (соч. Ф. Шиллера и

В. Шекспира в переводе русских писателей). Также учитывалась представленность текстов в их жанровом разнообразии: публицистика («Письма из Франции и Италии» А. И. Герцена), мемуары («Дневник» А. В. Никитенко; «Дневник» А. В. Дружинина; «Воспоминания» А. А. Григорьева), письма (переписка кн. П. А. Вяземского с А. И. Тургеневым; письма И. С. Тургенева), критические статьи («Музыка и музицирование в старом Петербурге» П. Стол-пянского, критические статьи К. С. Аксакова). Е. Э. Биржаковой расписан «Энциклопедический лексикон», изд. Плюшара (1835 г. и последующие). Ряд текстов (в том числе, «Дневник» Ф. М. Достоевского) был расписан по разметке Ю. С. Сорокина.

После создания самостоятельной рабочей группы (отдельной от группы «Словаря русского языка XVIII века») формирование картотеки в ее традиционном виде (на карточках) было продолжено новым коллективом. Сотрудниками группы «Словаря русского языка XIX века», а также привлеченными выборщиками картотека была пополнена такими источниками, как «Дневник» А. С. Суворина, письма А. И. Бородина, переписка из архива К. Ф. Калайдовича, «Очерки и рассказы» И. Т. Кокорева, «Карманная книжка для начинающих охотиться с ружьем и легавой собакой» Л. Вакселя, «Русские эстетические трактаты первой трети XIX века» в 2-х томах, (сочинения П. Я. Чаадаева, Н. И. Надеждина, С. П. Шевырева, А. Ф.Мерзлякова, А. И. Галича, И. Я. Кронеберга) и др.

Картотека на бумажных карточках продолжает пополняться, несмотря на то, что этот традиционный тип формирования эмпирической базы для последующих лексикографических разработок, судя по всему, уходит в прошлое. Картотека Словаря продолжает пополняться — хотя и достаточно медленно — в основном, силами энтузиастов. Основным ресурсом, из которого она могла бы пополняться достаточно быстрыми темпами, — это цитаты, выбранные

из текстов, сохраненных в формате pdf (что частично осуществляется), однако такой вид работы требует не меньших затрат времени и человеческих ресурсов.

В настоящее время коллективом группы активно осваиваются новые формы и источники для создания современной эмпирической базы такого сложного и трудоемкого проекта, как «Словарь русского языка XIX века». Основу ее должна составить электронная картотека, развитие которой необходимо связать с авторским коллективом, созданным в 2002 году для реализации нового словарного проекта ИЛИ РАН. Ее формирование было начато практически одновременно с созданием группы «Словаря русского языка XIX века». Электронный вариант традиционной картотеки является ее расширением и продолжением. Он призван в систематизированном виде представить отобранный из источников Словаря лексический иллюстративный материал для его последующей лексикографической обработки. В электронной картотеке учитываются результаты обработки материалов Большой картотеки Словарного отдела с опорой на дифференциальный характер словника будущего исторического словаря русского языка XIX века. Последним обстоятельством определяются пути и возможности дальнейшего расширения иллюстративной базы словаря. Так, например, осуществляется сверка имеющихся уже материалов словника с данными Национального корпуса русского языка, что позволяет уточнять хронологию динамических процессов, заполнить имеющиеся в словнике лакуны.

Важным ресурсом формирования нового корпуса цитат из источников XIX века являются создаваемые в группе текстовые базы, включающие как вновь отсканированные печатные издания, так и имеющиеся на различных авторитетных сайтах Интернета. Выборка цитатного материала для картотеки или предварительная проверка его при составлении словарных статей значительно облегчена благодаря современным программам цифровой обработки больших текстовых корпусов (составление конкордансов) и системам поиска цитат по конкретному слову/части слова, словоформе. Можно сказать, «прорывом» в деле выборки лексического материала оказалось обращение к такому Интернет-ресурсу, как books.google.com. Использование данной поисковой системы

открыло возможность виртуального контакта с текстами по изданиям XIX века. Преимущества обращения к данному источнику информации состоят в том, что формат публикации (pdf) позволяет достаточно уверенно документировать отобранную цитату.

Электронная картотека строится по принципу «дерева», предусматривающему размещение текстовой информации через легко-структурируемые многоуровневые вложения различного уровня обобщения. Степень общности/детализации материала при этом задается самим лексикографом. Так, первичное структурирование лексических данных по начальной букве алфавита дополняется разбиением по вокабулам, по хронологической отнесенности размещаемых контекстов на каждую из представленных в картотеке вокабул, по факту наличия/отсутствия лексикографической фиксации лексем в словарных источниках XVIII-XIX вв., а также по факту представленности в других картотеках (группы и отдела). В справочном отделе вокабул, помимо словарей, планируется приводить сведения по истории данной лексемы из научной лингвистической литературы (если таковые известны и доступны; например, из монографии Ю. С. Сорокина «Развитие словарного состава русского литературного языка. 30-90-е годы XIX века», из словаря-пособия «Из истории русских слов», из статей по истории слов русского языка В. В. Виноградова и т. д.). При каждой вокабуле указывается количество цитатных единиц. Учетной единицей данного вида картотеки в соответствии с Проектом Словаря может быть как отдельная лексема, так и устойчивое словосочетание или идиома. Для удобства лексикографов информация начиная со второго уровня вложения представлена в виде «сворачивающихся» окон, что позволяет работать с текстовым материалом на том уровне виртуальной обобщенности, который ему необходим в каждом конкретном случае — от общего просмотра наличных вокабул в целом до просмотра интересующего единичного контекста. Такая возможность, наряду с надежностью хранения данных, легкостью поиска, компактностью и одновременно емкостью, является одним из несомненных преимуществ электронного варианта традиционной словарной картотеки.

Объединяющим началом для бумажной и электронной картотек остается предварительная разметка достоверных текстовых ис-

точников с последующей филологической обработкой выделяемых контекстов, а также ручной ввод текстовых данных непосредственно в саму картотеку. Последний этап для электронного варианта на практике оказывается наиболее затратным по времени. В целях предотвращения случайной потери данных электронная картотека в установленные сроки в обязательном порядке дублируется, и копия сохраняется до следующего обновления пополненной новыми данными картотеки. К настоящему времени ее объем составляет более 12 тысяч слов и словосочетаний, еще приблизительно столько же подготовленных цитат ждут вливания в ЭК. Отсутствие в группе младшего научного и технического персонала существенно замедляет темпы работы по формированию картотеки: основная нагрузка по выполнению технических видов работы (набор размеченных текстов и вливание цитатного материала и т. д.) ложится на авторов-составителей словарных статей (а их всего — 5 человек). Этот аспект организации лексикографического процесса составляет проблему в работе коллектива, которую мы пытаемся решать силами студентов-филологов, проходящих практику на базе ИЛИ РАН, и в частности — его Словарного отдела.

Помимо картотек и в качестве дополнения к ним в группе также формируется электронная текстовая база данных — источников Словаря, на основе которой при помощи соответствующих программных средств (АгсЫуапих 3000) осуществляется автоматический поиск контекстов в ответ на запрос лексикографом интересующей его лексемы, словоформы или части композита. Такого рода полнотекстовая база данных незаменима в современной лексикографической практике для создания дифференциального словника Словаря, поскольку исключает произвольность отбора материалов: исходные тексты хранятся в полном объеме и оказываются доступными для многоразовых обращений к ним лексикографов по поводу различных лексем — от знаменательных до служебных; она также позволяет выявлять новые словарные единицы, новые употребления, новую сочетаемость, статус окказиональности лексем.

Количество электронных текстов различного объема, входящих в состав данной базы, на сегодня уже достигает около 5 тысяч единиц хранения, сама база находится в процессе постоянного

пополнения. Здесь следует отметить, что при всем удобстве пользования подобным лексикографическим инструментом, в силу формирования базы источниками, преимущественно извлекаемыми из интернет-ресурсов, она имеет один существенный недостаток — различную степень достоверности входящих в нее текстов, что вызывает необходимость их трудоемкой предварительной верификации.

Совокупность всех перечисленных выше составляющих эмпирической базы Словаря в целом дает в руки лексикографу достаточно надежный, объективный и современный инструмент для словарной работы.

i Надоели баннеры? Вы всегда можете отключить рекламу.