Научная статья на тему 'О подготовке электронных ресурсов для исследований в области русской современной и исторической лексикологии и лексикографии'

О подготовке электронных ресурсов для исследований в области русской современной и исторической лексикологии и лексикографии Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
138
27
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ЛЕКСИКОЛОГИЯ / ЛЕКСИКОГРАФИЯ / ЭЛЕКТРОННЫЕ РЕСУРСЫ

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Бурыкин Алексей Алексеевич

Статья посвящена вопросам создания электронной базы текстов в качестве источника для исследований по русской лексикологии и лексикографии, а также как ресурса для современных исторических словарей русского языка.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «О подготовке электронных ресурсов для исследований в области русской современной и исторической лексикологии и лексикографии»

А. А. Бурыкин

О ПОДГОТОВКЕ ЭЛЕКТРОННЫХ РЕСУРСОВ ДЛЯ ИССЛЕДОВАНИЙ В ОБЛАСТИ РУССКОЙ СОВРЕМЕННОЙ И ИСТОРИЧЕСКОЙ ЛЕКСИКОЛОГИИ И ЛЕКСИКОГРАФИИ

This paper addresses issues of electronic text collection for Russian lexicology and lexicography studies as a resource for compilation of modern historical dictionaries of Russian.

Электронные ресурсы, являющиеся собраниями текстов, и электронные картотеки, ставшие реальностью на рубеже XX-XXI веков, в максимальной степени отвечают задачам настоящего и будущего филологической науки, давая возможность аккумулировать материал в неограниченных объемах и оперативно обрабатывать любые его массивы, в том числе служить источниками для лексикологической и лексикографической работы. Новые способы формирования, хранения материальной базы филологических исследований и новые возможности обработки данных позволяют внести принципиально новые компоненты в работу лексикографов: как авторов индивидуальных словарных проектов, так и целых авторских коллективов, работающих над многотомными лексикографическими проектами (Словарь русского языка XVIII века, Словарь русского языка

XIX века и Словарь русского литературного языка первой половины

XX векаФундаментом для словарей ( как продолжающихся, так и новых проектов), создаваемых в Институте лингвистических исследований РАН, остается Большая картотека Словарного отдела (БКСО), которая не утратит своей ценности в качестве лексикографического источника еще в течение длительного времени [3, 4, 5].

Оценивая современное состояние источниковедческой базы словарей, мы можем дать характеристику разных этапов лексикографической работы при разном уровне технической оснащенности лексикографов. Работая исключительно с классической «ящичной» картотекой, лексикограф ограничен ее объемом и содержащимися в ней цитатами, он не может оперативно получить в свое распоряжение дополнительный материал. Между тем мы знаем, что состав источников для Большой картотеки и для каждого словаря, создаваемого на ее основе, внимательно просматривался и обсуждался редколлегией словаря, тем не менее какая-то часть лексических ма-

1 Идея данного проекта была впервые озвучена д.ф.н. А. С. Гердом на одном из заседаний Словарного отдела ИЛИ РАН в 2008 году.

67

териалов не попадала в Картотеку по причине того, что какие-то тексты не включались в число ее источников, а часть примеров, оказавшихся в картотеке, не попадала в словарные статьи по соображениям экстралингвистического конъюнктурного порядка. Наличие электронных ресурсов, поддающихся неограниченному расширению и доступных персонально любому лексикографу, не просто индивидуализирует труд каждого составителя словаря, но позволяет каждому исследователю вести самостоятельный поиск в ресурсной базе, существенно пополняя инвентарь цитат и собственно языковых фактов, которые помогут скорректировать работу лексикографа на любом этапе составления словарной статьи.

В настоящее время наиболее известным и широко доступным источником русских текстов являются электронные библиотеки, доступные в Интернете: Библиотека Мошкова (http://lib.ru), Альдебаран (http://aldebaran.ru), Русская виртуальная библиотека (http://www.rvb.ru), Библиотека Вадима Ершова (http://publ.lib.ru), Библиотека Александра Белоусенко (http://www.belousenko.com) и т. д.; к числу таких источников относятся и библиотеки, выпущенные на компакт-дисках в 2004-2006 гг. (Библиотека «Всемирная литература», Библиотека Мошкова с частью ее ресурсов). Большую филологическую ценность как для литературоведов, так и для лингвистов представляют сайты, посвященные творчеству отдельных писателей, на которых размещены полные или другие объемные собрания сочинений русских писателей Х1Х-ХХ вв. Доступными большому числу пользователей даже вне ресурсов Интернета являются электронные собрания сочинений отдельных писателей XIX-XX веков — так, в начале 2000-х годов увидели свет электронные собрания сочинений А. С. Пушкина, М. Ю. Лермонтова, Ф. М. Достоевского, Л. Н. Толстого, Н. С. Лескова, А. П. Чехова и других авторов. Весьма полезными для исследовательской работы могут оказаться разнообразные тематические собрания текстов: например, выпускаемые на дисках собрания сочинений русских поэтов начала XX века или диск с образцами русской драматургии, изданный недавно.

Перечисленные электронные продукты, несмотря на свое удобство для пользователя и доступность, имеют ряд недостатков технического порядка. Тексты, извлекаемые из электронных изданий собраний сочинений русских классиков, выпущенных на компакт-дисках, с трудом поддаются группированию в единое собрание (что значительно сократило бы время нужного поиска) — для этого необходима их дополнительная обработка, требующая времени и навыков работы с файлами разных форматов. Процесс обработки таких ресурсов состоит в извлечении отдельных текстов с диска, пе-

68

реименовании файлов по единой системе и объединении отдельных текстов в группы (в отдельные файлы), которые были бы удобными для работы. Так, при работе с эпистолярным материалом на дисках, размещаемым в виде отдельных документов-писем, удобнее оказывается группировать их по жанру, по адресатам или по хронологии; при работе с поэтическими текстами приходится объединять в группы отдельные стихотворения.

Электронные библиотеки как в ресурсах Интернета, так и на компакт-дисках сильно разнятся по своему составу, хотя полезными для лексиколога и лексикографа будут в равной мере объемное собрание с десятками тысяч книг и небольшая электронная книжная полка с несколькими сотнями файлов, содержащих какие-либо редкие издания. В крупных библиотеках, рассчитанных на массового читателя, переводная художественная литература (произведения Б. Картленд, А. Кристи, Р. Стаута, Д. Брауна и т. д.) заметно преобладает в количественном отношении над отечественной литерату-рой2, а в составе последней современные боевики и детективы (сочинения Ч. Абдуллаева, А. Воронина, Д. Донцовой, А. Марининой и др.) преобладают над русской классикой, литературой советского периода и произведениями современной русской литературы, созданными в последние десятилетия. При таком составе библиотек единая для диска поисковая система (например, такая имеется в Библиотеке «Всемирная литература») при целенаправленном поиске соответствующего лексического материала хотя и действует, но оказывается бесполезной, поскольку приходится отсеивать большой объем материала, не представляющего «лексикографической ценности». При наличии определенных проблем в целом положение дел с электронными библиотеками внушает оптимизм в плане привлечения дополнительных источников, так как крупнейшие и лучшие электронные библиотеки — Альдебаран или Библиотека Мошкова — существенно пополняются новыми качественными материалами, кроме того, постоянно увеличивается число электронных библиотек различной направленности.

2 Впрочем, поскольку переводы античных авторов, произведений средневековой литературы и европейской классической литературы ХУП-ХХ веков, выполненные большими мастерами художественного слова представляют самостоятельную ценность как лексикографический источник и в большинстве своем они ранее не привлекались для пополнения картотеки и собственно словарной работы, представляется целесообразным в перспективе подготовить отдельное собрание переводных текстов, которое могло бы быть использовано для более детального анализа лексических ресурсов русского языка, отражаемых в переводных текстах (см. [2]).

69

Необходимость дальнейшей оптимизации работы в области русской лексикологии и лексикографии, причем как синхронной, так и исторической (в пределах конца XVII-XX вв.), побудила автора настоящей работы приступить к реализации проекта сводной электронной библиотеки русских текстов, которая была бы адресована пользователям-филологам и предназначалась в первую очередь для всестороннего изучения функционирования русской лексики и фразеологии.

Данный проект, получивший название «Библиотека лексикографа», реализуется автором настоящей статьи в Словарном отделе ИЛИ РАН с 2008 г. [1]. Источником такого рода сводного собрания текстов на русском языке являются электронные библиотеки произведений русской литературы XVIII - начала XXI веков, доступные в Интернете, а также различного рода сборники текстов на компакт-дисках, в основе которых лежат авторитетные печатные издания, отражающие результаты последовательного собирания литературного наследия, работы текстологов, эдиционной практики. Материал для «Библиотеки лексикографа» отбирается примерно по тем же принципам, по которым комплектовалась и продолжает комплектоваться библиотека Словарного отдела ИЛИ РАН, своего рода хранилище источников для БКСО ИЛИ РАН. Хронология материала, включаемого в Библиотеку, охватывает период от начала XVIII века до начала XXI века. В собрание текстов «Библиотека лексикографа» включаются следующие виды электронных документов:

— художественная литература (проза, поэзия, драматургия);

— литературно-художественная критика, публицистика;

— мемуары политических деятелей, деятелей науки, культуры, искусства; военные мемуары;

— общественно-политическая литература;

— периодика (специальный ресурс или, например, разнообразнее литературно-критические статьи и рецензии в составе тематических подборок);

— официальные документы, законодательные акты, служебные инструкции и переписка и т. п.;

— научно-популярная литература, включая учебные пособия по всем областям знаний;

— отдельные монографические работы, в основном относящиеся к области гуманитарных дисциплин (история, культурология, филология, философия, экономика и т. п.).

Автором данной статьи ведется также собирание электронных словарей и справочников по всем областям знаний, которое призвано пополнить и отчасти обновить книжный справочный фонд библиотеки Словарного отдела ИЛИ РАН. В принципе аккумулируе-

70

мый электронный ресурс может быть включен в справочный фонд Библиотеки, что позволит обогатить и расширить фактологическую базу для описания лексики. В это собрание входят наиболее авторитетные справочные издания — Энциклопедический словарь Брокгауза и Ефрона и некоторые другие словари. подготовленные теми же издателями, Большая советская энциклопедия (3-е издание), Краткая российская энциклопедия, Советский энциклопедический словарь, а также ряд тематических словарей и энциклопедий.

Нами ведется также работа по составлению систематизированного электронного собрания лингвистической литературы (теория и история языкознания, сравнительно-историческое языкознание, европейские языки, русский язык, славянские языки, языки Востока). На данный момент эти тексты не представлены непосредственно в «Библиотеке лексикографа», а составляют отдельные коллекции.

Каковы преимущества проекта «Библиотека лексикографа» по сравнению с иными электронными ресурсами русских текстов?

Прежде всего, «Библиотека лексикографа» в виде собрания текстов, записанного на жесткий диск компьютера, на компакт-диск или съемный носитель, независима от подключения к Интернету. Несмотря на то что подключение к Интернету стало более доступным, уровень технической оснащенности исследовательских центров или сети, по которым осуществляется подключение к «всемирной паутине», далеко не везде позволяют исследователям часами эксплуатировать Интернет в поисках редких текстовых источников или, например, работать с Национальным корпусом русского языка (www.ruscorpora.ru).

Далее — при составлении «Библиотеки лексикографа» автор проекта ориентируется на максимальную полноту охвата материала по указанным выше разделам, и эта задача при изучении сотен электронных библиотек (такова реальность) имеет относительно успешное решение, и этот успех может быть закреплен по мере роста объемов библиотек и умножения их числа. В разделе художественной литературы за счет новых (электронных) ресурсов удается ввести в исследовательский оборот тексты писателей русского зарубежья (В. Набокова, И. Шмелева, М. Алданова, Б. Зайцева, Г. Газданова, Н. Берберовой, М. Осоргина, П. Краснова и др.), а также сочинения бывших «опальных» отечественных писателей — таких, как Е. Замятин, Б. Пильняк, А. Веселый, В. Зазубрин и многие другие. Мы получаем неограниченную возможность разместить в Библиотеке сочинения и мемуары таких политических и военных деятелей, как Л. Троцкий, П. Врангель, А. Деникин и т. д. Все эти тексты восполняют весьма значительную и существенную лакуну в отечественных лексикографических ресурсах, поскольку сочинения данных

71

авторов никогда не привлекались в качестве источника словарных картотек.

Также у нас имеется возможность оперативно разместить в Библиотеке в максимально полном виде произведения таких авторов, как М. Булгаков, М. Зощенко, М. Цветаева, А. Ахматова, О. Мандельштам, Б. Пастернак, Б. Окуджава и других, чьи тексты в лексикографической работе почти не использовались или привлекались с этой целью крайне редко и выборочно.

При работе над проектом «Библиотека лексикографа» нами ставятся задачи не только подготовить качественно новый продукт, предназначенный для лексикологических исследований и совершенствования методов лексикографической практики, но и в более отдаленной перспективе за счет доступных ресурсов воссоздать в электронном виде корпус источников имеющихся словарей. В идеале вполне возможной и выполнимой является задача создания электронного корпуса источников 17-томного Словаря современного русского литературного языка (БАС) в его первом издании в соответствии с имеющимся в данном словаре списком его источников.

Переоценка фактов истории русской литературы ХХ века приводит к тому, что произведения некоторых авторов, цитаты из которых широко представлены в первом издании БАС, — например, роман С. Бабаевского «Кавалер Золотой звезды» или М. Бубеннова «Белая береза» и т. п., — разыскиваются в электронном виде с большим трудом, занимают свое место в Библиотеке, благодаря работе тех, кто, невзирая на идейные и литературные пристрастия, занимается оцифровкой таких текстов. К большому сожалению, произведения некоторых авторов оказываются недоступными в электронных версиях — так, из произведений Вс. Кочетова в Интернет-библиотеках представлен только роман «Чего же ты хочешь?», имевший в свое время скандальную известность, в то время как другие романы этого автора, представляющие не меньшую ценность для описания русского языка середины ХХ века (романы «Журбины», «Секретарь обкома», исторический роман «Угол падения»), в электронном виде отсутствуют. Из сочинений В. Ажаева в электронных ресурсах имеется роман «Вагон», увидевший свет после смерти автора, а более ранние и известные произведения этого писателя (например, роман «Далеко от Москвы») в Интернете не обнаруживаются. Большой редкостью, а потому отыскиваются с трудом, оказываются ранние произведения В. Аксенова («Коллеги»), Д. Гранина («Искатели», «Иду на грозу»), сочинения В. Пановой, В. Кетлинской, Г. Николаевой и многих других писателей ХХ в.

72

Из всего объема «советской» литературы 1930-х - 1980-х годов приоритетными для проекта, по ряду соображений, являются тексты таких авторов, как Л. Леонов, К. Паустовский, В. Каверин, В. Катаев, Д. Гранин, В. Шефнер, В. Белов, В. Астафьев, В. Липатов, А. Лиханов, Е. Носов, А. Володин, В. Розов и других — тех, чье творчество отражает употребление русского языка середины и второй половины ХХ века. Языковой материал, представленный в произведениях этих авторов, как думается, в наибольшей мере соответствует нашим представлениям о норме современного русского литературного языка, как она непосредственно дана в образцах художественной литературы. Тексты современных авторов (Н. Леонова, М. Веллера, А. Марининой, Д. Донцовой, Л. Улицкой, Е. Вильмонт) включается в Библиотеку выборочно, отдельными образцами.

В «Библиотеке лексикографа» присутствуют — рядом с книгами современных политиков — работы В. Ленина и И. Сталина (в объеме ПСС), сочинения Л. Брежнева. В нее заложены и «Краткий курс истории ВКП(б) по двум различным изданиям, и документы ВКП(б) - КПСС, и материалы различных политических процессов и научных сессий 1930-х - 1950-х годов.

Мы имеем в распоряжении также некоторые архивные материалы из периодических изданий, которые могут пополняться за счет использования службы баз данных Integrum [6].

Обработка электронных материалов, извлекаемых из библиотек Интернета, которая является следующим этапом работы с текстами, поступающими в «Библиотеку лексикографа», включает приведение их к единому формату TXT, который оказался достаточно экономным и удобным в работе при пользовании любым текстовым редактором, начиная с приложений Microsoft Office и кончая различными индивидуальными предпочтениями.3 Для постоянного пользования библиотекой при работе с отдельными текстами применяется текстовый редактор Bred (версии 2 или 3), позволяющий работать с txt-файлами любого объема и имеющий эффективную поисковую систему, которая может обнаруживать нужные словоформы и слова в одном конкретном тексте.

Наиболее удобной поисковой программой, позволяющей оперативно вести поиск слов с анализом морфологии, дающей, кроме того, возможность копировать найденные цитаты, оказывается система Archivarius 3000, доступная в программных ресурсах Интернета.

3 Мы должны, однако, признать, что применение формата ТХТ в библиотеке не позволяет учитывать некоторые детали графического оформления текста (например, шрифтовые и курсивные выделения, какие-то особенности графики текста, добавления текста из других редакций, имеющие шрифтовое выделение и под.).

73

Эта программа позволяет просматривать неограниченное количество текстовых источников при поиске данного конкретного слова, а также вести поиск всех употреблений нужного слова в данном тексте без потери обращения к общей сводке найденных текстов и цитат. В ней предусмотрена возможность копирования нужных сегментов текста с интересующими нас словами, что позволяет формировать оптимальный корпус цитат при выборке материала. Программа Archivarius 3000 исключительно оперативна в работе: поиск нескольких тысяч цитат на данное слово занимает менее 2-х минут.

Поисковая программа Integra, которая также имеется в ресурсах Интернета и устанавливается на любой компьютер, позволяет просматривать до 1000 цитат с запрашиваемыми лексемами с учетом всех словоформ. Эта программа имеет еще одно достоинство — она позволяет копировать из «Библиотеки лексикографа» корпус документов, где встречаются запрошенные слова, с целью его дальнейшего исследования. Недостатком указанной программы является то, что она, в отличие от Archivarius 3000, не позволяет выбирать (копировать) из текста найденные цитаты.

Из технических требований, которые предъявляются к компьютерам для работы с электронными библиотеками, наиболее значимыми оказываются не столько объем жесткого диска, сколько быстродействие процессора, объем оперативной памяти и скорость действия самого жесткого диска.

Особо отметим имеющиеся в «Библиотеке лексикографа» электронные ресурсы по русским текстам конца XVIII - начала ХХ веков, то есть того периода, который составляет хронологические границы Словаря русского языка XIX века: они в настоящее время уже достаточно объемны и оказываются весьма полезными. Ряд собраний сочинений русских поэтов и писателей этого периода, как уже было замечено, доступен на компакт-дисках. Отдельные авторы (И. Гончаров, А. Островский, А. Писемский. М. Салтыков-Щедрин, И. Тургенев и др.) представлены в ресурсах Интернета на соответствующих сайтах по существу полными собраниями сочинений или весьма репрезентативными собраниями произведений. Хорошо представлена в электронных библиотеках русская поэзия XIX века: А. Апухтин, К. Батюшков, Е. Баратынский, Д. Веневитинов, П. Вяземский, Ф. Глинка, А. Григорьев, Д. Давыдов, И. Козлов, И. Крылов, В. Кюхельбекер, А. Одоевский, С. Надсон, Н. Некрасов, К. Рылеев, Ф. Тютчев, А.Фет и др. Как правило, собрания текстов этих авторов основаны на наиболее авторитетных изданиях («Литературные памятники», «Библиотека поэта» в Большой и малой сериях).

74

Из других авторов этого периода в «Библиотеке лексикографа» представлены Д. Аверкиев, С. Аксаков, А. Бестужев-Марлинский, П. Боборыкин, А. Вельтман, В. Гаршин, Н. Гейнце, А. Дружинин, Ю. Жадовская, П. Засодимский, Н. Златовратский, Н. Лейкин, Д. Мамин-Сибиряк, П. Мельников-Печерский, Д. Мордовцев, В. Одоевский, И. Панаев, О. Сомов, А. Потехин, И. Потапенко, Ф. Решетников, Е. Салиас, Н. Телешов, Гл. Успенский и другие. Хорошо представлена в ресурсах электронных библиотек и зафиксирована в «Библиотеке лексикографа» литературная критика и публицистика XIX века (В. Белинский, Н. Добролюбов, Д. Писарев, В. Майков и др.), а также сочинения русских историков XIX века— Д. Иловайского, С. Соловьева, Н. Костомарова, В. Ключевского. В меньшем объеме выявляется мемуарная литература и публикации периодических изданий, хотя отдельные сайты, такие как «1812 год», дают в наше распоряжение довольно много образцов текстов этих жанров.

Существенным отличием «Библиотеки лексикографа» от Национального корпуса русского языка (www.ruscorpora.ru), который, вне всякого сомнения, является важным и полезным источником в лексикологических исследованиях и лексикографической работе, является то, что тексты, размещаемые в нашей Библиотеке, не требуют разметки, которая является наиболее трудоемким этапом подготовки текстов в качестве электронного ресурса для филологических исследований. Следовательно, пока тексты, включенные в «Библиотеку лексикографа», становятся более доступными для работы, нежели материалы Национального корпуса русского языка. Как показывает практика, в Библиотеке лексикографа уже доступны и могут быть использованными такие источники, которые в настоящее время еще не подготовлены для размещения в Национальном корпусе, хотя со временем они определенно займут свое место в Национальном корпусе.

В настоящее время «Библиотека лексикографа» включает в себя около 20000 текстов (объем около 5,8 Гб) и постоянно пополняется. Существенным стимулом для ее пополнения и в первую очередь для увеличения объема материала по русской художественной литературе первой половины ХХ века является Словарь русского языка первой половины ХХ века, ориентированный на язык художественной литературы, который должен вобрать в себя с максимальной полнотой ранее не учитывавшиеся текстовые источники.

В дальнейшем при работе над «Библиотекой лексикографа» предполагается, кроме обобщающего корпуса текстов, выделить в ней отдельные модули — тексты XVIII, XIX и ХХ веков — с внутренним делением на разделы по жанрово-стилистическому принци-

75

пу (поэзия, литературная проза, нехудожественная проза, документы, общественно-политическая литература, научная и научно-популярная литература, историческая литература (труды историков и исторические романы), юмор и сатира. Целесообразно представить в отдельном модуле произведения современной художественной литературы (без оценки жанров и достоинств отдельных авторов) — специально для отслеживания использования новых слов в русском языке.

Важным достоинством «Библиотеки лексикографа» по сравнению с иными ресурсами является то, что она легко может быть откорректирована и пополнена в соответствии с индивидуальными или коллективными запросами любых конкретных пользователей — тех, кто занимается исследованием лексики русского языка в синхронном и историческом аспектах, тех, кто занимается лексической стилистикой и языком писателей, наконец, данное собрание может быть ориентировано особым образом в связи с задачами составления толкового словаря русского языка любого типа, объема и хронологического диапазона.

Литература

1. Бурыкин А. А. О создании электронной библиотеки для исследований в

области русской лексикологии и лексикографии «Библиотека лексикографа» // Современные информационные технологии и письменное наследие: от древних текстов к электронным библиотекам. El'Maniscript -08. Материалы Международной научной конференции (Казань, 26-30 августа 2008 г.). Казань, изд. КГУ, 2008. С. 52-55.

2. Корованенко Т. А. Источники нового академического словаря // Очеред-

ные задачи русской академической лексикографии. СПб., 1995. С. 3143.

3. Рогожникова Р. П. Большая картотека Словарного отдела за 100 лет //

Национальные лексико-фразеологические фонды. СПб., 1995. С.4-11.

4. Рогожникова Р. П. Большой картотеке Словарного отдела — 115 лет.

Acta linguistica Petropolitana, СПб., 2003. Т. 1, ч. 3. С.8-22.

5. Рогожникова Р. П. Сокровищница русского слова. История Большой

словарной картотеки Института лингвистических исследований РАН. СПб., 2003.

6. Integrum: точные методы и гуманитарные науки. М., 2006.

76

i Надоели баннеры? Вы всегда можете отключить рекламу.