А. Ю. Кожевников
ИЛИ РАН, Санкт-Петербург
ИЗ ОПЫТА РАБОТЫ С СЕТЕВЫМИ БАЗАМИ ДАННЫХ (на материале слов с префиксоидом полу...)
В начале XXI в. неографы ИЛИ РАН перешли на новые методы работы, связанные с использованием компьютеров и интернет-ресурсов (см. [Буцева 2008]). К этому времени начали формироваться сетевые базы данных (картотеки, библиотеки, архивы) и стали доступными такие интернет-ресурсы, как Национальный корпус русского языка (mscorpora.ru), Интегрум (intergum.ru) и Google Book Search (books.google.com). Казалось бы, наконец появилась реальная возможность за недели, дни, а то и считанные часы выполнять работу, на которую прежде могли уходить месяцы и годы. Однако неограф, вооруженный компьютером и получивший доступ к соответствующим базам данных, оказался в ситуации, когда технические возможности в буквальном смысле слова погрузили его в безбрежный океан текстовых материалов, среди которых очень непросто ориентироваться и оставаться на плаву.
Чтобы не быть голословным, обратимся к материалу — именам существительным, образованным при помощи префиксоида полу... от наименований лиц по национальности или гражданству (полунемец, полурусский, полуяпонка), месту проживания (стране, континенту, исторической области и т. п.) {полу азиат, полу скандинав, полу американка), по отношению к какой-либо этнической группе или расовой принадлежности (полуараб, полуиндеец, полу-негритянка), а также двухкомпонентным образованиям, каждый из которых начинается с полу... (полулитовец-полулатыш, получех-полусловак, полуфранцуженка-полуиспанка).
Хотелось бы обратить внимание на тот факт, что, с одной стороны, префиксоид полу... представлен во всех базовых толковых словарях современного русского языка, специальных справочниках, в академической «Русской грамматике» (см. [Грамматика-80,1, 242243, 249-250, 320, 391, 408]), его описанию посвящены отдельные
работы (см., например: [Пономаренко 1985] и др.). Однако, с другой — нигде не выделено то его значение, которое обнаруживается у слов рассматриваемой группы, а сами подобные образования практически не встречаются ни в одном лексикографическом издании (включая орфографические).
В период с 1978 по 2006 гг. неологами Словарного отдела ИЛИ РАН было зафиксировано 23 подобные номинации (в НРЛ-78 — полу бурятка-полу еврейка, полуиндеец, полусканди-нав; в НРЛ-81 — полу англичанин-полуеврей, полуиспанка, в НРЛ-86 — полуфранцуженка, в НРЛ-89 — полуиталъянец-полуеврей, полушвейцарец-полурусский, в НРЛ-90 — полуамериканец, по-луармянин, полулитовка-полуполъка, в НРЛ-91 — полу грузинка, полурусская-полугрузинка, в НРЛ-93 — полукитаец, полулатыш, полунемец-полулатыш, в НРЛ-94 — полуиспанка-полурусская. В электронном индексе словников неологических словарей есть лексема полуазиат (выборка 1993 г.), не включенная в соответствующий выпуск, а в материалах обследования периодики за первое десятилетие нового века имеются: за 2002 г. — полуевреечка, полурусский; за 2004 г. — полутурок; за 2006 г. — полубелъгийка-полуфранцуженка, полумордвин-полурусский.
В то же время в Большой словарной картотеке ИЛИ РАН имеются материалы на следующие 11 лексем: полу араб, полу бурят, полуеврей, полукитаянка, полунемец, полурусский, полутатарин, полуукраинка, полуцыган, полуэвенка, полуяпонка, а в словаре «Слитно или раздельно?» [СР-98] было впервые зафиксировано 8 подобных слов: полуангличанин, полу англичанин-полуеврей, по-лудатчанин, полудатчанин-полунемец, полуиспанка, полунемец, полурусский, полуфранцуз.
Приведенные выше данные могут ввести в заблуждение, создав впечатление, что перед нами или достаточно редкое, или только формирующееся явление. Однако обращение к Национальному корпусу русского языка показало употребление слов данной группы не только в публицистике, но и в художественной литературе двух предшествующих веков. Они встречаются в произведениях А. А. Бестужева-Марлинского (полуполяк-полурусский), М. Н. Загоскина (полуфранцуз), А. С. Пушкина (полурусский), В. И. Даля (полуполъка), Г. П. Данилевского (полунемец, полу-
еврей), Ф. М. Достоевского (полуитальянец, полуфранцуз), И. С. Тургенева (полунемец, полуфранцуз), В. Г. Короленко {полу якут ) и др., а также в более близкий к нам период у П. Д. Боборыкина {полу американец-полу англичанин, полунемка-полуполъка),
A. М. Городницкого {полутурок, полушотландец, полуэфиоп),
B. А. Гофмана {полуфранцуженка-полуиспанка), Д. А. Гранина {полуеврейка, полунемец-полурусский), И. А. Ефремова {получеркес-полуукраинец), Н. А. Клюева {полуказак), А. Б. Мариенгофа (полу-цыган), В. В. Набокова {полу француз-полу австриец), В. А. Осеевой (полуукраинец), Н. Н. Пунина {полувенгр, полуполяк), Г. С. Эфрона {полуукраинка-полурусская) и многих др. Еще более впечатляющие в количественном отношении результаты были получены при обращении к ресурсу Google Book Search.
Когда в 2004 г. в неографическую практику в качестве главного и постоянно используемого инструмента был введен такой интернет-ресурс, как Интегрум, представляющий собой постоянно пополняемую электронную базу российских периодических изданий, было выявлено более 500 лексем данного словообразовательного типа. После проверки собранного материала на новизну по Национальному корпусу русского языка и ресурсу Google Book Search около половины обнаруженных лексем отсеялось. Оказалось, что в текстах периодики в период с середины 1990-х гг. XX в. по 2004 г. встретилось 261 слово, не зафиксированное в каких-либо других источниках. В их числе 54 слова, образованных по модели полу... + существительное — наименование лица по национальной принадлежности / стране проживания (например, испанка—и лицо испанской национальности, и жительница Испании), из которых 36 называют лицо мужского пола {полуабхаз, полуазербайджанец, полуайсор, полуармянин, полубашкир, полубелорус, полубразилец, полубретонец, полубританец, полугаваец, полугрек, полугрузин, по-лудатчатт, полуирландец, полуисландец, полуиспанец, полуказах, полулитовец, полумадъяр, полумексиканец, полумолдаванин, по-луосетин, полупуштун, полурумын, полусловак, полутаджик, полу-таец, полутувинец, полуузбек, полухохол, получех, получеченец, по-лучуваш, полушвед, полушвейцарец, полуяпонец) и 18 — женского {полу алжирка, полу аргентинка, полу армянка, полу бурятка, полу голландка, полугречанка, полугрузинка, полудатчанка, полуирландка,
полулатышка, полумонголка, полупортугалка, полурумынка, полу-сербка, полу сирийка, полутайка, полутатарка, полутурчанка).
К этой же группе относится еще 6 лексем, образованных от наименований лица по месту проживания, из которых 3 называют лицо мужского пола (полуавстралиец, полуевропеец, полурос-сиянин,) и 3 — женского (полуазиатка, полуиндианка, полуиранка). От существительных, обозначающих расовую принадлежность (негритянка) или отношение к какой-либо этнической группе (название группы народностей и т. п., например: араб) образована 1 лексема, обозначающая лицо мужского пола (полунегр) и 1 — женского (полунегритянка).
Среди дефисных образований, каждый член которых начинается с полу..., количественно выделяется группа наименований лиц мужского пола (110 слов), произведенных от существительных одного семантического ряда— названий национальностей:
полуаз ер байджанец-полуеврей полуармянин-полу грек по луармянин - полу грузин полубразилец-полуяпонец по лугрек-полу грузин полугрек-полутурок полугрузин-полумордвин полугрузин-полуо сетин по лугрузин-полу поляк полугрузин-полурусский по лугрузин-полу хохол полуеврей-полуазербайджанец по луевр ей - п олу калмык полуеврей-полу немец полуеврей-полу поляк по луевр ей-п олуу кр айн ец полуиспанец-полу венесуэлец полуиспанец-полуэльзасец по луиталья н ец- по лугрузин полуитальянец-полуюгослав полукабардинец-полурусский полуказах-полуаз ер байджанец полуказах-полурусский
полуказах-полутатарин полукалмык- полу по ля к полу китаец -п олубирман ец полу китаец -п олу гаваец полукитаец-полуеврей полукитаец-полуирландец полукитаец-полуяпонец полулатыш-полурусский полулитовец- полу по ля к полумариец-полутатарин полум олд аван и н-по лу в ен гр полум олд аван и н-по луру с ский полунемец-полуармянин полунемец-полуеврей полунемец-полуирландец полу немец- полу итальянец полу немец-полу казах полу немец- полукалмык полунемец-полунорвежец полу немец- полу по ляк полунемец-полуукраинец полунемец-полуэстонец полунемец-полуяпонец
полуосетин-полу грузин полуосетин-полуукраинец полуполяк-полуеврей полуполяк- полумадьяр полуполяк-полумолдаванин полуполяк- полунорвежец полуполяк- полутатарин полуполяк-полуукраинец полурусский-полуармянин полуру с ский-полу грузин полурусский-полуеврей полуру с ский-полу ингуш полуру с ский-полу испанец полуру с ский-полу итальянец полуру с ский-полу кабардинец полуру с ский-полу казах полурусский-полукарачаевец полуру с ский-полу кореец полуру с ский-полу коря к полуру с ский-полулатыш полурусский-полунемец полурусский-полуосетин полуру с ский-полу по ля к полуру с ский-полутатарин полурусский-полутунгус полурусский-полуукраинец полурусский-полуфранцуз полуру с ский-полу чеченец полутур ок-п о лугр ек полутур ок- п о луфр анцуз полутаджик-полупуштун полутатарин-полуармянин
и 44
полутатарин-полуукраинец полутувинец-полуякут п олутуркмен-по лурус ский полууз бек-полуеврей полууз бек-по лутуркмен полуфинн-полугрек п олуфр анцуз -полуалжир ец п олуфр анцуз -полуангличанин п олуфр анцуз-полу испанец п олуфр анцуз-полу итальянец п олуфр анцуз -полулао с ец п олуфр анцуз-полу немец п олуфр анцуз-полуполяк п олуфр анцуз-полурусский п олуфр анцуз -полу чу ваш п олуфр анцуз -п олу швед п олу хохол- п олу каз ах полуцыган-полуеврей полу цыган-полуузбек полу чех-полу итальянец полу чеченец-полурусский п олу чу ваш-полу евр ей получуваш-полумордвин полу швед-полу венгр полу швед-полу исландец полу швед-по лурус ский полушвед-полуфинн п олуэстон ец - п олуармянин полуэстонец-полурусский полуякут-полутувинец полуяпонец-полунемец полуяпонец-полурусский
наименования лиц женского пола:
полуангличанка-полуяпонка полуармянка-полутурчанка полу вене суэлка- п олуеврейка полуголландка-полуяпонка полу гречанка-полу еврейка полу гречанка-полу итальянка
полугречанка-полурусская полугрузинка-полуфранцуженка полуеврейка-полу немка полуеврейка-полутатарка полуитальянка-полувене суэлка полуитальянка-полурусская
полуитальянка-полуфранцуженка
полуитальянка-полухорватка
полуитальянка-полушведка
полукиргизка-полуказашка
полукитаянка-полунемка
полукитаянка-полуяпонка
полунемка-полуангличанка
полунемка-полуфранцуженка
полунемка-полушведка
полуненка-полурусская
полурусская-полубурятка
полурусская-полуказашка
полурусская-полукитаянка
полурусская-полунемка
полурусская-полурумынка
полурусская-полуфранцуженка
полурусская-получеченка
полурумынка-полуармянка
полурумынка-полурусская
полутатарка-полукитаянка
полутатарка-полурусская
полуузбечка-полутатарка
полуукраинка-полугречанка
полуфранцуженка-полуаннамитка
полуфранцуженка-полурусская
полуфранцуженка-полурумынка
полуфранцуженка-полусербиянка
полуфранцуженка-полутайка
получерногорка-полуукраинка
полушведка-полурусская
полуяпонка-полуирландка
полуяпонка-полурусская
Среди лексем, в которых компоненты (названия лиц) относятся к разным семантическим группам, можно выделить несколько типов: 1) один из компонентов называет лицо по его национальной принадлежности или стране проживания, а другой — по названию страны или месту проживания: обозначения мужского пола (13 лексем): полуамернканец-полукнтаец, полу-американец-полуроссшнин, полубританец-полуримлятт, полугрек-полургшлятт, полугрек-полуроссиятт, полугрузин-полуроссиянин, полуиспанец-полукамерунец,полуканадец-полуроссиянин,полуполяк-полумалороссиянин, полуроссиянин-полуамериканец, полурусский-поплуевропеец, полусибиряк-полуукраинец, полуфранцуз-полуамериканец; обозначения лиц женского пола (14 лексем): полу-азиатка-полуукраинка, полу англичанка-полу австралийка, полуанг-личанка-полуиндианка, полугренландка-полудатчанка, полудат-чанка-полугренландка, полуиранка-полуиталъянка, полуиранка-полушвейцарка, полукитаянка-полуавстралийка, полукитаянка-полумалазийка, полунемка-полуавстралийка, полунемка-полуамериканка, полунемка-полуболивийка, полунемка-полувенецианка, полу-француженка-полуамериканка; 2) один компонент обозначает национальность лица, а другой — принадлежность к расовой или этнической группе: обозначения лиц мужского пола (6 лексем): полуараб-полуеврей, полу араб-полу француз, полуиндеец-полуиспа-
нец, полуказак-полукалмык, полуказак-полуукрагтец, полуфранцуз-полуараб; обозначения лиц женского пола (2 лексемы): полуказачка-полушведка, полунегритянка-полуиспанка.
Помимо отмеченного, было зафиксировано 7 образований, не укладывающихся в рамки данного типа: полуабориген-полуирландец, полуармян-полуфашист, полуеврей-полукосмополит, полунерусский-полунеу’краинец, полурусский-полупъяный-полуяпонец, полутатарин-полутувинец-полурусский, среди которых своей необычностью выделяется окказиональное образование полумосквич-полупонаехали. Кроме того, было обнаружено и 3 случая использования рассматриваемых существительных в функции приложения: герой-полутурок, дочъ-полуяпонка, женгцина-полуяпонка.
В общей сложности, с помощью новых методов была выявлена 261 неолексема с компонентом полу..из которых: 62 — однокомпонентные, 189 — двухкомпонентные и 10 — не вписывающиеся в выделенные словообразовательные типы. Подавляющее большинство слов представлены одним (в 206 случаях) или двумя (в 24 случаях) контекстами, иллюстрирующими их употребление. В трех разных источниках зафиксированы полубашкир, полугаваец, полуиндианка, полуисландец, полуказах, полутувинец, полуармятт-полугрузин, полунемец-полуеврей, полунемка-полушведка, полу-осетин-полуукраинец, полурусский-полуеврей, в 4-х — полугре-чанка, полугрузинка, полудатчанин, полуирландец, полуосетин, полутаджик, полутатарка, получеченец; полуеврей-полунемец, полуфранцуженка-полурусская, полуфранцуз-полуамериканец, в 5-ти — полушвед, получех, полу грек, в 6-ти — полулитовец, полу-японец, в 7-ми — полу грузин, полуиспанец; в 8-ми — полуевропеец, а своеобразным рекордсменом в данном отношении стало слово полуармянин, употребление которого иллюстрируется 9-ю разными контекстами.
Сетевые текстовые базы, о которых говорилось выше, в работе неографов являются вспомогательным средством. Исходным же источником была и остается выборка, сделанная путем традиционного обследования текстов периодики. На данный момент основная масса неолексем может быть зафиксирована и описана только после того, как будет обнаружена в тексте или услышана на улице, по радио или телевидению. Компьютерные технологии позволяют
лишь подобрать необходимое для полноценного представления количество более удачных примеров употребления конкретной лексемы, а также выявить производную от нее лексику, устойчивую сочетаемость, родственные и однотипные слова, имеющуюся многозначность и т. п. Но насколько длинной может быть цепочка поисковых запросов к базе данных и каков конечный результат такого поиска? Остановимся на этом, вернувшись к рассматриваемой группе слов.
В исходных материалах выборки 2004 г. содержалась лишь одна интересующая нас лексема в единичном употреблении — слово полутурок. Обращение к сетевому ресурсу «Интегрум» с целью обнаружения других контекстов употребления данной единицы позволило выявить и такие слова, как полутурчанка, полугрек-полутурок, полу турок-полу грек, полу армянка-полу турчанка, герой-полутурок. Естественно, что с этими словами было проделано такое же обследование по Интегруму, и начинала возникать ситуация снежного кома. Однако точку все-таки удалось поставить, дойдя до упоминавшегося уже результата — более 500 лексем. Далее обнаруженные слова проверялись по таким ресурсам, как Национальный корпус русского языка, Google-книги и Корпус национального русского языка, что позволило «отсеять» (на основании более ранней фиксации) около половины, оставив лишь 261 единицу. Кстати, на этом этапе работы была «отсеяна», например, и лексема полутурок, с которой все и начиналось... Невозможно поручиться, что использование в качестве исходного какого-либо другого слова (а не полутурок), не привело бы к подобному или близкому результату. Отметим также, что Национальный корпус русского языка и Google Book Search находятся в стадии постоянного пополнения новыми материалами, иначе говоря, в результате повторного обращения к этим ресурсам в любой момент могут обнаружиться данные, требующие корректировки уже сделанных выводов.
Итак, как было показано выше, использование современных интернет-технологий часто приводит к обнаружению новых кандидатов на вхождение в словарь. У многих неолексем, представленных в первоначальной выборке, выявляется по несколько производных, родственных или однотипных по образованию слов. Иногда количество таких единиц исчисляется десятками, а в отдельных
случаях — сотнями. Лексикографическая обработка этого дополнительного материала также требует временных затрат и ведет к росту объема словаря, а это, в свою очередь, требует внесения коррективов в планирование работы. При создании словарей новых слов всегда существовала установка на выборочное представление инновационных процессов лексического состава русского языка по достаточно коротким срезам. Новые возможности заставляют проводить более полное их выявление и более тщательное описание. Необходимо сформулировать новую филологическую задачу, способную определить ту золотую середину, в русле которой будет развиваться данное направление. На наш взгляд, более широкий охват, более детальная проработка материала требуют, с одной стороны, увеличения человеческого ресурса, а с другой — изменения способов подачи материала с целью его компрессии.
Литература
Буцева 2008 — Т. Н. Буцева. Неография в эпоху Интернета // Материалы XXXVII Международной филологической конференции / Отв. ред. Л. А. Ивашко, И. С. Лутовинова. Вып. 15: Лексикология и лексикография (русско-славянский цикл). СПб.: Факультет филологии и искусств СПбГУ, 2008. С. 3-10.
Пономаренко 1985 — С. А. Пономаренко. Наблюдения над семантикой пол-/полу- в сложных словах в русском литературном языке XIX века // Структура языка и языковые изменения. АН СССР. Институт языкознания. Лингвистические исследования-1985. М.: Наука, 1985. С. 154-161.
Словари
НРЛ-78 —Новое в русской лексике. Словарные материалы-1978 /Н. Г. Герасимова, Н. 3. Котелова, Т. Н. Половцева и др. / Под ред. Н. 3. Коте-ловой. М.: Рус. яз., 1981.
НРЛ-81 — Новое в русской лексике. Словарные материалы-1981 / Н. 3. Котелова, Н. В. Соловьев, М. Н. Судоплатова и др. / Под ред. Н. 3. Котеловой. М.: Рус. яз., 1986.
НРЛ-86 — Новое в русской лексике. Словарные материалы-1986 /
В. Н. Плотицын, М. Н. Судоплатова, Н. 3. Котелова и др. / Под ред.
Н. 3. Котеловой, С. И. Алаторцевой, Т. Н. Буцевой. СПб.: Дмитрий Буланин, 1996.
HPJ1-89 — Новое в русской лексике. Словарные материалы-1989 / М. Н. Судоплатова, В. Н. Плотицын, Н. В. Соловьев и др. / Под ред. Н. В. Соловьева. СПб.: Дмитрий Буланин, 2001.
HPJ1-90 — Новое в русской лексике. Словарные материалы-1990 / Л. В. Степанова, В. Н. Плотицын, М. Н. Судоплатова и др. / Под ред. Т. Н. Буцевой. СПб.: Дмитрий Буланин, 2004.
НРЛ-91 — Новое в русской лексике. Словарные материалы-1991 / Ю. Ф. Денисенко, Н. А. Козулина, Т. Н. Буцева и др. / Под ред. Ю. Ф. Денисенко. СПб.: Дмитрий Буланин, 2005.
НРЛ-93 — Новое в русской лексике. Словарные материалы-1993 / Е. А. Левашов, Т. Н. Буцева, Ю. Ф. Денисенко и др.; Под ред. Т. Н. Буцевой. СПб.: Дмитрий Буланин, 2008.
НРЛ-94 — Новое в русской лексике. Словарные материалы-1994 / Е. А. Левашов, Ю. Ф. Денисенко, Н. А. Козулина и др. / Под ред. Ю. Ф. Денисенко. СПб.: Дмитрий Буланин, 2006.
СР-98 — Букчина Б. 3., Калакуцкая Л. П. Слитно или раздельно? Орфографический словарь-справочник: Свыше 107000 слов. М.: Рус. яз., 1998, 4-е изд. 2006.
Орфографический словарь русского языка: Ок. 130 000 слов; Ок. 400 ком-мент. / ИЛИ РАН; Н. В. Соловьев. — М.: ООО «Издательство Астрель»: ООО «Издательство АСТ»; ООО «Транзиткнига», 2003.
РОС — Русский орфографический словарь: около 180 000 слов / О. Е. Иванова, В. В. Лопатин (отв. ред.), И. В. Нечаева, Л. К. Чельцова. — 2-е изд., испр. и доп. М., 2005.
ТСРЯ — Толковый словарь русского языка с включением сведений о происхождении слов / Отв. ред. Н. Ю. Шведова. М.: Азбуковник, 2008.