Научная статья на тему 'Автоматизированный конкорданс: опыт создания и практика использования'

Автоматизированный конкорданс: опыт создания и практика использования Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
1242
199
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КОНКОРДАНС / CONCORDANCE / ЛЕКСИКОГРАФИЯ / LEXICOGRAPHY / КОМПЬЮТЕРНЫЕ ТЕХНОЛОГИИ / COMPUTER TECHNOLOGY / СУБМЕГАТЕКСТЫ / МЕГАТЕКСТ / MEGATEXT / SUBMEGATEXTS

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Хроленко А.Т.

В статье дается краткое описание отечественного опыта создания автоматического конкорданса, анализируются достоинства и недостатки книжного (на бумажном носителе) и электронного конкорданса. На примере конкретных статей убедительно доказывается, что электронный конкорданс может выступать как высокоинформативная форма словарного описания.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Computeraided concordance: the experience of making and the practice of usage

The article gives a brief overview of the domestic experience creating automatic concordance, analyzes the advantages and disadvantages of the book (on paper) and electronic concordance. Examples of specific articles convincingly proved that the electronic concordance can act as a highly informative manner vocabulary description.

Текст научной работы на тему «Автоматизированный конкорданс: опыт создания и практика использования»

Актуальные вопросы лексикографирования

^ автоматизированный конкорданс:

? опыт создания и практика использования

оо

§ А. т. хроленко

в статье дается краткое описание отечественного опыта создания автоматического конкорданса, анализируются достоинства и недостатки книжного (на бумажном носителе) и электронного конкорданса. на примере конкретных статей убедительно доказывается, что электронный конкорданс может выступать как высоко информативная форма словарного описания.

ключевые слова:

конкорданс, лексикография, компьютерные технологии, субмегатексты, мегатекст.

В современной филологии отчетливо просматриваются две тенденции — (1) лексикографизация методов и (2) кор-пусность, под которой понимают ориентацию на большие массивы текстов — корпусы.

Лексикографической формой, в которой сходятся обе тенденции, является конкорданс — список словоупотреблений с отсылкой ко всем контекстам 1. Большой толковый словарь определяет конкорданс как «алфавитный перечень всех слов какого-либо текста с указанием контекстов их употребления» [БТС: 449]. Конкорданс может быть полным, в котором дается перечень всех слов какого-либо текста с указанием всех контекстов их употребления, или неполным, когда словарь дифференцирован, а цитация контекстов избирательна. От традиционных словарей, например толковых, ориентированных на нормативность, конкордансы отличаются нацеленностью на исчерпывающее представление лексики. При этом конкорданс фиксирует вариативность слова.

Поскольку в конкордансе регистрируются все случаи употребления того или иного наименования, он оказывается удобной лексикографической формой, отражающей все индивидуальные особенности стиля конкретного произведения или конкретного автора. Вот почему в зарубежной лексикографии, в частности английской и американской, конкорданс стал ведущим и общепринятым жанром писательских словарей, создаваемых с помощью электронно-вычислительной техники по универсальным программам в короткие сроки (об этом см.: [Карпова 1989: 62-67]). В течение ХХ столетия форма конкорданса к отдельным произведениям и ко всему творчеству художника слова не только утверждалась, но и совершенствовалась. Известны конкордансы к Библии, произведениям Чосера, Шекспира, Байрона, Фолкнера, О'Нила, Фицджеральда и др. В русской лексикографической традиции конкордансы составлялись преимущественно к поэтическим текстам. В антологии «Русская авторская лексикография Х1Х-ХХ веков» наряду с первыми опытами неполного конкорданса к стихотво-

1 Контекст — это связный фрагмент мегатекста, включающий данную словоформу и достаточный для понимания её смысла и синтаксического окружения. Обычно это строфа, сонет или предложение.

рениям Г. Р. Державина, сочинениям и переводам Д. И. Фонвизина представлены конкордансы к произведениям нескольких русских поэтов: Е. А. Баратынского, К. Н. Батюшкова, А. С. Пушкина, Ф. И. Тютчева, О. Мандельштама. Эти конкордансы, выполненные машинным способом, были подготовлены за границей в 70-80-е годы ХХ столетия [Русская авторская лексикография 2003].

Благодаря развитию компьютерных технологий стало возможным составление полных конкордансов непосредственно в нашей стране. Так, в конце ХХ века увидел свет конкорданс к роману Ф. М. Достоевского «Преступление и наказание», включающий все словоформы, встречающиеся в этом произведении [Русская авторская лексикография 2003: 203-213]. Известен опыт конкорданса — «словаря-навигатора» к роману А. С. Пушкина «Евгений Онегин» [Опыт 2003]. В 2005 г. вышло первое издание конкорданса к стихотворениям М. Кузмина [http://www.imhoclub.ru/ Ьоок$/?^=30084775]. Курские лингвофолькло-ристы подготовили и издали четыре конкорданса русских народных песен Курской, Архангельской, Олонецкой губерний и Сибири [Бобунова, Хро-ленко 2007; 2008; 2009; 2010].

Достоинства конкорданса видится в следующем: это источник готового иллюстративного материала; база современной лексикографии; инструмент решения языковедческих задач (создание списков слов различного назначения; выявление и анализ ключевых слов; анализ частотности слов и словосочетаний; сопоставительный анализ лексиконов разных авторов; выявление устойчивых конструкций различного типа).

Обычно конкорданс выполняет две основные функции — поисковую и эвристическую. Первая функция основывается на возможности быстрого поиска всех фрагментов того или иного текста с необходимым для пользователя словом, а эвристическая функция предполагает решение целого ряда задач исследовательского характера, касающихся семантики слова, его связей, особенностей синтаксических конструкций, выявления тематических групп лексики, сопоставительных наблюдений и др. По мнению ряда исследователей, интерес к конкордансам является свидетельством характерной тенденции современной науки — стремления преодолеть «гуманитарный» субъективизм при анализе явлений искусства [http://www.imhoclub. га/Ьоок$/?^=30084775]. Таким образом, конкорданс предстает как высоко информативная форма словарного описания.

Конкорданс может быть в книжной (бумажной) и электронной версии. Каждая версия имеет свои достоинства и недостатки. У книжной версии те же достоинства и недостатки, что и у бумажной

книги перед другими формами предъявления информации пользователям. Недостаток, во-первых, в ее «окаменелости», неизменности и, во-вторых, в издательских ограничениях по объему словарных статей с необходимостью предельно редуцировать контексты. У электронной версии все наоборот. Отсутствие магии книги и возможность предъявить контексты в полном объеме.

Остановимся на разработанной и используемой нами автоматизированной версии конкорданса.

Во всех случаях, когда филолог исследует текст конкретного произведения, он сознательно или на бессознательном уровне учитывает потенциальную совокупность текстов, связанных между собой тем признаком, который актуален в анализе избранного текста. Этог предопределяет стремление исследователя содержащуюся только в его голове совокупность превратить в совокупность реально или потенциально явленную в той или иной форме.

Эмпирической базой филологического анализа может явиться совокупность текстов, которую мы назвали термином мегатекст — совокупность текстов, которые воспринимаются или исследуются как единое дискурсивное целое, пронизанное общими темами, лейтмотивами, архетипами, символами, ключевыми словами, стилевыми приемами. Обычно мегатекст воспринимают как нечто виртуальное, потенциальное, фоновое, как некую совокупность, которая присутствует в голове исследователя и учитывается им при выявлении особенностей того или иного конкретного текста, имеющего отношение к данной совокупности.

Для тех, кто использует количественные технологии, мегатекст — это текст, объединяющий конкретные паспортизированные тексты, существующий реально и материально представленный в письменной или электронной форме. Если произведение это данность, не зависящая от исследователя, то мегатекст — образование искусственное, определяемое задачами исследования. Объединяющим началом мегатекстов может явиться жанровая, территориальная, индивидуально-исполнительская принадлежность объединяемых текстов.

Каждый мегатекст — это совокупность паспортизированных песенных текстов, существующая в бумажной и электронной версиях. Электронная версия мегатекста объединена в один комплекс со специально разработанной компьютерной программой посредством электронного автоматизированного словника, который позволяет практически мгновенно извлекать из мегатекста любую лексему или словоформу с полным набором контекстов, в котором есть искомое слово. По сути, в этом случае исследователь обладает надежным поисково-справочным инструментом.

го со о по -О

О

го

го а

го

по О и

с

о

и

х

го &

О ^

х

о

го со о а

го X о н

со <

о ^

X

О! ^

о а X

оо см

о

см

го

го

О!

а

к

го ^

и О!

о о

Технологию создания электронного конкорданса и его возможности покажем на примере мегатекста «Фет».

Из-за отсутствия академического издания стихов А. А. Фета в основу мегатекста были положены все стихотворные тексты, помещенные в первом томе двухтомника сочинений поэта [Фет 1982: 41-278]. При подготовке мегатекста их стихов опускаются все элемента, не являющиеся органической частью произведения (заголовки, пометки о времени и месте написания, примечания различного рода и проч.). Затем с учетом внутренней структуры корпуса осуществляется паспортизация каждого входящего в корпус текста. В нашем случае меткой является номер страницы тома. Эти метки указываются в ломаных скобках. Для компьютерной программы это знак, что все содержащееся в скобках текстом не является, а потому не учитывается.

Итак, для начала работы над созданием автоматизированного конкорданса необходимы: (1) мегатекст и (2) компьютерная программа. Третий компонент конкорданса — словник — программой создается автоматически, и доступ к нему возможен только посредством этой же программы.

С помощью компьютерной программы мегатекст «рассыпается» на словоформы с указанием количества словоупотреблений. В итоге получается упорядоченный по алфавиту список словоформ, который затем путем лемматизации может быть превращен в словоуказатель лексем. Благодаря словнику, который можно рассматривать как надежный исследовательский инструмент для решения любых проблем, филолог имеет целостное представление о количественных и качественных параметрах словарного состава мегатекстов. Благодаря компьютерной программе каждая словоформа и каждая лексема связаны со всеми контекстами мегатекста, в которых они наличествуют.

Первым и главным продуктом нашей программы является словник словоформ, который путем лемматизации сводится в словник лексем. В нашем исследовательском обиходе имеются словники, в которых не все словоформы сведены в лексемы. Так, в конкордансах фольклорных текстов оставляются диминутивы, а также другие специфические формы, например, деепричастия в архаической форме или грамматические формы, передающие в фольклорных текстах особый художественный смысл.

Полученный словник может рассматриваться и как исследовательский результат, и как инструмент для последующей работы над конкордансом.

Теперь мы знаем, что мегатекст «Фет» состоит из 5230 лексем, употребленных 34 794 раза.

Исследовательские возможности словника увеличиваются, если на его основе параллельно создается частотный список лексем, который затем можно исследовать на разных уровнях: топ-50, топ-100 и т. д. Как обычно, в начале частотного списка сосредоточен так называемый грамматический словарь (союзы, предлоги, частицы, местоимения, связки, артикли). К примеру, самое частотное слово у Фета — союз И, самые частые знаменательные слова — ночь, сердце, душа, день, один, небо, сон, любить, звезда, земля и жизнь. Эта объективная информация в дальнейшем может стать основой для содержательного комментария.

Напомним, что за каждым словом стоят все контексты, в которых употреблено данное слово. Достаточно «кликнуть» любое из 5230 слов нашего словника, чтобы были представлена вся совокупность соответствующих контекстов. «Кликнем», например, глагол затрепетать.

Затрепетать 5. Я пришел к тебе с приветом, Рассказать, что солнце встало, Что оно горячим светом По листам затрепетало [Фет 1982: 211]; Как будто с трепетом здесь каждого листа Моя пробудится и затрепещет совесть, И станут лепетать знакомые места Давно забытую, оплаканную повесть [Фет 1982: 217]; я жду, нельзя ли превозмочь Твоей холодности, подметить миг участья, Чтобы в глазах твоих, загадочных как ночь Затрепетали звезды счастья [Фет 1982: 219]; Пред тенью милою коленопреклоненный, В слезах молитвенных я сердцем оживу И вновь затрепещу, тобою просветленный,— Но все тебя не назову [Фет 1982: 251]; Умолкла я,— я вся затрепетала Перед твоим лицом [Фет 1982: 254].

Автоматизированный конкорданс выдал нам одну из 5230 словарных статей. Взглянем, скажем, на словарную статью «Вослед». Вослед — это и устаревшее наречие, и предлог. Исчерпывающий список контекстов мегатекста дает возможность провести работу над омонимией. Вот вам еще один пример целесообразности конкорданса для результативной работы над толковыми словарями.

Вослед 8. но сколько любви благодатной Светит в лазурных очах мальчику злому вослед! [Фет 1982: 48]; И снова я люблю, и снова я любим, Несусь вослед мечтам любимым, А сердце грешное томит меня своим Неправосудьем нестерпимым [Фет 1982: 70]; Когда вослед весенних бурь Над зацветающей землей Нежней небесная лазурь И облаков воздушен рой, Как той порой отрадно мне Свергать земли томящий прах, Тонуть в небесной глубине И погасать в ее огнях! [Фет 1982: 92]; Я веслом прибавил ходу — И луна бежит вослед [Фет 1982: 121]; За девой смуглолицей Вослед толпа [Фет 1982: 170]; Богом света покинута, дочь Громовержца немая, Ночь Гелиосу вослед водит

возлюбленных чад [Фет 1982: 174]; На утре дней все ярче и чудесней Мечты и сны в груди моей росли, И песен рой вослед за первой песней Мой тайный пыл на волю понесли [Фет 1982: 205]; Лечу на смерть вослед мечте [Фет 1982: 267].

В отличие от толковых словарей, создаваемых традиционным путем с последующей письменной фиксацией, обеспечивающей неизменность текста до следующего переиздания, автоматизированный конкорданс в случае обнаружения ошибок любого рода как в мегатексте, так и в словнике предполагает их оперативное исправление.

Наличие конкордансов нескольких мегатекстов обеспечивает возможность сравнительного или сопоставительного анализа. Так, в нашем распоряжении имеется мегатекст «Тютчев», что в свое время позволило нам предложить опыт контрастивного словаря двух русских поэтов [Бобунова, Хролен-ко 2005]. Скажем, Фет использует слово вереница 'ряд однородных, расположенных один за другим, обычно движущихся предметов или живых существ' [МАС 1981: 1: 150].

Вереница 6. Ведь снова не пойму я ни одной страницы — И яркий белый свет начнет в глазах мелькать, И ложных призраков заблещут вереницы [Фет 1982: 46]; Пускай вокруг меня, тяжелые громады, Из праха восстают и храмы и дворцы, И драгоценные пестреют колоннады, И воскресают мертвецы, И шум на площади, и женщин вереница, И вновь увенчанный святой алтарь горит, И из-под новых врат златая колесница К холму заветному спешит [Фет 1982: 50]; И там, в глубине, молодая царица, Бегут пред тобой светоносные пятна, И этих несметных огней вереница Одной лишь тебе и видна и понятна [Фет 1982: 182]; Не мчались ласточки, звеня, перед окном, И мошек не толклись блестящих вереницы, Сидели голуби, нахохлившись, рядком, И в липник прятались умолкнувшие птицы [Фет 1982: 218]; Конь морской, Ты понесся быстрой птицей — Только пляшут вереницей Нереиды за тобой [Фет 1982: 226]; Видений пестрых вереница Влечет, усталый теша взгляд, И неразгаданные лица Из пепла серого глядят [Фет 1982: 228].

А вот в стихах Ф. И. Тютчева, по данным соответствующего автоматизированного конкорданса, это существительное отсутствует. Зато в них актуально слово сочувствие.

Сочувствие 6. Живым сочувствием привета С недостижимой высоты, О, не смущай, молю, поэта! [Тютчев 1980: 99]; Недаром русские ты с детства помнил звуки И их сберег в себе сочувствием живым — Теперь для двух миров, на высоте науки, Посредником стоишь ты мировым [Тютчев 1980: 158]; Как оправдать сочувствие к тому, Кто отстоял и спас России целость, Всем жертвуя

призванью своему,— Кто всю ответственность, весь труд и бремя Взял на себя в отчаянной борьбе [Тютчев 1980: 162]; И этот клич сочувствия слепого, Всемирный клич к неистовой борьбе, Разврат умов и искаженье слова — Все поднялось и все грозит тебе, О край родной! [Тютчев 1980: 162]; Какой хвалой благоговейной, Каким сочувствием живым Мы этот славный день почтим — Народный праздник и семейный ? [Тютчев 1980: 184]; Нам не дано предугадать, Как слово наше отзовется,— И нам сочувствие дается, Как нам дается благодать [Тютчев 1980: 199].

В стихах же Фета это слово прозвучало только один раз:

Сочувствие 1. Когда к нему ты понесешь цветы, Снеси ему сочувствие от друга [Фет 1982: 190].

Отсюда логичен вывод о том, что автоматизированный конкорданс — объективный и в какой-то степени исчерпывающий способ выявить особенности идиолекта или идиостиля того или иного автора.

Сопоставительный анализ, который в филологии используется весьма активно, обеспечивается возможным наличием субмегатекстов. Субмега-текст — это часть мегатекста, выделенная по какому-либо признаку. Например, совокупность переводных текстов в корпусе поэтических текстов Фета, стихов, написанных в определенный период или в определенном месте, тексты определенной тематики. В лингвофольклористике мегатекст — это, например, все народно-поэтические тексты, записанные на территории Курской губернии, а субмегатексты — это тексты, связанные с определенным уездом этой губернии — Обоянским, Щигровским и др.

Возможности эффективного использования автоматизированного конкорданса уже проверены на материале фольклорных текстов. Четыре мегатекста с конкордансами — «Курск», «Архангельск», «Олонец», «Сибирь», а также мегатекст «Рябинин» — существенное подспорье в лингво-фольклористических исследованиях. Последний из указанных конкордансов позволяет получить целостное представление о языковой картине мира эпического мира, явленной в лексиконе выдающегося сказителя Т. Г. Рябинина. В его былинно-языковой картине мира, к примеру, занимает свое место фрагмент «чужое». Количественно фрагмент невелик: 36 лексем в 222 словоупотреблениях. Это чужедальняя топонимика и оттопонимическая лексика, этнонимы и образованные от них прилагательные, лексика конфессиональной оценки неправославных персонажей, определения к именам артефактов иноземного происхождения. Т. Г. Рябинин жил и исполнял былины в Олонецкой губернии. Поскольку у нас есть конкорданс олонецких народных песен,

го со о по -О

О

го

го а

го

ta

по о

-D С

о

U х го

ta

а

о ^

х

о

го со о а

го X о н

со <

0 ^

X

01 ^

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

о а X

оо

Г\|

о

CM

го

го

OI А

го ^

(V

о о

записанных в то же время, что и былины Рябинина, представляется возможность сопоставить народно-песенный и былинный лексиконы одной и той же местности, одного и того же времени бытования. Даже краткая количественная характеристика двух олонецких конкордансов — повод поразмышлять: олонецкие песни — 2844 лексемы в 12975 с/у и олонецкие былины Рябинина — 2229 лексем в 29081 с/у.

Полагаем, что разработанный и уже апробированный вариант автоматизированного конкорданса может быть источником надежного эмпирического материала и перспективной базой филологического исследования.

ЛИТЕРАТУРА

Бобунова М. А., Хроленко А. Т. Конкорданс русской народной песни. Т. 1. Песни Курской губернии. Курск, 2007.

Бобунова М. А., Хроленко А. Т. Конкорданс русской народной песни. Т. 2. Песни Архангельской губернии. Курск, 2008.

Бобунова М. А., Хроленко А. Т. Конкорданс русской народной песни. Т. 3. Песни Олонецкой губернии. Курск, 2009.

Бобунова М. А., Хроленко А. Т. Конкорданс русской народной песни. Т. 4. Песни Сибири. Курск, 2010. Бобунова М. А., Хроленко А. Т. Тютчев и Фет: опыт кон-

трастивного словаря. Курск, 2005. БТС — Большой толковый словарь русского языка / сост.

и гл. ред. С. А. Кузнецов. СПб., 2000. Карпова О. М. Словари языка писателей: Монография. М., 1989.

МАС — Словарь русского языка: в 4 т. Т. 1-1У. М., 1981-1984.

Опыт конкорданса к роману в стихах А. С. Пушкина «Евгений Онегин» с приложением текста романа. М., 2003.

Русская авторская лексикография Х1Х-ХХ веков: Антология. М., 2003. Тютчев Ф. И. Соч.: в 2 т. Т. 1. М., 1980. Фет А. А. Соч.: в 2 т. Т. 1. М., 1982.

ФГБОУ ВПО «Курский государственный университет». Поступила в редакцию 12.09.2012 г.

UDC 81'373.47

coMPUTER-AIDED concordance:

the experience of making and the practice of usage

A. T. chrolenko

The article gives a brief overview of the domestic experience creating automatic concordance, analyzes the advantages and disadvantages of the book (on paper) and electronic concordance. Examples of specific articles convincingly proved that the electronic concordance can act as a highly informative manner vocabulary description.

KEY WORD S: concordance, lexicography, computer technology, submegatexts, megatext.

i Надоели баннеры? Вы всегда можете отключить рекламу.