ПРОГНОСТИЧЕСКИЙ ПОТЕНЦИАЛ ЛИНГВИСТИЧЕСКОЙ ТЕОРИИ ТЕЗАУРУСА
С.А. Осокина
Ключевые слова: тезаурус, устойчивое сочетание слов, серия устойчивых сочетаний слов, метод тезаурусного анализа, языковая система знания.
Keywords: thesaurus, set collocation of words, series of set collocations of words, thesaurus analysis method, language system of knowledge.
Данная статья входит в ряд наших работ, посвященных раскрытию лингвистической концепции тезауруса. Развитие концепции к настоящему моменту позволяет заключить, что в современном языкознании появляется на свет новая теоретическая система - лингвистическая теория тезауруса, - так как представленные в работах результаты исследований органично складываются в целостную цепочку обоснованных положений, обладающих научной новизной и удовлетворяющих общим критериям построения научной теории.
Лингвистическая теория тезауруса представляет собой учение, раскрывающее языковую сущность знания. Объективной предпосылкой возникновения теории является современное состояние языкознания и общей методологии науки, в котором одной из наиболее актуальных проблем является поиск новых путей осмысления сущности знания. Как и всякая теория, лингвистическая концепция тезауруса имеет собственный объект и метод исследования, объясняет определенные закономерности и обладает прогностической функцией, то есть способна предсказывать возможные пути развития наблюдаемых объектов в будущем.
Цель настоящей статьи состоит в раскрытии прогностического потенциала лингвистической теории тезауруса. Для достижения поставленной цели необходимо кратко изложить основные положения концепции.
Философско-методологической базой теории являются положения, маркирующие связь языка и знания, разрабатываемые в ряде естественно-научных концепций (общей теории систем, теории информа-
ции, кибернетике, информатике, синергетике), а также философии постмодернизма (более подробно см.: [Осокина, 2013]). Лингвистическая основа теории сформирована в результате осмысления работ в рамках следующих направлений: когнитивной лингвистики и психолингвистики, лексикографии и лексикологии, теории текста и концепции языкового существования (более подробно см.: [Осокина, 2010]).
Научная новизна теории тезауруса состоит в определении и систематизации языковых структур знания и разработке метода их исследования на объективно представленном языковом материале - текстах.
Центральное понятие теории - «тезаурус» - заслуживает отдельного рассмотрения, так как его наполнение несколько отличается от общепринятого.
В языкознании тезаурусами называются словари идеографического типа, раскрывающие соотношение слов языка и основных понятийных категорий. Однако в последнее время слово «тезаурус» стало использоваться для обозначения языковой системы знания о мире. В отечественном языкознании основной вклад в изучение сущности тезауруса сделал Ю.Н. Караулов. В его трудах прослеживается эволюция понятия «тезаурус» от представлений об идеографических словарях [Караулов, 1976] к представлению о когнитивном уровне языковой личности, соотносящемуся с понятием «картина мира» [Караулов, 1987]. Понимание тезауруса в когнитивном ключе развивается в социологии и культурологии [Луков Вал.А., Луков Вл.А., 2005]. Однако в кибернетике, информатике и синергетике тезаурус определяется через понятие «информация»: тезаурус - это система, необходимая для рецепции, обработки и понимания информации [Шрейдер, 1965]. Это тоже система знания, но она изучается в свете положений теории систем и теории информации, трактующих информацию как материально-семантическую сущность, которую можно детально исследовать методом количественных исчислений на уровне материальных форм.
Лингвистическая теория тезауруса предлагает обобщенное представление о сущности тезауруса, сформированное в результате анализа нескольких тезаурусных словарей русского и английского языка (в том числе знаменитого Тезауруса Роже), словарей, напоминающих тезаурусы (ассоциативный, тематический, семантический и пр. словари) [Осокина, 20116] и критического анализа концепций тезауруса в рамках указанных направлений. Обобщенное определение тезауруса можно сформулировать следующим образом: тезаурус - это языковая система знания. Слово «языковая» в данном случае означает «проявляющаяся в виде языковых выражений»: знание может существовать в ви-
де формул, изображений, схем и пр., но основным способом существования знания, доступным для лингвистического анализа, являются тексты, написанные на определенном языке. Тексты одного автора раскрывают тезаурус индивида, совокупность всех реализованных на определенном языке текстов - общий тезаурус данного языка. Разрабатываемая теория предлагает альтернативный по отношению к когнитивным исследованиям подход к изучению языкового знания, при котором акцент ставится на исследовании материальной стороны языковых знаков. Мы полагаем, что при помощи лингвистического анализа можно выявить материальные формы знания, которые поддаются количественному исчислению, что дает возможность распознавать материальные языковые свидетельства восприятия информации, ее понимания и дальнейшего использования. Задача предлагаемой концепции тезауруса - найти ответы на те вопросы, которые не могут быть решены в рамках когнитивного подхода.
Языковыми структурами знания - единицами тезауруса - признаются устойчивые сочетания слов, или последовательности как минимум из двух слов, воспроизводимые в высказываниях носителей языка в практически готовом виде и зафиксированные во множестве различных текстов на данном языке. Единицами тезауруса выступают любые с точки зрения структурной организации, лексической наполненности и семантической связности сочетания слов, поэтому лексико -семантические и грамматические характеристики не могут являться достаточными критериями выделения тезаурусных единиц, охватывающими все их разнообразие. Основным языковым критерием выделения устойчивых сочетаний слов выступает их воспроизводимость в текстах. Устойчивые сочетания в таком понимании соотносятся с «коммуникативными фрагментами» [Гаспаров, 1996] «коллокациями» [Тер-Минасова, 1980; Борисова, 1995], «речевыми стереотипами», «прецедентными текстами» [Караулов, 1987] и другими несколько-словными языковыми объектами, выделяемыми современной лингвистикой, имеющими признаки устойчивости и воспроизводимости в текстах. Главным фактором, в силу которого устойчивые сочетания слов получают статус языковых единиц знания, является их соответствие основным характеристикам знания, выделяемым в философсом словаре [Философский словарь, 1986]: 1) они являются семиотическими продуктами человеческой познавательной деятельности, 2) в силу своей воспроизводимости представляют собой известную информацию (эмпирический, отработанный в опыте и закрепленный в памяти факт), 3) благодаря своей устойчивости проявляются в фиксированной форме,
имеющей социально-коммуникативную значимость. Перечисленным характеристикам знания соответствуют и другие единицы языка, главная из которых - слово. Однако слово не может выступать единицей тезауруса в предлагаемой концепции, поскольку система знания изучается нами на материале реально существующих текстов, что обусловливает выбор в качестве единицы анализа языковые сущности, структурно соответствующие характеристикам текста, то есть несколько-словные объекты - сочетания слов.
В качестве основополагающего принципа систематизации единиц тезауруса выдвигается серийная организация устойчивых сочетаний по наличию в них материально тождественного слова. Например, в серию с тожественным словом дом организуются такие устойчивые сочетания слов, как многоэтажный дом, дом у дороги, загородный дом, частный дом, сдаю дом, куплю дом, реалити-шоу «Дом-2», родильный дом, дом культуры, Земля - наш общий дом и другие. Серийная организация реализует принцип «фамильного сходства» Л. Витгенштейна [Витгенштейн, 1994], поскольку, кроме тождественного слова, входящие в состав серии сочетания не имеют других общих черт: некоторые из них могут соотноситься по грамматической структуре, другие имеют семантическое сходство, но нет такого признака, который имелся бы у всех членов серии и только у членов данной серии.
Суть предлагаемой теории тезауруса состоит в обосновании лингвистического метода исследования различного рода текстов путем выявления устойчивых сочетаний слов с их последующей систематизацией по сериям с тождественным словом и интерпретацией полученных данных с эпистемологических позиций, предполагающих обнаружение актуального знания, становящегося нового знания, индивидуального знания, различных видов надындивидуального знания и т.д. (см. подробнее: [Осокина, 2011а]). Тезаурусный метод в совокупности с другими лингвистическими методами и конкретными приемами анализа может применяться в когнитивных, психолингвистических, культурологических и других исследованиях языковых способов существования знания. Научная ценность метода состоит в способности обнаружения объективных параметров упорядочивания знания в словесных знаках и их количественного исчисления.
Прогностический потенциал лингвистической теории тезауруса базируется на знании об устройстве тезаурусной системы, свойствах ее единиц и качестве отношений между ними - это знание позволяет моделировать процессы жизнедеятельности тезаурусной сети, выводить определенные закономерности и строить на их основании предположе-
ния о возможных путях развития системы. Поскольку тезаурус представляет собой языковую систему, обеспечивающую получение, хранение и переработку знания в ходе информационного взаимодействия на уровне словесных знаков, изучение этой системы способствует выявлению принципов развития знания и предоставляет возможность предвидеть вероятные перспективы его изменения применительно к конкретной языковой личности и к социуму в целом в различных сферах языковой деятельности.
Прежде всего, прогностический потенциал теории заложен в самой сущности тезаурусных единиц знания. Так как единицей знания в системе тезауруса является синтагматическое объединение слов, воспроизводящееся в многочисленных текстах и фигурирующее как готовая коммуникативная единица, имеются основания предугадывать окончание фразы, если задано определенное ее начало. Синтагматическое единство тезаурусной единицы обусловливает человеческую способность узнавания фразы и прогнозирование ее лексического развертывания в последовательность конкретных слов - способность предполагать появление каждого последующего слова в высказывании.
Это свойство тезаурусной единицы знания объективно обнаруживается при работе поисковых систем Интернета. Так, крупнейшая российская поисковая система и Интернет-портал Яндекс, при введении в поисковой строке слова хороший приводит список наиболее часто запрашиваемых в последнее время сочетаний с этим словом, облегчая поиск пользователя: хороший фильм, хороший статус, хороший плохой злой (название фильма), хороший год, хороший фотошоп, хороший переводчик с английского на русский, хороший коньяк, хороший клей для ресниц.
Поскольку в основе поискового алгоритма лежат только измерительные параметры, материалом для которых является материальная оболочка слов, расширяющие поиск сочетания слов никак не связаны между собой, кроме наличия в них запрашиваемого слова. Нельзя не заметить, что расширяющие поиск сочетания образуют собой не что иное, как серию тезаурусных единиц - основной параметр систематизации тезаурусной сети. Объективное существование серий устойчивых сочетаний слов доказывается результатами многочисленных лингвистических экспериментов (например, отраженных в ассоциативном словаре [Русский ассоциативный словарь, 1994]), данными словарей коллокаций и сочетаемости, подтверждается речевой практикой, а в поисковой системе Яндекс серии устойчивых сочетаний слов складываются в результате количественного подсчета наиболее актуальных
запросов пользователей. Это, с одной стороны, подтверждает объективность существования серий устойчивых сочетаний слов как способа параметризации тезаурусной сети, с другой - раскрывает значимость количественных исследований для анализа состояния системы знания.
Расширение критериев поиска, предлагаемое пользователю системой Яндекс, служит в целях оптимизации и увеличения скорости поиска путем предложения пользователю более конкретных последовательностей слов, которые часто встречаются в имеющихся в системе текстах, и поэтому отбираются системой как готовые блоки информации. Система упорядочивает их по релевантности, то есть по наилучшему соответствию последовательностей слов в найденных текстах тому запросу, который был введен в поисковой строке. Формулы ранжирования информации в соответствии с ее релевантностью также строятся автоматически. Если до таких возможностей предвосхищения ожиданий пользователя смогли дойти автоматизированные поисковые системы, созданные человеком, то, очевидно, и сам человек в состоянии предвидеть с определенной долей вероятности, какое слово будет в воспринимаемом потоке речи следующим.
Благодаря объективному существованию тезаурусных единиц, оцениваемому как проверенное знание, человек оказывается в состоянии прогнозировать словесное развертывание воспринимаемого высказывания. Мы полагаем, что автоматизированные устройства поиска информации, целенаправленно выведенные разработчиками поисковых систем путем математического исчисления наиболее частотных материальных языковых форм, отвечающих словесному критерию, соотносятся с объективно заложенными в системе языкового тезауруса принципами организации информации и могут объясняться с лингвистических позиций.
Прогностический потенциал теории тезауруса связан с осмыслением идеи частотности появления определенных последовательностей слов и возможности их количественного исчисления.
Идея вероятностного прогнозирования речевого высказывания на основе частоты воспроизведения определенных элементов речи уже давно развивается в психолингвистике. Так, изучение принципов вероятностного прогнозирования в речи является одним из основных направлений исследований в работах Р.М. Фрумкиной, А.П. Василевич и их коллег [Вероятностное прогнозирование в речи, 1971]. Эти исследования базируются на предположении, что в речевых механизмах человека существует определенная организация элементов речи в соответствии с частотой их встречаемости в речевой деятельности индиви-
да. Р.М. Фрумкина вводит понятие субъективного прогноза - это «способность человека использовать свой прошлый опыт для прогноза предстоящей ситуации и преднастройки соответствующих речевых механизмов к действию, то есть порождению и восприятию высказывания» [Прогноз в речевой деятельности, 1974, с. 7].
Таким образом, отталкиваясь от результатов психолингвистических исследований, вполне можно предположить, что при продуцировании и восприятии речи человек с определенной долей вероятности может прогнозировать, какое слово будет следующим в цепочке высказывания. Вероятность определяется частотностью появления определенных слов после данного слова в речи.
Теория тезауруса не занимается моделированием процессов порождения и восприятия высказывания, однако психолингвистические исследования предоставляют плодотворный материал для формирования предположения, что и принципы развития знания имеют прямую связь с частотой появления тех или иных последовательностей слов в речи.
Мы полагаем, что увеличение частоты воспроизведения в текстах определенных устойчивых сочетаний слов должно способствовать их оцениванию как состоявшегося безусловного знания. Мы считаем, что прогностический потенциал теории тезауруса связан с изучением частотности появления определенных последовательностей слов и предполагаем, что математическое исчисление появления определенных сочетаний лежит в основе их оценивания как «становящегося знания», «установленного знания», «распадающегося знания», «незнания» и/или каких-либо еще проявлений знания.
Способность прогнозировать появление последующего слова в синтагме на основе знания о частоте воспроизведения определенных последовательностей слов обеспечивает возможность прогнозирования развития знания. Появление предсказуемого с высокой долей вероятности слова, очевидно, свидетельствует о стабильности знания; появление предсказуемого с меньшей вероятностью слова указывает на определенную степень закрепления знания; появление маловероятного слова - на становящееся знание; появление непредсказуемого (неожиданного слова) - случай отсутствия соответствующего знания. Достраивание последовательности слов до избитого стереотипа (когда вероятность появления слова настолько очевидна и безысходна, что уже не привлекает внимание), видимо, говорит об утрачивании тезаурусной единицей статуса знания, его рассеивании.
Данные предположения требуют детального изучения и пока формулируются гипотетически. Они основываются на том, что прогностическая деятельность субъекта представляет собой способность строить определенные предсказания на основе воспринимаемых в настоящий момент фактов. Соответственно, описывая прогностический потенциал теории тезауруса, мы рассматриваем не процесс формирования знания и не творческий процесс создания новых выражений языка, а то, как они оцениваются воспринимающим субъектом. В частности, восприятие нового, абсолютно неожиданного для познающего субъекта сочетания слов, на наш взгляд, свидетельствует о том, что в его тезаурусе нет соответствующей единицы знания, он слышит такое выражение впервые, оно не закреплено в его языковом опыте, поскольку отсутствует в известных ему ранее текстах; соответственно, субъект не может строить прогнозы. При воспроизведении данного выражения в различных контекстах происходит формирование определенной системы связей данного сочетания с другими выражениями языка, результатом чего становится узнавание и понимание данного выражения, то есть происходит становление новой единицы знания. При повышении частоты воспроизведения этого сочетания в различных текстах, оно начинает восприниматься как известная информация и приобретает статус стабильного знания. Использование формулировок «стабильно знание», «становящееся знание» и подобных применительно к выражениям языка нуждается в отдельном освещении и входит в наши планы на будущее. Некоторые характеристики устойчивых сочетаний слов как форм знания уже рассмотрены в нашей монографии, опубликованной по гранту Президента РФ МК-8398.2006.6 [Осо-кина, 2007] и в упомянутой выше работе [Осокина, 2011 а].
Изучение развития, изменения и прироста языкового знания необходимо строить путем исследования изменений в частоте появления определенных сочетаний слов в тезаурусе. Развитие знания, очевидно, связано с увеличением вероятности появления определенных сочетаний слов, изменение - с заменой одних часто используемых сочетаний на другие, прирост нового знания - с появлением новых сочетаний слов, конструированием свободных словосочетаний.
Прирост нового знания можно трактовать как результат восприятия в актуальном языковом фрагменте неожиданных для тезауруса реципиента сочетаний слов - иначе говоря, в воспринимаемой информации имеются последовательности слов, не оцениваемые как знакомые и устойчивые в языковом опыте реципиента и потому не являющиеся для него единицами знания. Они являются неожиданными, так как не
прогнозируются системой тезауруса - и в этом смысле они являются случайными, то есть воспринятыми, независимо от целей реципиента получить определенную информацию. Такие предположения соотносятся с синергетическими представлениями о новой информации как о случайном и запомненном выборе системы [Чернавский, 2004]. Поэтому прогностический потенциал теории тезауруса, связанный с предсказанием возможностей развития языкового знания, соотносится с синер-гетической исследовательской парадигмой.
Процессом, обратным приросту знания, является выпадение старого знания из тезауруса. Развитие таких процессов также предсказуемо и тоже связано с частотностью воспроизведения определенных единиц тезауруса, однако возможность предсказания устаревания знания требует глубочайшего изучения и составляет потенциальную перспективу тезаурусных исследований.
Все указанные процессы, а также другие, которые, возможно, в настоящий момент не очевидны, должны изучаться путем исследования интерактивного взаимодействия различных субъектов тезауруса, каждый из которых сменяет воздействующую и воспринимающую функции. Изменение языковой системы знания может происходить только при наличии как минимум двух взаимодействующих тезаурусов. Например, личностных тезаурусов двух индивидов, или индивидуального тезауруса и тезаурусной системы определенного социума, культуры, текста, ряда текстов, актуального тезауруса определенной сферы деятельности и общеязыкового тезауруса, внутри одного языка и на уровне межъязыкового взаимодействия и т.д.
Не менее важно исследование количественного состава серий те-заурусных единиц. Серийный принцип организации системы тезауруса предполагает открытость списка возможных сочетаний с тем или иным конкретным словом, однако в каждой индивидуальной тезаурусной системе в данный момент времени он вполне ограничен. Например, согласно данным словарей, можно насчитать около сотни устойчивых сочетаний со словом любовь, однако в текстах конкретного автора их может быть не более десяти. В связи с этим можно проследить изменения тезауруса, основываясь на изменении количества устойчивых сочетаний с данным словом. В частности, это можно сделать путем сопоставительного анализа количества устойчивых сочетаний со словом любовь в текстах одного автора, написанных в разное время; возможны и другие способы. Обогащение количественного состава серии может свидетельствовать об актуализации определенного знания в индивидуальном тезаурусе и деактуализации других фрагментов тезауруса.
Помимо количественного состава имеет значение также словесный состав серий. Развитие языковой личности обусловлено тем языковым окружением, в котором она находится, иначе говоря, непосредственная (как правило, семейная) тезаурусная среда является основным источником формирования устойчивых словесных связей в системе знания личности. При этом набор слов, которыми оперирует личность, может существенно не отличаться от набора слов другой языковой личности, развивающейся в иной тезаурусной среде, но то, как слова соединяются в цепочки, свидетельствует о значительном различии в их языковых системах знания. Так, в лексиконе детей одного возраста обязательно имеется слово мама, и возможно, это слово образует схожее количество устойчивых сочетаний, но в тезаурусе одного ребенка преобладают сочетания мама родная, мама любимая, мама добрая, в тезаурусе другого - мама ушла, мама на работе, мамы нет, в тезаурусе третьего - мама говорит, мама не пустит, мама ругаться будет. Различия в наборе сочетаний с одними и теми же словами проливает свет на ценностные ориентиры в системе знания и свидетельствует об отличиях в восприятии мира разными людьми.
Анализ того, какие тезаурусные связи преобладают в системе знания ребенка в определенном возрасте, вполне позволяет строить предположения о том, какое знание с большей долей вероятности будет культивироваться в дальнейшем, и как это повлияет на структуру личности.
Опираясь на анализ количественного и словарного состава серий устойчивых сочетаний слов в языковом тезаурусе, например, на материале текстов более ранней и более поздней эпохи, можно исследовать этапы развития языкового знания в масштабах социума и строить прогнозы о путях его изменения в будущем.
Думается, что лингвистические тезаурусные исследования в состоянии предсказать и возможные пути развития научного знания. Так, отобрав устойчивые сочетания слов, употребляемые в определенном направлении науки и выделив наиболее крупные серии сочетаний, можно предположить, что именно с анализом информации, передаваемой словами, организующими эти серии, связано ближайшее будущее данной науки.
Анализ нынешнего состояния языкового тезауруса позволяет предсказывать появление нового знания. Собственно, анализ имеющегося на данный момент научного тезауруса (то есть научных текстов) в целях построения новой теории и составляет существо большинства научных изысканий в наше время: ученые занимаются исследованием не столько содержания понятий и теорий, сколько повторяющихся контекстов употребления тех или иных терминов в трудах своих коллег и, исходя из это-
го, делают выводы об особенностях развития теории во взглядах того или иного ученого. Анализ фиксированных контекстов употребления того или иного термина есть не что иное, как тезаурусный анализ серии устойчивых сочетаний с определенным словом, и в этом плане теория тезауруса только актуализирует очевидные вещи.
Лингвистическая теория тезауруса в определенной степени может предсказать и вероятностные пути развития человеческого языка. Возможно, основным направлением развития лингвистической теории тезауруса станет изучение способности тезауруса организовывать информационное пространство - как внутреннее субъективное видение мира, так и сам материальный мир. Теория тезауруса способна объяснить механизмы работы словесной коммуникации, предоставить материальные свидетельства принятия входящей информации и ее переработки реципиентом (материальные свидетельства понимания), и, что важнее всего, предоставить материальные свидетельства осуществления словесного воздействия на реципиента.
Таким образом, прогностический потенциал лингвистической теории тезауруса представляется весьма многогранным и подчеркивает актуальность и необходимость развития данной теории в современной науке.
Литература
Борисова Е.Г. Коллокации. Что это такое и как их изучать. М., 1995.
Вероятностное прогнозирование в речи. М., 1971.
Витгенштейн Л. Философские работы : в 2-х ч. М., 1994. Ч. 1.
Гаспаров Б.М. Язык. Память. Образ. Лингвистика языкового существования. М., 1996.
Караулов Ю.Н. Русский язык и языковая личность. М., 1987.
Караулов Ю.Н.Общая и русская идеография. М., 1976.
Луков Вал.А., Луков Вл.А. Тезаурусный анализ мировой культуры // Тезаурусный анализ мировой культуры. М., 2005. Вып. 1.
Осокина С.А. Философско-методологические истоки лингвистической концепции тезауруса // В мире научных открытий. Серия «Гуманитарные и общественные науки». 2013. № 9.1 (45).
Осокина С.А. Метод тезаурусного анализа в лингвистике // В мире научных открытий. Серия «Гуманитарные и общественные науки». 2011 а. № 11.6.
Осокина С.А. Лексикографические истоки лингвистической концепции тезауруса // Известия Алтайского государственного университета. 20116. № 2 (70). Т. 2.
Осокина С.А. К построению лингвистической теории тезауруса // Вестник Челябинского государственного университета. Серия «Филология. Искусствоведение». 2010. № 21. Вып. 45.
Осокина С.А. Опыт эпистемологического анализа художественного текста. Барнаул,
2007.
Прогноз в речевой деятельности: коллективная монография. М., 1974.
Русский ассоциативный словарь. Книга 1. Прямой словарь : от стимула к реакции. Ассоциативный тезаурус современного русского языка. М., 1994. Ч. I.
Тер-Минасова С.Г. Синтагматика речи: Онтология и эвристика. М., 1980. Философский словарь. М., 1986.
Чернавский Д.С. Синергетика и информация (динамическая теория информации). М,
2004.
Шрейдер Ю.А. Об одной модели семантической теории информации // Проблемы кибернетики. М., 1965. Вып. 13.