Научная статья на тему 'Базовые блоки автоматизированной лексикографической системы'

Базовые блоки автоматизированной лексикографической системы Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
140
58
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ЛИНГВИСТИЧЕСКИЙ УНИВЕРСУМ РУССКОГО ЯЗЫКА / БАЗОВЫЙ БЛОК / АВТОМАТИЗИРОВАННАЯ ЛЕКСИКОГРАФИЧЕСКАЯ СИСТЕМА / СЛОВАРНАЯ БАЗА ДАННЫХ

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Лесников Сергей Владимирович

В статье обосновывается создание лингвистического универсума на базе компьютерной модели лексической системы русского языка, с учетом реляционных, иерархических и парадигматических связей. Автоматизированная лексикографическая система позволит оптимизировать современные научные исследования, обеспечив их соответствующей классификацией и систематизацией лексических материалов.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Базовые блоки автоматизированной лексикографической системы»

Вестник Челябинского государственного университета. 2011. № 33 (248). Филология. Искусствоведение. Вып. 60. С. 200-202.

С. И. Лесников

БАЗОВЫЕ БЛОКИ АВТОМАТИЗИРОВАННОЙ ЛЕКСИКОГРАФИЧЕСКОЙ СИСТЕМЫ

В статье обосновывается создание лингвистического универсума на базе компьютерной модели лексической системы русского языка, с учетом реляционных, иерархических и парадигматических связей. Автоматизированная лексикографическая система позволит оптимизировать современные научные исследования, обеспечив их соответствующей классификацией и систематизацией лексических материалов.

Ключевые слова: лингвистический универсум русского языка, базовый блок, автоматизированная лексикографическая система, словарная база данных.

В данной статье излагаются основные положения научного исследования, выполняемого при финансовой поддержке Российского фонда фундаментальных исследований по инициативному, исследовательскому проекту (грант) № 1107-00733 (2011-2013) «Гипертекстовый информационно-поисковый тезаурус «Метаязык науки» (структура; математическое, лингвистическое и программное обеспечение; разделы лингвистика, математика, экономика)» (науч. руководитель — С. В. Лесников).

На базе компьютерной модели лексической системы русского языка планируется конструирование лингвистического универсума русского языка в нелинейной форме с учетом реляционных, иерархических и сетевых парадигматических связей посредством реализации синтагматических связей в интерактивном режиме на ЭВМ оцифрованных словарных и текстовых материалов, что позволит на основе новых информационных технологий при соответствующей классификации и систематизации объединить лексикографические материалы, обеспечить их оперативный ввод в научный оборот — с целью оптимизации научных исследований в современной лексикографии.

По определению, «УНИВЕРСУМ (лат. ишуе^иш — мировое целое, мир) — всеобщее <...> множество, содержащее все элементы (объекты) какой-либо исследуемой области материального или духовного мира» [3. С. 627]. При этом неполнота знаний (в нашем случае языковая картина мира) предопределена на всех мыслимых уровнях — (для человека конечность, компактность категорий пространство — время) от объема лингвистической информации до скорости и качества ее переработки. Кроме этого, специализация, углубленное познание в отдельной научной дисциплине, детализация естественным образом размывают общность,

даже этой одной конкретной дисциплины. Относительным выходом из парадокса неполноты знаний о мире как универсуме (согласуясь с неполнотой лингвистического универсума как продукта, отражающего в синтагматике и парадигматике языковые факты и явления), может служить некоторая предельно общая теория, позволяющая сконструировать, интегрировать в целостный объект ранее не связанные отдельные объекты (элементы) [2].

Блок словарей русского языка. Словари представляют упорядоченные по ряду признаков множества словоформ и устойчивых словосочетаний. Выбор словоформы и словосочетания в качестве единицы словаря (а) обоснован тем, что информация, закрепленная за каждой словоформой (словосочетанием), будет более точной, чем информация, присвоенная частям словоформы или целой парадигме (б). При этом под словосочетанием понимается непредикативная синтагма (интонационно-смысловое единство в составе предложения), соединение нескольких слов, связанных по смыслу и грамматически, а также устойчивое (частотное) сочетание слов, выявленное статистически на объемных текстах (разумеется, к словосочетаниям относятся: фразеологизмы, поговорки, пословицы, крылатые слова; термины и наименования (например, ФИО, вуз), состоящие из двух и более слов).

Можно представить словарную базу данных в виде системы из пяти полей: 1) префикс, 2) основа, 3) аффикс (а также суффиксы, постфиксы и флексии). Поле аффиксальной части содержит кодировку класса, или части речи, и грамматической позиции в виде категориальных признаков рода, числа, падежа, времени, наклоне -ния и т. п. Поле дефиниций содержит значение, смысл, толкование, определение, объяснение, иллюстрации и собственно словарные статьи

из словарей, справочников и энциклопедий русского языка. Данное поле создается на основе компьютерной версии «Словаря русских словарей» [4]. Поле источников содержит реферативно-аннотированное библиографическое описание словарей, справочников и энциклопедий. Фактически последнее поле создано на основе «Словаря русских словарей».

Блок отношений единства (грамматика). Множество объектов материального и материально представимого мира, отражаемых в нашем сознании, связаны друг с другом различными отношениями. При двух полярных типах отношений — единстве и противоположности — между ними находится гамма переходов от одного свойства к другому. Языковые отношения единства, рассмотренные в соответствующей главе, служат базой для упаковки знаний о мире аналогичным способом — в виде октетов или других связных структур расширенного типа, использующих код Грея. Знания же в специальных предметных областях очень часто представляют собой иерар-хо-неиерархические структуры различных типов (линейные, матрешечные, матричные и т. п.).

Блок законов композиции (синтаксис). Этот блок содержит данные о ядерном синтаксисе на уровне моделей и модификаций. Список моделей будет значительно меньшим, чем список модификаций. При наличии нескольких сотен ядерных моделей и таких множеств модификаций задача формализации ядерного синтаксиса может быть решена только при помощи современных суперкомпьютеров.

Блок системокодов (базисные функции, семантика). Функция системокодов вполне определенная: обслуживаются три вышеописанных блока — словарь, отношения единства и законы композиции. К системокодам предъявляются требования однозначности конкретной кодировки, сопряженности, информативности и оптимальности. Но оптимальность не должна быть самоцелью, более длинный код, работающий с большей точностью, предпочтительнее короткого, но менее точного [2].

Блок «вопросОответ». В этом блоке содержится информация лингвистического плана, необходимая для декодирования вопросов и формирования ответа на вопрос пользователя, другими словами — подсистема, отвечающая за диалог. Здесь предусматриваются программы и подпрограммы лингвистического преобразования вопроса большей длины в вопрос меньшей

длины и соответствующие длине вопроса ответы [2].

Блок сценариев. Сценарии могут быть различного типа — от перечислительного, где имеется некоторое подмножество словаря и список операций над словарем, до сценариев в смысле В. Я. Проппа [5], имеющих значительные разрешающие возможности в плане формализации множества производственных и иных ситуаций с помощью специального сценарного кода, который может фундироваться на одном из лингвистических системокодов. Выявление своего рода повторяющихся «блоков» в сценариях может позволить комбинаторику уже на более высоком уровне.

Блок «Свод всемирной литературы».

«Свод всемирной литературы» в форме базы знаний предполагает как использование в виде источника наиболее общих знаний, так и специальные знания в виде различного рода художественных, учебных и др. текстов, списков (объектов, их свойств, свойств этих свойств, причинно-следственных связей и отношений между объектами, аксиом и теорем конкретной предметной области). Сейчас в русскоязычной части Интернета существуют сотни библиотек. Краткое описание некоторых наиболее интересных (на наш взгляд) электронных библиотек размещено на сайтах ЬйрУ/^^'. ги и Ьйр://ЛСВ.РФ.

К основным недостаткам существующих электронных библиотек и коллекций текстовых баз данных на компакт-дисках относим следующее: ошибки в текстах (главным образом, из-за сканирования и распознавания); хранение документов в различных кодировках; отсутствие единого стандарта оформления; объединение произведений из одной серии (цикла) в один файл, причем в произвольном порядке.

Эскизно представленные здесь базовые блоки компьютерной модели лексической системы русского языка являются чисто лингвистическими, отражающими прежде всего лингвистические аспекты проблематики интерактивного взаимодействия системы «человек — компьютер».

Список литературы

1. Андрющенко, В. М. Концепция и архитектура Машинного фонда русского языка // Машинный фонд русского языка: Идеи и суждения. М. : Наука, 1986. С. 26-44.

2. Карпов, В. А. Язык как система. Мн. : Выш. шк., 1992. 304 с.

3. Кондаков, Н. И. Логический словарь-справочник. М. : Наука, 1975. 720 с.

4. Лесников, С. В. Словарь русских словарей: более 3500 источников. М. : Азбуковник, 2002. 334 с.

5. Пропп, В. Я. Морфология сказки. Л. : Academia, 1928. 152 с.

6. Тузов, В. А. Компьютерная семантика рус-

ского языка. СПб. : Изд-во СПбГУ, 2003. 391 с.

7. Тузов, В. А. Математическая модель языка. Л.: ЛНИВЦ АН СССР, 1980. 47 с. ЛГУ, 1984. 176 с.

8. Тузов, В. А. Языки представления знаний. Л. : ЛГУ, 1990. 126 с.

9. Урманцев, Ю. А. Начала общей теории систем // Системный анализ и научное знание М., 1978. Т. 39. С.7-41.

Вестник Челябинского государственного университета. 2011. № 33 (248). Филология. Искусствоведение. Вып. 60. С. 202-204.

Е. В. Маринова

О ПРОЕКТЕ СЛОВАРЯ «ТЕОРИЯ ЗАИМСТВОВАНИЯ В ОСНОВНЫХ ПОНЯТИЯХ И ТЕРМИНАХ»

В статье содержатся сведения о проекте нового словаря «Теория заимствования в основных понятиях и терминах». Словарь может быть отнесен к изданиям смешанного типа (терминологическим и энциклопедическим). Словарь предназначен для восполнения терминологической недостаточности современной теории заимствования.

Ключевые слова: теория заимствования, терминологический словарь, концепция словаря, словарная статья.

Процесс заимствования слов из других языковых источников, способность русского языка «превращать» чужое в свое, отказываясь от избыточного словесного материала, всегда вызывали исследовательский интерес. Однако теория заимствования в отечественной лингвистике по-прежнему является недостаточно разработанной (подробнее об этом см. [1. С. 10-16]). На современном этапе назрела необходимость представить основные понятия теории заимствования в терминах. Эту задачу, на наш взгляд, отчасти может выполнить словарь «Теория заимствования в основных понятиях и терминах». Кратко охарактеризуем концепцию словаря.

В отличие от собственно терминологических словарей, дающих в основной части словарной статьи лишь толкование значения термина, в нашем словаре предполагается включать в словарную статью информацию и о самой реалии, обозначаемой заголовочным термином. В этом смысле словарь может быть отнесен к словарям смешанного типа (энциклопедический и терминологический).

По предварительным данным, в словарь войдет более 80 терминов: однословных (адаптация, заимствование, интернационализм, экзотизм) и составных (иноязычное слово, иноязычное вкрапление, семантическая адаптация). Все термины представляют собой либо имена

существительные, либо словосочетания на базе существительного. Порядок расположения терминов — алфавитный. В случае с составным термином вопрос о порядке следования компонентов будет решаться по-разному. Следуя опыту составления терминологических словарей В. Н. Немченко [2-5], мы будем придерживаться следующих принципов. Если слово, выступающее в качестве опорного компонента составного термина (имя существительное в форме именительного падежа), само по себе является термином в терминологии заимствования, то в заголовке словарной статьи оно указывается на первом месте. Например: адаптация семантическая, заимствование вторичное, калька фразеологическая. На первом месте в заголовке словарной статьи указывается также определяемое словосочетание с опорным словом, если данное словосочетание само по себе является термином теории заимствования, ср.: иноязычное слово безэквивалентное, иноязычное вкрапление регулярное и т. п. Во всех остальных случаях составные термины в заголовках словарной статьи указываются в обычном порядке следования компонентов (практическая транскрипция, макароническая речь).

Для удобства пользования словарем в «Приложение» будут включены (1) общий словник — перечень всех толкуемых терминов; (2) указа-

i Надоели баннеры? Вы всегда можете отключить рекламу.