Научная статья на тему 'Тенденции и перспективы компьютеризации лексикографических работ'

Тенденции и перспективы компьютеризации лексикографических работ Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
760
121
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Бабалова Галина Григорьевна, Пустобаев Владимир Петрович

Очевидной тенденцией в современной лексикографии является увеличение роли электронных словарей. Компьютерная лексикография является особым направлением со своими собственными подходами не только к отображению, но и к содержанию словаря. Полезными могут быть концепции, разрабатываемые лексикографами: понятие «лексическая функция»; описание семантики и практической реализации грамматического словоизменения и словообразования; синтаксические описания. Будущее лексикографии за интегральными словарными описаниями, основанными на формальных моделях, учитывающих упомянутые научные результаты.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Tendencies and perspectives of computerized lexicography

The evident tendency in modern lexicography is the development of computer dictionaries compiling. The computer lexicography is the special trend with its own approaches not only in respect to representation, but to the contents of dictionaries. Of great use should be the following theories: the notion «lexical function», the description of semantics and practical realization of grammar in word-changing and word-building; syntactical structure of entries. The future lexicography should deal with integral description of entries taking into account the results of lexicographers' research work.

Текст научной работы на тему «Тенденции и перспективы компьютеризации лексикографических работ»

МЕТОДИКА ПРЕПОДАВАНИЯ ОМСКИЙ НАУЧНЫЙ ВЕСТНИК №4 (69) 2008

УДК 004.41:801.731

Г. Г. БАБАЛОВА В. П. ПУСТОБАЕВ

Омский государственный педагогический университет

Сибирская государственная автомобильно-дорожная академия, г.

Омск

ТЕНДЕНЦИИ И ПЕРСПЕКТИВЫ КОМПЬЮТЕРИЗАЦИИ ЛЕКСИКОГРАФИЧЕСКИХ РАБОТ_____________________

Очевидной тенденцией в современной лексикографии является увеличение роли электронных словарей. Компьютерная лексикография является особым направлением со своими собственными подходами не только к отображению, но и к содержанию словаря. Полезными могут быть концепции, разрабатываемые лексикографами: понятие «лексическая функция»; описание семантики и практической реализации грамматического словоизменения и словообразования; синтаксические описания. Будущее лексикографии — за интегральными словарными описаниями, основанными на формальных моделях, учитывающих упомянутые научные результаты.

В последние десятилетия параллельно существовали два различных типа естественно-языковых словарей. Словари в печатной форме были ориентированы на нужды различных читателей, т. е. на обычных образованных людей и на лексикографов. Словари в электронной форме были в основном рассчитаны на автоматическую обработку текстов и не были непосредственно доступны пользователю как справочное средство. Но около десяти лет назад появились электронные словари, которые в точности повторяли печатную форму и были непосредственно ориентированы на компьютерного пользователя.

После широкого распространения компакт-дисков, не говоря уже о доступе к данным Интернета, все мыслимые ограничения на размер электронных словарей и их сложность в части демонстрации текстов на экране были сняты. Очевидной тенденцией следующего десятилетия является увеличение роли электронных словарей. Широкое сообщество специалистов по вычислительным наукам может принять эту ситуацию за окончательное решение проблемы электронных словарей, когда вся информация, необходимая для автоматической обработки текстов, может заимствоваться из широкого разнообразия крупных словарей академического типа на компакт-дисках.

Однако ситуация не столь оптимистична. Словари, скопированные с печатных изданий, даже академически полные, не содержат массы сведений, важных для обработки текстов, и никакая полностью автоматизированная процедура не может извлечь эту информацию из текстов, ориентированных на человека.

Между тем в большинстве своем электронные словари, составляющие базы данных для программ языковой обработки, пока тоже несовершенны, даже для решения своих собственных задач, не говоря уже о полном отсутствии в них человеко-ориентирован-ной информации и интерфейсных средств.

Термин «электронный словарь» стал уже привычным. При этом атрибут «электронный» характеризует свой объект настолько же поверхностно, насколько противоположный ему атрибут «бумажный» —

традиционные словари. Обычно подразумевается, что словарь на компьютере — это введенный в него бумажный словарь, снабженный удобными средствами поиска и отображения. То есть создатели электронных словарей переливают старое доброе лексикографическое вино в новые электронные мехи. Компьютерная лексикография как область прикладной лингвистики, производящая такие словари, оказывается лишённой собственного языкового предмета. На её долю оставляется только эффектная демонстрация канонического содержания [1, с. 424 — 426]. В. Селегей имеет другую точку зрения, согласно которой компьютерная лексикография является особым направлением в практической лексикографии со своими собственными подходами не только к отображению, но и к содержанию словаря. Он полагает, что электронный словарь — это особый лексикографический объект, в котором могут быть реализованы и введены в обращение многие продуктивные идеи, не востребованные по разным причинам в бумажных словарях [2]. Видимо, следует сразу оговориться, что речь идёт о тенденциях, потенциальных возможностях компьютерной лексикографии, часть которых ещё не реализована или даже не осознана.

К новым возможностям электронного словаря относятся:

1. Существенно более изощрённые возможности показа содержания словарной статьи, включая возможность частичного показа по разным критериям (различные «проекции» словаря), разнообразные графические средства, которые не используются в обычных словарях.

2. Использование для доступа к содержанию различных лингвистических технологий, таких как морфологический и синтаксический анализ, полнотекстовый поиск, распознавание и синтез звука и т. п.

С точки зрения пользователя, смысл реализации в электронном словаре всех этих технологий состоит в том, что становится возможным быстро получить информацию, которая содержится где-то в недрах словаря и непосредственно отвечает тому запросу,

который сформулирован пользователем в удобной для него форме. При традиционном подходе минимальной единицей доступа является лексема (имя словарной статьи): мы должны прочитать всю статью, чтобы определить, содержится ли в ней ответ на наш запрос. Для таких словарей как Оксфордский, это представляет серьёзную проблему. Например, глагол set имеет около 400 значений.

Пользователь хотел бы, чтобы словарь максимально локализовал релевантную информацию. При этом речь идёт не об автоматическом выборе переводного эквивалента (если мы говорим о переводном словаре). Специфика словарного ответа в том, что он даёт весьма разнообразную информацию о слове или словосочетании, а не просто переводное соответствие, предполагает активный выбор пользователем из нескольких возможных хорошо обоснованных альтернатив. Однако попытка решить проблему адекватной реакции словаря на запрос неизбежно наталкивается на сопротивление самого словарного материала, перенесённого из бумажного словаря.

Итак, здесь имеется новое противоречие: между новыми языковыми компьютерными технологиями и старым традиционным словарным содержанием, не позволяющим воспользоваться этими технологиями в полном объеме. Источник этого противоречия тоже ясен: словарь представляет собой модель языка, устроенную на совершенно иных принципах, чем те формальные модели, которые лежат в основе этих технологий. И если в области морфологии противоречие ещё не очень существенно, то в области синтаксиса и семантики оно становится почти непреодолимым.

Действительно, технология морфологического анализа всего лишь позволяет установить соответствие между исходной формой слова из текста и множеством лексем (словарных входов), для которых такая форма возможна. Синтаксический анализ позволяет сделать то же самое для словосочетаний, являющихся отдельными словарными входами. Однако для всех этих технологий само словарное содержание является «непрозрачным», полностью им игнорируется. Заглянуть «внутрь» словарной статьи позволяет только полнотекстовый поиск. Но этот мощный инструмент работает со словарным содержимым как с текстом на естественном языке, что резко ограничивает его возможности. Первый и очевидный шаг, на который уже идут создатели электронных словарей, это первичная разметка словарной статьи, формализация той внутренней структуры, которая в той или иной мере имеется в хороших бумажных словарях. В результате полнотекстовый поиск может различать, в частности, переводы, примеры использования и комментарии, что принципиально усиливает его возможности с точки зрения пользователя.

Однако все эти меры являются поверхностными. Вполне очевидно, что задача состоит в том, чтобы единицей описания было отдельное лексическое значение, и технологии анализа могли бы устанавливать соответствие между исходным запросом и теми лексическими значениями, которые релевантны для этого запроса по синтаксическим и семантическим критериям.

В качестве иллюстрирующего примера можно привести практически любой глагол, принадлежащий ядру языка. Например, глагол «развести» можно встретить в таких контекстах: разводить руками, разводить спирт водой, разводить супругов, разводить мосты, разводить баранов, разводить дерущихся, разводить пилу, разводить / разбивать сады,

(английские эквиваленты: bring, conduct, part, separate, mix, dissolve, divorce, breed, plant, etc.).

Задача создания такого словарного описания, которое позволило бы сделать единицей анализа отдельное лексическое значение, а не морфологическую лексему, представляется наиболее перспективным направлением в компьютерной лексикографии. Отсюда следует, что для её решения требуется «синхронизация» словарных описаний и формальных моделей, используемых технологиями анализа. Здесь должно быть единое интегральное лексико-синтак-тико-семантическое описание.

Интегральный подход к лексическим описаниям позволяет также решить и проблему «монофункциональности» бумажных словарей. Отличительной особенностью большинства бумажных переводных словарей является ориентация описания структуры лексического значения в исходном языке на лексическую систему языка перевода и на реализацию ровно одной функции — собственно перевода с языка А на язык Б в предположении, что язык А является иностранным, а язык Б — родным. Нечего и говорить, что такое ограничение делает словарь исключительно неудобным при необходимости перехода от пользовательской модели читатель к модели писатель.

Такие модели реализуются разными типами словарей, что достаточно неудобно для читателя. Поэтому интегральный подход к лексическим описаниям оправдан не только методически (и, что немаловажно, экономически), но и с точки зрения учёта интересов пользователя [3, с. 32].

Коснёмся проблемы актуальности словарного содержания. Как уже упоминалось, фундаментальные (лучшие!) бумажные словари — неизбежно словари устаревшие [4, с. 44]. Особенно это характерно для разговорной лексики, в частности ненормативной. В этой области отечественные классические словари предстают не только устаревшими, но и попросту ханжескими. Функции фиксации текущего состояния языка принимают на себя растущие, как грибы после дождя, небольшие словарики, обычно весьма конъюнктурные и поверхностные. Новые значения в них оторваны от своих языковых корней, плохо или произвольно объяснены.

Для массовых программных продуктов, каковыми являются электронные словари, характерны частая смена версий и наличие постоянной обратной связи с тысячами пользователей. Поэтому компьютерная лексикография — это неизбежно актуальная лексикография. Жизнь электронного словаря должна быть похожа на нелёгкую жизнь других программных систем: с маниакальным стремлением особо вредных пользователей обнаружить очередную ошибку или лакуну и, с другой стороны, с возможностью и необходимостью поправить дело сейчас, а не через десятилетия. Такой подход всего лишь фиксирует естественное положение дел: коллективное авторство на словарное содержание принадлежит всем носителям языка, а задача лексикографа — фиксация языковых фактов и их методически правильное описание.

Отрыв лексикографической теории от лексикографической практики велик. Это должно быть обидно для российской лингвистической науки, в которой лексическая семантика занимает особое место. Достаточно назвать такие имена как Апресян, Мельчук, Падучева и многие другие.

Разумеется, существуют особые «концептуальные» словари, в которых лексика представлена интегрально и систематически. Например, Толковый ком-

ОМСКИЙ НАУЧНЫЙ ВЕСТНИК № 4 (69) 2008 МЕТОДИКА ПРЕПОДАВАНИЯ

МЕТОДИКА ПРЕПОДАВАНИЯ ОМСКИЙ НАУЧНЫЙ ВЕСТНИК №4 (69) 2008

бинаторный словарь, созданный в рамках теории «Смысл-^Текст» Мельчука, или толковые и синонимические словари группы Апресяна. При этом в массовых бумажных словарях никаких следов этих идей не прослеживается. А именно в развитии этих идей заложено будущее практической компьютерной лексикографии.

В данной работе нет возможности подробно анализировать теоретические концепции, являющиеся одновременно и практически полезными. Укажем лишь некоторые.

* Понятие «лексическая функция», позволяющее систематически описывать несвободную сочетаемость слов, например, то, что «войну ведут», а «экзамен держат», что «теории выдвигают», а «мысли подают» и т. п.

* Описание семантики и практической реализации грамматического словоизменения и словообразования. Каждый язык имеет свои собственные способы грамматического кодирования смысла. И эти способы никогда не описываются в массовых словарях систематически. Например, как передать по-английски смысл «довыпендриваться», даже если знаешь, как передать «выпендриваться»?

* Синтаксические описания. Здесь ситуация наиболее проигрышна, поскольку в массовых словарях не существует даже системы понятий, с помощью которой синтаксическая информация могла бы быть доведена до обычного читателя. Идея о том, что за составление предложения ответственна грамматика, изложенная в справочнике, а словарь обеспечивает перевод отдельных слов, не выдерживает критики с

точки зрения современных представлений о центральной роли слова в синтаксисе.

Выход из этой ситуации однозначен. Будущее лексикографии — за интегральными словарными описаниями, основанными на формальных моделях, учитывающих упомянутые научные результаты. На этих же моделях будут основываться технологии доступа к словарному содержанию.

Библиографический список

1. Антиномова О. Страсти по словарям // Компьютерра, — 2002. - № 48. - С. 424-426.

2. Селегей В. Электронные словари и компьютерная лексикография // httD://www/liпavoda,ru/l,

3. Зельцер Д. Что могут словари // Компьютерра. — № 30. — 2000. - С. 32-36.

4. Радомский Я. Игра слов // Компьютерра. - 2001. - № 10. -С. 44-46.

БАБАЛОВА Галина Григорьевна, кандидат филологических наук, доцент кафедры английского языка факультета информатики Омского государственного педагогического университета.

ПУСТОБАЕВ Владимир Петрович, кандидат технических наук, доктор педагогических наук профессор кафедры экономики и управления строительством Сибирской автомобильно-дорожной академии.

Статья поступила в редакцию 19.05.08 г.

© Г. Г. Бабалова, В. П. Пустобаев

удк 378.046.4 с. л. ОРЛОВА

Институт развития образования Омской

области

ПОДГОТОВКА

УЧИТЕЛЯ МАТЕМАТИКИ НА КУРСАХ ПОВЫШЕНИЯ КВАЛИФИКАЦИИ К ПРОЕКТИРОВАНИЮ ЦЕЛЕЙ И СОДЕРЖАНИЯ ПРОЦЕССА ОБУЧЕНИЯ В КОНТЕКСТЕ КОМПЕТЕНТНОСТНОГО ПОДХОДА_________________

Исследование основ компетентностного подхода позволило выделить модели образования, которые рассматриваются как контекст компетентностного образования. Сформулированы задачи и разработано содержание подготовки учителя математики к проектированию процесса обучения в контексте компетентностного подхода.

Современный этап развития общества характеризуется как постиндустриальный, информационный, задающий новые цели образовательной системе, которые направлены на реализацию основной ее функции — социализации личности в современных условиях. К таким современным условиям относятся: возрастание информационного потока, быстрое устаре-

вание информации, необходимость работы в условиях противоречивой информации, интеграция наук и др.

Ученые-педагоги, рассматривая кризис знаниево-просветительской парадигмы образования в новых условиях, анализируя существующую систему российского образования, недостатки современных образовательных результатов, активно обсуждают ком-

i Надоели баннеры? Вы всегда можете отключить рекламу.