Научная статья на тему 'Перспективы и проблемы компьютерной лексикографии'

Перспективы и проблемы компьютерной лексикографии Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
2209
368
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СЛОВА / WORDS / СЛОВАРЬ / DICTIONARY / МАШИННЫЙ ПЕРЕВОД / MACHINE TRANSLATION / КОМПЬЮТЕРНАЯ ЛЕКСИКОГРАФИЯ / COMPUTER LEXICOGRAPHY / ЭЛЕКТРОННЫЕ СЛОВАРИ / ELECTRONIC DICTIONARIES / ЛИНГВИСТИКА / LINGUISTICS / ТРАДИЦИОННЫЕ СЛОВАРИ / TRADITIONAL DICTIONARIES

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Маммедова Жаля Эльдар

В статье обсуждаются возможности использования компьютеров в процессе автоматизации деятельности лексикографа. На основе проведенного сравнительного анализа раскрываются преимущества компьютерной лексикографии и созданных при помощи компьютеров IBM скоростных и двуязычных словарей. Отмечается, что использование компьютеров облегчает работу лексикографа, так как освобождает его от составления библиографических карточек, требующего длительной, кропотливой работы. Предлагается избавиться от создающего путаницу многообразия терминов, заменив такие названия, как «вычислительная лексикография», «машинная лексикография», «автоматическая лексикография», предложенным Ю.Н. Марчуком названием «компьютерная лексикография». В статье также намечаются пути дальнейшего развития и усовершенствования электронных словарей. Особый интерес представляет вывод автора о методах использования электронных ресурсов в процессе обучения иностранным языкам, а также в качестве незаменимого помощника для переводчиков.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

PROSPECTS AND PROBLEMS OF COMPUTER LEXICOGRAPHY

Opportunities of using computers in automating the activitiy of a lexicographer are discussed in this article. Basing on performed comparative analysis advantages of computer lexicography and performance-critical and bilingual dictionaries compiled by IBM computers are studied. It is noted that computers using makes a lexicographer’s work easier as it relieves him from compiling bibliographic cards, requiring a thorough, prolonged hard work. It is suggested to put an end to a great variety of terms which creates incoherence by substituting such terms as “calculating lexicography”, “machine lexicography”, “automatic lexicography” by “computer lexicography” offered by Y.N. Marchuk. Beside these, ways for further development of electronic dictionaries and their perfection are noted in the article. The author’s conclusion on the methods of using electronic resources in the process of foreign languages teaching and as a non-substitute assistant for translators is of special interest.

Текст научной работы на тему «Перспективы и проблемы компьютерной лексикографии»

УДК 81'373:004 ББК Ш111.4

Ж.Э. МАММЕДОВА ПЕРСПЕКТИВЫ И ПРОБЛЕМЫ КОМПЬЮТЕРНОЙ ЛЕКСИКОГРАФИИ

Ключевые слова: слова, словарь, машинный перевод, компьютерная лексикография, электронные словари, лингвистика, традиционные словари.

В статье обсуждаются возможности использования компьютеров в процессе автоматизации деятельности лексикографа. На основе проведенного сравнительного анализа раскрываются преимущества компьютерной лексикографии и созданных при помощи компьютеров IBM скоростных и двуязычных словарей. Отмечается, что использование компьютеров облегчает работу лексикографа, так как освобождает его от составления библиографических карточек, требующего длительной, кропотливой работы. Предлагается избавиться от создающего путаницу многообразия терминов, заменив такие названия, как «вычислительная лексикография», «машинная лексикография», «автоматическая лексикография», предложенным Ю.Н. Марчуком названием «компьютерная лексикография». В статье также намечаются пути дальнейшего развития и усовершенствования электронных словарей. Особый интерес представляет вывод автора о методах использования электронных ресурсов в процессе обучения иностранным языкам, а также в качестве незаменимого помощника для переводчиков.

Современная лингвистика нацелена на изучение преимуществ электронных словарей и дальнейшее развитие данной области в будущем. В связи с этим возникает необходимость более тщательного анализа существующих электронных словарей с целью их усовершенствования.

Материалом для данной статьи послужили исследовательские работы известных ученых в данной области, а также существующие на сегодняший день электронные и некоторые книжные словари. В работе был использован метод сравнительного анализа.

Термин «электронный словарь» появился в языкознании приблизительно в последние десять лет. Термин же «компьютерная лексикография» возник в языкознании ещё раньше. Разные ученые называли его по-разному, например: Ю.Н. Марчук в 1976 г. - «вычислительная лексикография», Е.В. Вертель в 1984 г. - «машинная лексикография», О.А. Казакевич в 1985 г. - «автоматизированная лексикография», а В.В. Марковкин в 1990 г. - «компьютерная лексикография». Позже Ю.Н. Марчук объединил все эти названия под общим названием «компьютерная лингвистика», считая, что решение актуальных проблем лингвистики осуществляется на компьютерах с современным программным обеспечением [1. С. 4]. Касаясь этой темы, Г.М. Мандрикова в своих работах отмечает, что термины «вычислительная лексикография», «вычислительная машина» и «автоматическая лексикография» являются однотипными, так как все они опираются в своей работе на одно средство -компьютер. Она приходит к такому выводу, что компьютерную лексикографию как область лексикографии можно принимать как отдельный раздел языкознания. Содержание этой науки составляет наличие теоретических и практических вопросов компьютерных словарей различного вида, а также осмысление всех результатов, имеющих отношение к этой проблеме [2. С. 1].

Вопросы компьютерной лингвистики являются темой многих исследований. Некоторые проблемы компьютерной лексикографии обсуждались в ассоциации компьютерной лингвистики, основанной в начале 1980 г., в присут-

ствии выдающихся лексикографов А.С. Герды, В.М. Анрющенко, Ю.Н. Марчука, И.И. Убиной, С.В. Меркуровой, В.В. Морковкиной, Г.М. Мандриковой и др. Вначале метод использования компьютеров рассматривался только как средство автоматизации процесса работы лексикографа. Однако, как известно, создание словарей требует напряженной работы в течение длительного времени. Иногда на это уходили десятилетия. Именно поэтому впоследствии стали считать более целесообразным предоставить создание словарей машинам. Первым шагом в этом направлении стало создание скоростного двуязычного словаря с помощью компьютеров IBM. Оно показало, что компьютерная лексикография имеет много преимуществ. Использование компьютеров позволяет набрать лексикографический материал в любом необходимом виде, определить частоту слова, сделать рисунки, создать иллюстрации, найти этимологию слова и т.д.

Перечисленные выше особенности электронных словарей позволяют прогнозировать дальнейшее развитие лексикографии. По мнению известного лексикографа В.П. Беркова, словари ХХ1 в. должны иметь следующие характеристики:

- быть большими по объему;

- иметь концентрическую структуру;

- в один общий словарь могут быть объединены несколько словарей;

- словари могут быть звуковыми;

- давать полную грамматическую информацию о входящих и исходящих словах;

- полнее раскрывать сочетания слов; содержать сведения о системной связи слов;

- содержать материал с графической иллюстрацией; отражать широкий материал об именах собственных;

- будет организована постоянно действующая «служба обновления».

Мы можем иметь под рукой много различных словарей, но для работы в

большинстве случаев мы выбираем тот, который более всего соответствует нашим потребностям. А сколько пользователей по всему миру используют нынче электронные словари, сколько - книжные? Это один из основных интересующих нас вопросов, на который мы пытаемся найти ответ в своем исследовании. Вообще, понятие электронный словарь является новым термином последних лет, и научных исследований по этому вопросу очень мало.

Электронные и книжные словари имеют множество особенностей, единственным объединяющим их сходством является то, что все они - носители информации. Их отличительные особенности - поисковая система, технические функции и технические аспекты. В книжных словарях слова представлены по линейной функции, а в электронных - в виде фрагментов. Словари такого типа постоянно обновляются.

Пользователь может увидеть результат поиска в виде подсистемы в окне компьютера. Эти окна различны в каждом электронном словаре. У пользователя вызывают визуальный интерес графика, рисунок, оттенки цвета, произношение слова, иногда даже одновременно с представлением краткометраж-ного видеоролика. Наряду с этим пользователь может оставлять на этой странице свои комментарии и делиться информацией. В книжных словарях такой возможности представления слова нет. Построение слов в алфавитном порядке с указанием частей речи, приведением примеров и употребляемых в речи выражений, указанием идиоматических оборотов, синонимов и антони-

мов в книжных словарях такое же, как и в электронных. Однако пользователи электронных словарей осуществляют поиск автоматически. Если пользователь допускает в процессе поиска какую-нибудь ошибку, он может вернуться к требуемому слову посредством специальной основной кнопки (home). Известно, что традиционные словари невозможно переписать на электронные носители (Сй-диски, флеш-карту и т.д.), а также применять к ним эти функции при использовании. Такие возможности предоставляет только электронный словарь со специальным программированием. Как видно, работа с книжными словарями лишает пользователя свободного общения с ними, а с электронными словарями эта возможность имеется [3. С. 26-30].

Н.А. Сивакова и Г.М. Мандрикова различают электронные словари от традиционных по нижеследующим свойствам:

- эластичности - лингвистический программный комплекс облегчает обращение к словарю и расширяет возможности при использовании;

- сжатости - способности независимо от законов языка создавать связи между лексическими единицами различных языков;

- двусторонности - возможность использования любого языка как языка ввода при входе в словарь;

- динамичности - коррекции словарных статей, возможность вывода устаревших слов [4. С. 81-85].

В дополнение к этой мысли С.А. Стройков отмечает, что первые три признака свойственны и традиционным словарям. Четвертый же признак, т.е. динамичность, по его мнению, актуализируется только в электронных словарях, и эта особенность является главным принципиальным отличием электронных словарей от традиционных [5. С. 112].

По мнению О.С. Рублёвой, преимущество электронных словарей состоит: в большом объеме словника; скорости и удобстве поиска информации; обладании слова звуковой графической иллюстрацией; возможности обновления и расширения сведений о слове; возможности свободного заказа структуры статьи путем поиска; возможности открытия всесторонних значений слова; интерактивности (возможность обсуждать словарную статью и быть её автором); выходе к гипертексту посредством иных ссылок [6. С. 102-105].

На основе анализа Г.Р. Чумарина приходит к выводу, что электронные словари имеют следующие преимущества:

- функция запоминания и гипертекст позволяют пользователю очень легко и быстро войти в электронный словарь и найти там различную информацию и советы;

- поиск происходит с большей скоростью, возможны различные поиски;

- интерактивность информационных технологий делает более эффективным советы, которые дает словарь;

- наличие мультимедийных элементов (голосовых, иллюстрированных рисунков, короткометражных видеороликов и т.д.).

Таким образом, самое большое преимущество этих словарей во множестве и разнообразии их возможностей.

Наряду с этим электронные словари имеют и ряд недостатков. При входе в словарь открывается несколько совпадающих окон и пользователь не может видеть словарь в широком объеме, словарная статья открывается фрагментарно, из-за чего пользователь вынужден часто выходить из окон. Пользователь, имеющий слабые знания в области интернет-технологий, может потерять

здесь много времени, встретиться с трудностями при получении соответствующего результата. Стоимость электронных словарей гораздо дороже их книжных версий. Составители программ не могут воспользоваться всеми возможностями, которые предоставляют электронные словари. Некоторые пользователи начинают уже внутренне осознавать, что их потребности может удовлетворить книжный словарь. Искать слово в книжном словаре труднее, чем в его электронном варианте. Единственно удобным в книжном словаре является расположение слов в алфавитном порядке. Здесь поиск ограничен.

Основываясь на проведенном выше анализе, необходимо отметить, что мы не ставили цель сравнивать сильные и слабые стороны электронных и традиционных словарей, так как здесь главную роль играет переводческая способность пользователя. Понять и выбрать слово, соответствующее содержанию, проявить гибкость - одно из основных условий мастерства пользователя.

Тем не менее, анализируя преимущества и недостатки электронных словарей, Г.Р. Чумарина предлагает пять основных методов усовершенствования электронных словарей нового поколения.

1. Словари будущего поколения будут включать в себя качества, которыми не могут обладать традиционные словари: вход в морфемы, максимальное количество выходов, значений, примеров, выражений и т.д. В настоящее время создатели проанализированных электронных словарей не делают Сй объем словарей более 200 Мб, в то время как на диске остается много свободного места. В будущем объем памяти электронных словарей нового поколения может достигать 650 Мб.

2. Словари будущего могут предоставлять пользователям большую языковую гибкость в зависимости от их характеристики (любители, переводчики, эксперты).

3. Составители электронных словарей могут повысить уровень их использования. Сделав много входов, с одной стороны, или только прикоснувшись к слову, можно получить близкое к тексту значение. С другой стороны, пользователь должен выбрать такую функцию, чтобы на экране одновременно было видно несколько вариантов для сравнения значений.

4. Электронные словари могут интегрировать в программный анализ текста. С одной стороны, они дают пользователю возможность не обращаться дополнительно к словарю и позволяют прямо сопоставить статью. С другой стороны, пользователь может ввести в текст орфографический корректор не только на уровне орфографии, но и на уровне стилистики и грамматики.

5. Пользователи могут привести в порядок интерфейсы электронных словарей. Было бы лучше, если бы функцию настроили таким образом, чтобы не было необходимости в изменении метода работы [3. С. 201-203].

Естественно, что все эти словари в будущем будут более совершенными. Несмотря на имеющиеся технические недостатки, современные электронные словари существенно облегчают работу пользователей. В частности, большая часть из этих словарей может оказать существенную помощь в работе переводчиков.

Традиционная лингвистика не могла дать исходные представления не только в части семантики, но и в части синтаксиса. Ни для одного языка в 1950-х гг. не существовало перечней синтаксических конструкций, не были изучены условия их сочетаемости и взаимозаменяемости, не были разработаны правила построения крупных единиц синтаксической структуры из более

мелких. В сущности, ни на один вопрос, поставленный в связи с построением систем машинного перевода, традиционная лингвистика в то время не могла дать ответа [8. С. 32].

Машинный перевод (МП) уже довольно уверенно вошел в повседневную жизнь современного офиса и ни у кого не вызывает удивления. В мире существует очень много программ МП. Машинный перевод - это перевод текстов (письменных и устных) с одного естественного языка на другой при помощи компьютера. Машинный перевод - это направление научных исследований, связанных с построением переводческих систем (http://www.promt.ru) [10].

Основные проблемы программ машинного перевода: чем больше словарь, тем лучше перевод, значит, первая проблема - проблема создания больших словарей для систем. Система должна переводить такие предложения: «Привет, как дела?». Значит, еще одна проблема - научить систему распознавать устойчивые обороты. Для качественного перевода очень важно, чтобы практически все слова исходного текста легко было найти и в словаре системы. Когда мы переводим текст, например с английского языка на русский, и находим в словаре незнакомое нам слово, например «computer», то, узнав, что по-русски это значит «компьютер», мы уже безошибочно напишем в зависимости от контекста: «на компьютере», «с компьютером» и т.д.

История машинного перевода насчитывает немногим более 50 лет. За это время сменилось несколько поколений систем машинного перевода: от первых программ, использовавших ограниченные ресурсы универсальных компьютеров первого поколения, до современных коммерческих продуктов, использующих мощные ресурсы серверов и персональных компьютеров, включая ПК, в которых можно размещать карманные словари, а также компьютерные сети [9. С. 12].

Первые коммерческие продукты машинного перевода, нашедшие практическое использование, появились в середине 80-х годов. Они были реализованы на персональных компьютерах и являлись системами прямого перевода, возможности которых базировались на огромных (по сравнению с первыми системами) словарях, а не на умении анализировать и синтезировать тексты. Современные коммерческие продукты машинного перевода предлагают российские фирмы: «Виста Технолоджиз» и «Адвентис», образованные в 1991 г. коллективом разработчиков, выделившихся из ВИНИТИ; ПРОМТ, образованная в 1991 г.; «Медиа Лингва».

Электронные словари можно классифицировать по роду выполняемых задач (например, словари для формального определения рода и падежа существительного), по характеру лексических единиц, включенных в словарь (сюда относятся словари словоформ, состоящие из списка всех словоформ подъязыка, или словари основ, состоящие из списка основ и окончаний), по способу организации словников (алфавитные, тезаурусы, где словарные единицы сгруппированы по понятийным группам) [7. С. 33].

Электронные словари начали разрабатываться значительно раньше, чем альтернативные им системы машинного перевода, поэтому в настоящее время на рынке программного обеспечения имеется чрезвычайно широкий выбор словарей - от самых простейших (например, DIC) до мощных систем, объединяющих в одной программной оболочке несколько лексических баз данных -специализированных тематических словарей, последовательность подключения которых определяется пользователем (LINGVO). Выбор того или иного

программного продукта зависит исключительно от аппаратных возможностей компьютера, которым располагает пользователь, финансовых соображений и конкретных условий, в которых работает переводчик [8. С. 12].

Литература

1. Марчук Ю.Н. Основы компьютерной лингвистики. М.: МГОУ, 2002. 234 с.

2. Мандрикова Г.М. Учебное компьютерное лексикографирование в теоретическом и прикладном рассмотрении: дис. ... канд. филол. наук. М., 1994. 194 с.

3. Чумарина Г.Р. Сравнительная характеристика электронных и бумажных словарей в функциональном аспекте // Вестник Чувашского университета. 2009. № 4. С. 265-270.

4. Сивакова Н.А. Лексикографическое описание английских и русских фитонимов в электронном глоссарии: дис. ... канд. филол. наук. Тюмень, 2004. 162 с.

5. Стройков С.А. Лингвопрагматические характеристики англоязычного лексикографического гипертекста (на материале словаря - энциклопедии «The Free Dictionary»): дис. ... канд. филол. наук. Самара, 2008. 220 с.

6. Рублева О.С. Электронные энциклопедии и их особенности // Дополнительное профессиональное образование в условиях модернизации: сб. ст. IX Междунар. науч.-практ. интернет-конф. Ярославль: Изд-во ЯГПУ им. К.Д. Ушинского, 2010. С. 129-137.

7. Тузлукова В.И. Типология педагогических лексикографических источников в международной педагогической лексикографии // Международная педагогическая лексикография в теории и практике обучения в высшей школе: сб. тр. II Междунар. науч.-практ. конф. М.: Изд-во МПГУ, 2001. 78 с.

8. Рецкер Я.И. Теория перевода и переводческая практика. М.: Международные отношения, 1974, 81 с.

9. Система перевода текста Magic Goody для Windows. Руководство пользователя / Фирма «Промт». СПб., 1999.

10. Филинов Е.Н. История машинного перевода. Available at: course-work.ru.

МАММЕДОВА ЖАЛЯ ЭЛЬДАР - докторант, Институт языкознания Национальной академии наук Азербайджана; преподаватель английского языка кафедры иностранных языков, Сумгаитский государственный университет, Азербайджанская Республика, Сумгаит (doctorant.amea@mail.ru).

Zh. MAMMEDOVA

PROSPECTS AND PROBLEMS OF COMPUTER LEXICOGRAPHY

Key words: words, dictionary, machine translation, computer lexicography, electronic dictionaries, linguistics, traditional dictionaries.

Opportunities of using computers in automating the activitiy of a lexicographer are discussed in this article. Basing on performed comparative analysis advantages of computer lexicography and performance-critical and bilingual dictionaries compiled by IBM computers are studied. It is noted that computers using makes a lexicographer's work easier as it relieves him from compiling bibliographic cards, requiring a thorough, prolonged hard work. It is suggested to put an end to a great variety of terms which creates incoherence by substituting such terms as "calculating lexicography", "machine lexicography", "automatic lexicography" by "computer lexicography" offered by Y.N. Marchuk. Beside these, ways for further development of electronic dictionaries and their perfection are noted in the article. The author's conclusion on the methods of using electronic resources in the process of foreign languages teaching and as a non-substitute assistant for translators is of special interest.

References

1. Marchuk Yu.N. Osnovy komp'yuternoi lingvistiki [Basical computer linguistics]. Moscow, MGOU Publ., 2002, 234 p.

2. Mandrikova G.M. Uchebnoe komp'yuternoe leksikografirovanie v teoreticheskom i prikladnom rassmotrenii: dis. ... kand. filol. nauk [Practical computer lexicography and theory. Doct. Diss.]. Moscow, 1994, 194 p.

3. Chumarina G.R. Sravnitel'naya kharakteristika elektronnykh i bumazhnykh slovarei v funktsio-nal'nom aspekte [Comparison characteristics of electronic and print dictionaries in functional aspect]. Vestnik Chuvashskogo universiteta, 2009, no. 4, pp. 265-270.

4. Sivakova N.A. Leksikograficheskoe opisanie angliiskikh i russkikh fitonimov v elektronnom glossarii: dis. ... kand. filol. nauk [Lexicography description of English and Russian fitonim in electronic glossary. Doct. Diss.]. Tyumen, 2004, 162 p.

5. Stroikov S.A. Lingvopragmaticheskie kharakteristiki angloyazychnogo leksikograficheskogo giperteksta (na materiale slovarya - entsiklopedii «The Free Dictionary»): dis. ... kand. filol. nauk [Lingvopragmatic character of English lexicography hypertext. (on material of vocabulary-encyclopedia) «The Free Dictionary» Doct. Diss.]. Samara, 2008, 220 p.

6. Rubleva O.S. Elektronnye entsiklopedii i ikh osobennosti [Electronic encyclopedias and their peculiarities]. Dopolnitel'noe professional'noe obrazovanie v usloviyakh modernizatsii: sb. st. IX Mezhdunar. nauch.-prakt. internet-konf. [Proc. of IX Int. Sci. Pract. Conf. «Complicated professional modern education»]. Yaroslavl, 2010, pp. 129-137.

7. Tuzlukova V.I. Tipologiya pedagogicheskikh leksikograficheskikh istochnikov v mezhdunarod-noi pedagogicheskoi leksikografii [Typology pedagogical lexicography sources in international pedagogical lexicography]. Mezhdunarodnaya pedagogicheskaya leksikografiya v teorii i praktike obucheniya v vysshei shkole: sb. tr. II Mezhdunar. nauch.-prakt. konf. [International pedagogical lexicography of theory and practical study for high school. II International Practical Conference]. Moscow, MPGU Publ., 2001, 78 p.

8. Retsker Ya.I. Teoriya perevoda i perevodcheskaya praktika [Theory of translation and practical translation]. Moscow, Mezhdunarodnye otnosheniya Publ., 1974, 81 p.

9. Sistema perevoda teksta Magic Goody dlya Windows. Rukovodstvo pol'zovatelya [System translation of the text Magic Goody for Windows]. St. Petersburg, Comp. «Promt», 1999.

10. Filinov E.N. Istoriya mashinnogo perevoda [The history of machine translation]. Available at: course-work.ru.

MAMMEDOVA ZHALA - Doctoral Student, Linguistic Institute of named after I.Nasimi of Azerbaijan National Academy of Sciences; Working as an English Instructor at the Department of Foreign languages in Sumgait State University, Azerbaijan Republic, Sumgait (doctorant.amea@mail.ru).

Формат цитирования: Маммедова Ж.Э. Перспективы и проблемы компьютерной лексикографии // Вестник Чувашского университета. - 2018. - № 2. - С. 261-267.

i Надоели баннеры? Вы всегда можете отключить рекламу.