Научная статья на тему 'Повышение эффективности процесса создания двуязычных словарей'

Повышение эффективности процесса создания двуязычных словарей Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
190
61
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Повышение эффективности процесса создания двуязычных словарей»

А.М. ХАРИТОНОВА

ПОВЫШЕНИЕ ЭФФЕКТИВНОСТИ ПРОЦЕССА СОЗДАНИЯ ДВУЯЗЫЧНЫХ СЛОВАРЕЙ

Огромное количество языков, вовлеченных в международные контакты, невозможность обеспечения достаточно высокого уровня владения иностранными языками при их массовом изучении являются причиной все более возрастающей роли опосредованной коммуникации, в основе которой лежат средства компьютерных коммуникаций. Это прежде всего электронные словари, переводчики, программы и системы автоматизированного перевода.

С середины 1990-х годов перевод веб-страниц «на лету» постепенно становится одной из приоритетных задач всех систем машинного перевода. При этом, конечно, никто всерьез не рассматривает «чисто машинный перевод» как окончательный. Основные работы сейчас ведутся в сферах, которые принято обозначать аббревиатурами MAHT (Machine-Aided Human Translation, человеческий перевод с привлечением машин) и HAMT (Human-Aided Machine Translation, машинный перевод с участием человека).

Обобщая технологии компьютерного перевода, можно выделить в первую очередь два вида таких программ: словарные программы (резидентные словари и переводческие накопители) и программы-переводчики (пакетные переводчики).

Среди наиболее известных отечественных разработок первого типа: словарные программы Lingvo 4.5 (фирма Bit Software) и Polyglossum II (фирма ETS). Ряд функций этих программ реализован в соответствии с функциями человека при работе с традиционными полиграфическими издательскими («бумажными») словарями: перевод слова или словосочетания, получение текста «вложенной статьи» (т.е. новой статьи по имеющейся ссылке), а часть из них (автоматизированный поиск слова из словарной статьи, вставка перевода в редактируемый текст и создание своих собственных (пользовательских) словарей на основе уже имеющихся) открывает для пользователя новые возможности работы со словарем. Электронные словари представляют собой средства для перевода отдельных слов, отображаемых на экране или имеющихся в документе. Удобство их использования состоит в возможности немедленно получить перевод неизвестного слова без поиска его в отдельном толстом томе.

Среди наиболее интересных российских разработок программ второго типа (программ-переводчиков) - системы фирмы ПРОМТ (город Санкт-Петербург), система семантико-синтаксического перевода ЭТАП, разрабатанная в лаборатории компьютерной лингвистики Института проблем передачи информации (ИППИ РАН), и система фразеологического перевода К-ЕТКЗ, над разработкой которой трудится группа ученых и инженеров во Всероссийском институте научной и технической информации (ВИНИТИ).

ПРОМТ ставит своей целью создание программных средств, позволяющих свободно общаться на разных языках. Программные продукты компании распространяются по всему миру под торговыми марками PROMT, REVERSO, PROMT Internet, WebView. Программы перевода получают на входе текст, выполненный на одном языке, и выдают текст на другом языке, т.е. автоматизирует перевод текста. Надежный и качественный автоматический перевод документов с одного языка на другой (речь идет в основном о переводе с английского на русский) пока остается недостижимым идеалом. Но разработки

программного или пакетного характера широко используются в современных компьютерных коммуникациях.

Тезаурусная составляющая является важнейшей составляющей любой системы машинного перевода, следовательно, и компьютерной коммуникации. Тезаурусные модели основаны на принципе организации словарей. Тезаурус в наиболее общем определении - это словарь с семантическими связями между словарными единицами.

Отдельно можно выделить информационные технологии семейства WordNet. Лидирующим среди них признан Принстонский проект WordNet как основоположник этого семейства тезаурусов. Проект WordNet является ссылочной системой, которая сочетает аспекты словарей и тезаурусов с текущей психолингвистической теорией о человеческой памяти. Это одна из немногих свободно доступных лексических баз данных. Особенность проекта WordNet главным образом состоит в том, что он предназначен для компьютерного использования, т.е. программно доступен и может работать как электронный многоязычный словарь и осуществлять поиск и толкование в алфавитном списке и концептуальном пространстве. Это проект, реализованный в мощную современную информационную технологию, и необходимо раскрыть его основные стороны и особенности, чтобы использовать его в других информационных технологиях и для разработки его версий для других языков. Европейские проекты EuroWordNet и BalkanNet сделали возможной работу с WordNet практически на всех европейских языках. Наиболее известные русские версии проекта - Russian WordNet и RussNet.

Актуально создание систем такого типа и для чувашского языка, для этого имеется богатый фонд словарно-тезаурусных ресурсов чувашского языка в бумажном варианте. Есть необходимость в сохранении, использовании и представлении их в мировое информационное пространство с применением современных информационных технологий. Для этого необходимо сформировать электронную словарно-тезаурусную базу чувашского языка для использования ее в перспективе при создании проектов типа WordNet, в том числе провести анализ ресурсов для разработки электронной тезаурусной базы чувашского языка, исследовать эффективность получения электронных фрагментов имеющихся в бумажном варианте чувашских словарей и их распознавания, разработать алгоритмы анализа полученных лексикографических файлов и формирования на их основе базы данных.

В данной статье проводится анализ совокупности процессов и технологий, применяемых в настоящее время для создания или использования информационного продукта, и дается краткое описание исследований по получению электронного варианта фрагментов словарей чувашского языка в качестве лексикографического материала и разработке экспериментальной системы обработки данных типа проекта WordNet.

Результат анализа структур и компонентов существующих тезаурусных систем показал, что системы тезаурусного типа имеют 3 основных составляющие: лексикографический ресурс, средства и методы его обработки и сформированную на основе этих составляющих базу данных.

Разработка систем обработки данных тезаурусного типа для чувашского языка проводилась в двух направлениях:

- исследование основных лексикографических источников чувашского языка - содержание, структура этих ресурсов и методы обработки;

- разработка модели системы обработки данных тезаурусного фонда чувашского языка типа проекта WordNet и алгоритмов функционирования некоторых ее компонентов.

Первоначальной задачей лексикографического аспекта являются анализ или исследование чувашских лексикографических ресурсов. В качестве основного материала для разработки систем обработки данных тезаурусного типа рассматривались чувашско-русские, русско-чувашские словари Н.И. Ашмарина, И.А. Андреева, М.И. Скворцова и А.В. Скворцовой. Они исследовались с целью найти наиболее ценные и совершенные источники для разработки наиболее удачных и оптимальных методов и средств. В этом процессе зондировался тот путь, который бы привел к решению проблемы создания новой версии проекта WordNet с совершенно новой базой данных, другими лексикографическими ресурсами и другой методологией, а также по приведению методики, целей и результатов исследований к стандартным нормам для дальнейшего развития этого направления, чтобы в конечном итоге получить равноценную чувашскую версию.

В результате изучения этих источников были отобраны два из них для использования в дальнейших исследованиях:

- 17-томный «Словарь чувашского языка» Н.И. Ашмарина;

- «Словарь чувашско-русский и русско-чувашский» М.И. Скворцова и А.В. Скворцовой.

Выбор первого из источников диктуется его уникальностью и тем, что должны быть найдены средства и способы для сохранения и предоставления всему миру этого богатейшего наследия чувашского народа.

Выбор второго из источников объясняется тем, что словарь М.И. Скворцова и А.В. Скворцовой по сравнению со словарем И.А. Андреева, во-первых, более компактный, что немаловажно для проведения исследований экспериментального характера; во-вторых, более современный - имеется его электронная версия, а в-третьих, статьи словарей Скворцовых имеют много помет разного рода, которые можно использовать при анализе статей в системах их обработки и исследования.

Стандартная процедура построения WordNet предполагает обращение к частотным словарям языка для выбора употребительной лексики, с которой обычно начинается построение тезауруса. Наполнение структур, например RussNet, осуществляется следующим образом: сначала исследуется ядро лексики русского языка - наиболее частотные слова с наиболее общим значением, затем полученные иерархические структуры расширяются за счет менее употребительной лексики.

С учетом приведенных в данном исследовании особенностей построения проектов WordNet, для разработки подобного проекта для чувашского языка можно предложить следующую модель такой системы обработки данных те-заурусного типа.

На рис.1 приводится структурная модель СОДТТ, которая демонстрирует основные направления разработки проекта. Ниже приводится описание некоторых компонентов проекта.

1) Создание и корректировка структуры базы данных. База данных в данном исследовании организована в СУБД Microsoft Access 2000. Основными объектами предметной области являются поля словарных статей словарей Ашмарина и Скворцовых. Хотя словарные статьи этих словарей и имеют неодинаковые струк-

туры, накопление ими таблиц базы данных будет происходить с помощью одного и того же управляющего кода, только методы анализа лексикографического файла каждого из этих словарей отличаются своими алгоритмами.

2) Сканирование фрагментов словарей.

3) Распознавание сканированных фрагментов словарей.

4) Разработка алгоритмической модели системы обработки данных тезаурус-ного типа. Этот этап процесса проектирования является проектированием управляющей части СОДТТ. Основными компонентами его являются разработка алгоритмов анализа словарных статей, алгоритма работы системы управления режимами наполнения базы данных, просмотра ее, навигации по ней. Общий алгоритм анализа словарных статей Ашмарина и Скворцовых и занесения их в базу данных приводится на рис. 2. Входными объектами для данного алгоритма являются шо^-документы фрагментов словарей. Ввиду того, что словарь состоит из словарных статей, включающих характерные для лексикографических файлов пометы и условные обозначения, эти фрагменты можно считать лексикографическими файлами. Файл может быть любой длины от 1 столбика страницы словаря до нескольких страниц и даже всей книги.

Это алгоритм разложения полей всех статей словаря по таблицам базы данных СОДТТ. В этой блок-схеме блок А (Разбор словарной статьи и занесение ее полей в базу данных) включает в себе разные алгоритмы для случаев статьи их словаря Ашмарина и словаря Скворцовых.

Рис. 1. Основные составляющие проекта СОДТТ

5) Реализация алгоритмов. Данный этап разработки СОДТТ представляет собой получение всей совокупности компонентов проекта. Экспериментальная система обработки данных тезаурусного типа разработана и реализована в визуальной среде Ре!рЫ, которая имеет, как минимум, 2 режима работы: наполнения и модификации базы данных, просмотра и изучения содержимого базы данных.

В первом режиме можно наполнять базу данных, извлекая словарные статьи или их элементы из электронных копий страниц словаря Ашмарина (и не только его), представленных в Word-формате. Во втором режиме можно про-

сматривать любое чувашское слово, лексикализованное в базе данных, его русское значение или пример использования этого слова в русском или чувашском языке.

6) Наполнение базы данных. На этом этапе спроектировано взаимодействие управляющей части СОДТТ с уже спроектированной базой данных. Наполнение ее возможно в режиме анализа документов, в качестве которых выступают сканированные и распознанные копии словарей Ашмарина или Скворцовых. Каждый анализ очередного документа вносит изменение в одну и ту же базу данных. Возможна предварительная обработка новых данных перед занесением их в базу данных.

7) Навигация по БД и исследование ее. Эти функции СОДТТ возможны в реализованном проекте в режиме наполнения и просмотра. Базу данных можно стереть, удалять в ней записи, исследовать.

Рис. 2. Блок-схема алгоритма работы управляющей части СОДТТ

Проведенный анализ особенностей словарно-тезаурусных ресурсов чувашского языка с точки зрения их использования для разработки современной информационной продукции, отработанная методика распознавания фрагментов словарей с помощью современных информационных технологий с учетом особенностей кодирования национальных алфавитов и реализация выше-

описанного проекта сформировали существенный материал для создания электронной словарно-тезаурусной базы чувашского языка для использования ее в перспективе при создании проектов типа WordNet.

Представленная в этой статье система обработки данных тезаурусного типа использовалась в процессе изучения студентами дисциплин блока информатики в качестве примера по разработке современного информационного продукта. А при изучении тезаурусной базы чувашского языка студентами филологического факультета СОДТТ использовалась как альтернативная среда для формирования электронного варианта тезаурусного фонда чувашского языка и оказалась намного эффективнее режима ручного ввода с клавиатуры лексикографического материала для создания баз данных.

ХАРИТОНОВА АЛЕВТИНА МИХАЙЛОВНА родилась в 1950 г. Окончила Чувашский государственный университет. Старший преподаватель кафедры компьютерных технологий Чувашского университета. Область научных интересов - создание и внедрение машиночитаемых словарей. Автор более 10 научных статей.

i Надоели баннеры? Вы всегда можете отключить рекламу.