Научная статья на тему 'Реализация комплекса программных инструментов для сопровождения электронных грамматических словарей русской лексики'

Реализация комплекса программных инструментов для сопровождения электронных грамматических словарей русской лексики Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY-NC-ND
92
14
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ОБРАБОТКА ЕСТЕСТВЕННО-ЯЗЫКОВЫХ РУССКИХ ТЕКСТОВ / ЭЛЕКТРОННЫЕ СЛОВАРИ ДЛЯ ЯЗЫКОВ ФЛЕКТИВНОГО ТИПА / ФОРМАТЫ СЛОВАРЕЙ / ПОВЕРХНОСТНО-СИНТАКСИЧЕСКИЙ АНАЛИЗ ТЕКСТА / ПРОГРАММНАЯ РЕАЛИЗАЦИЯ / ЛОКАЛЬНАЯ И РАСПРЕДЕЛЕННАЯ АРХИТЕКТУРЫ ПРОГРАММНЫХ ПРИЛОЖЕНИЙ / РЕЛЯЦИОННАЯ БД / ПРЕДМЕТНЫЕ XML ЯЗЫКИ / ЯЗЫКИ СЦЕНАРИЕВ / NATURAL-LANGUAGE RUSSIAN TEXT PROCESSING / ELECTRONIC DICTIONARIES FOR INFLEXIONAL LANGUAGES / DICTIONARY FORMATS / SYNTACTIC TEXT ANALYSIS / SOFTWARE IMPLEMENTATION / LOCAL AND DISTRIBUTED SOFTWARE ARCHITECTURE / RELATIONAL DB / PROBLEM-ORIENTED XML LANGUAGES / SCENARIO LANGUAGES

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Хохряков Игорь Александрович

В статье описываются особенности программной реализации инструментальных приложений, облегчающих коррекцию и пополнение новыми словами специализированных электронных грамматических словарей. Словарь, рассматриваемый в данной статье, в первую очередь предназначен для поверхностно-синтаксического анализа русских текстов, однако может применяться и для решения других задач. Первоочередным критерием, положенным в основу данной реализации, является минимизация человеко-временных ресурсов, требуемых для разработки этих инструментов и их последующей модификации (в частности, их настройка на применение к сопровождению электронных словарей других форматов).

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Implementation of program tools for thе russian electronic grammatical dictionaries support

The article describes the implementation characteristics of the applications facilitating correction of and input of new words into specialized electronic grammatical dictionaries. The dictionary described in this article is intended primarily for syntactic analysis of Russian texts, but it can also be applied for other purposes. The primary criterion on which the described realization is based is the minimization of time-manpower resources needed for these instruments development and for their consequent modification, especially for their adjustment to other electronic dictionaries formats support.

Текст научной работы на тему «Реализация комплекса программных инструментов для сопровождения электронных грамматических словарей русской лексики»

И.А. хохряков

РЕАЛИЗАЦИЯ КОМПЛЕКСА программных ИНСТРУМЕНТОВ для сопровождения электронных грамматических словарей

РУССКОЙ ЛЕКСИКИ

В статье описываются особенности программной реализации инструментальных приложений, облегчающих коррекцию и пополнение новыми словами специализированных электронных грамматических словарей. Словарь, рассматриваемый в данной статье, в первую очередь предназначен для поверхностно-синтаксического анализа русских текстов, однако может применяться и для решения других задач. Первоочередным критерием, положенным в основу данной реализации, является минимизация человеко-временных ресурсов, требуемых для разработки этих инструментов и их последующей модификации (в частности, их настройка на применение к сопровождению электронных словарей других форматов).

Ключевые слова: обработка естественно-языковых русских текстов, электронные словари для языков флективного типа, форматы словарей, поверхностно-синтаксический анализ текста, программная реализация, локальная и распределенная архитектуры программных приложений, реляционная БД, предметные XML языки, языки сценариев.

Как известно, синтаксический анализ является одним из необходимых средств решения задач, требующих понимания, в большей или меньшей степени, текста на естественном языке. К таким задачам относятся документальный (текстовый) поиск, извлечение знаний или хотя бы фактов из текста, перевод с одного языка на другой и т. п. Автоматизация решения подобных задач приводит к необходимости формального описания синтаксического анализа с целью его последующей программной реализации. Полнота такого формального описания существенно влияет на адекватность, корректность и точность конечного результата анализа текста, однако

© хохряков И.А., 2011

«проблема синтаксического анализа неформализованных текстов в полном объеме еще не решена»1.

В настоящее время в Институте лингвистики РГГУ проводится экспериментальная реализация системы правил поверхностно-синтаксического анализа (далее - ПСА) русского предложения, на протяжении многих лет разрабатываемой Т.Ю. Кобзаревой2. Ее подход отличается от подхода большинства других работающих в этой области исследователей тем, что синтаксический анализ рассматривается ею не во взаимодействии с семантическим анализом, а как самостоятельный этап анализа текста, предшествующий семантическому анализу и использующий минимальные семантические сведения. При таком подходе, вообще говоря, может возрастать число вариантов синтаксического разбора предложения, зато имеется возможность сосредоточить усилия именно на синтаксическом анализе, сужая круг исследуемых лингвистических ситуаций. Система ПСА открыта для пополнения новыми правилами и изменения уже имеющихся с целью ее совершенствования, что и является первоочередной задачей указанной реализации. Для обеспечения этого процесса была разработана специальная программная среда -экспериментальная система работы с лингвистическими алгоритмами (ЭСЛА)3.

Наряду с правилами система ПСА эксплуатирует еще один важный информационный ресурс, а именно специализированный для решения этой задачи электронный грамматический словарь. В данной статье описывается инструментарий, дающий возможность эффективно пополнять этот словарь новыми словарными статьями, при необходимости исправлять имеющиеся статьи, осуществлять «учет и контроль» подобных изменений, а также кратко обсуждаются некоторые особенности программной реализации рассматриваемых инструментов.

Устройство словаря для поверхностно-синтаксического анализа

Разработка описываемого здесь электронного словаря была начата в 1970-е годы в «Информэлектро» в отделе, возглавляемом Д.Г. Лахути, группой4 под руководством Г.А. Лесскиса5. Первая версия словаря использовалась как информационное обеспечение для морфологического анализатора «Скобки», который, в свою очередь, применялся в разрабатываемых группой системах обработки текстов на русском языке6; вторая версия7 используется в настоящее время для разработки системы ПСА.

Содержательно словарь представляет систему грамматических категорий (часть речи, род, число, падеж, время и др.), управления (падежами, предлогами, инфинитивом, подчинительным союзом) и некоторых приписываемых словам семантических классов (неодушевленный предмет, одушевленный предмет, параметр и т. д.). Эти категории приписываются словам анализируемого предложения на стадии морфологического анализа (лемматизация), а затем уже используются как свойства слов в процессе применения правил ПСА.

Рассматриваемый словарь состоит из двух взаимосвязанных частей: словаря основ и словаря флексий (окончаний). (Под основой здесь понимается часть слова до окончания.) Грамматические категории и «системные» (вспомогательные) данные представлены в словарных статьях обоих словарей как свойства в виде пар «имя свойства; значение / список значений».

Словарь основ содержит индивидуальные описания лексем языка. Вследствие чередования лексема может содержать не одну, а несколько основ (например, ветер в им. и вин. падежах ед. числа, ветр— в остальных формах: ветра, ...). Однако словарная статья этого словаря (отсюда его название) представляет только одну основу вместе с приписанными ей характеристиками - так называемый индивидуальный грамматический образ (далее - ИГО) основы. ИГО основы включает ссылку на ассоциированную с основой таблицу флексий (далее - ТФ), представленную в словаре окончаний. В такую таблицу входят все те окончания вместе с приписанными каждому их них свойствами (ИГО окончаний), которые могут быть дописаны к этой основе при словоизменении лексемы. Таким образом, объединение всех ТФ лексемы определяет ее словоизменительную парадигму.

В результате морфоанализа каждое анализируемое слово будет распознано как одна или несколько словоформ парадигмы одной или нескольких лексем. Например, вершины - это две формы (род. падежа ед. числа и им. падежа мн. числа) одного слова. А словоформа стали входит в разные парадигмы8: выплавка стали - существительное, стали совсем никакими, стали ошибаться - глагол. Словоформа с приписанными ей характеристиками, полученными комбинированием соответствующих ИГО основы и ИГО окончания, составляют ИГО словоформы (ИГО слова в предложении).

Такой двухчастный словарь, содержащий указанные выше грамматические признаки слов, будем далее называть ИГО-словарем, содержательный формат его статей - ИГО-форматом. ИГО-словарь может иметь разные форматы представления. В настоящее время используются:

- текстовый формат, в котором каждая из частей сохраняется в отдельном текстовом файле;

- соответствующий текстовому двоичный формат, который используется программой морфологического анализа;

- представление в виде реляционной БД;

- ХМЬ-формат представления ИГО-слова и ИГО-основы.

Задача пополнения ИГО-словаря и требования к инструментарию

В настоящее время ИГО-словарь включает около 30 тыс. слов. Этого достаточно для его использования в системе ЭСЛА с целью тестирования и отладки системы ПСА. При этом в случае необходимости в него время от времени добавляются новые слова из тестовых примеров. Однако даже для опробования системы на статистически значимом корпусе предложений этого количества недостаточно. Так, «Грамматический словарь русского языка» А.А. Зализняка9, электронная версия которого используется во многих системах обработки русских текстов, содержит более 110 тыс. слов.

Словарная статья ИГО-словаря содержит некоторые данные, которые отсутствуют в словаре А.А. Зализняка (например, сведения об управлении, семантические классы), поэтому непосредственно применять последний в системе ПСА нельзя. Кроме того, всегда сохраняется необходимость оперативного добавления слов - новых слов в языке (особенно часто они появляются в Интернете), терминов при ориентации системы анализа на узкоспециализированную предметную область. Как и ПСА, словарь является открытой информационной системой.

При добавлении новой словарной статьи в ИГО-словарь возникают следующие сложности. Во-первых, нужно описать все актуальные для нового слова характеристики. Их перечень различен для разных групп слов и зависит от части речи. Но некоторые признаки для одних слов обязательны, а для других могут отсутствовать (имеют «нулевое» значение), причем иногда это определяется индивидуально для каждого слова. Например, для одних неотглагольных существительных управление указывается, а для других - нет (для отглагольных существительных эта характеристика обязательна). Во-вторых, необходимо правильно задавать значения таких свойств, выбирая их из области возможных значений для каждого признака.

Имеется справочная документация, содержащая облегчающие эту деятельность инструкции. Опыт показывает, что чем дольше лингвистически образованный специалист работает со словарем,

тем быстрее и качественнее он справляется с назначением почти всех, особенно предметно осмысленных, параметров. Однако конкретизация номера ТФ, соответствующей основе слова, является сложной рутинной задачей, трудоемкость которой слабо зависит от компетентности специалиста. Это связано с большим количеством ТФ (их насчитывается несколько сотен). Для решения этой задачи «вручную» имеются две возможности.

1. В словаре основ найти основу, соответствующую вновь заносимой и принадлежащую лексеме с такой же парадигмой, что и у добавляемого слова; взять номер ТФ из ИГО найденной основы. Данная процедура осложняется тем обстоятельством, что словарные статьи этого словаря упорядочены по основам в обратном (т. е. от «я» к «а») лексикографическом порядке. По этой причине у немалого количества слов основы «разбросаны по словарю», а не расположены подряд10.

2. Воспользоваться так называемым указателем для соответствующей части речи. Этот указатель представляет собой вопросник, организованный в виде блок-схемы. Ее узлы «содержат» правила в виде условия-вопроса и нескольких вариантов ответов (наподобие тестов в обучающих системах). Выбор одного из ответов определяет переход к следующему узлу. Концевой узел блок-схемы, в котором мы закончим ее проход, содержит искомый номер ТФ. Общий объем этих указателей (только для существительных такая блок-схема занимает 29 печатных листов формата А4) во много раз превосходит объем остальной документации по ИГО-словарю11.

Ясно, что задача заполнения ИГО-словаря «вручную» требует длительных усилий достаточно большого числа хорошо подготовленных специалистов.

Таким образом, становится актуальной автоматизация процесса пополнения ИГО-словаря с целью ускорения этого процесса и повышения его качества (в смысле корректности вводимых в словарь данных). Как нам представляется, комплекс программных приложений, разрабатываемых как инструментальные средства такой автоматизации, должен удовлетворять следующим требованиям.

1. Вся справочная информация, в том числе инструкции по пополнению словаря, должна стать электронным ресурсом, положенным в основу как алгоритмов, обеспечивающих функциональность программных инструментов, так и сценариев интерфейса пользователя, позволяющих гибко применять функциональные возможности. Необходимость обращения к документации в бумажном виде может возникать лишь на начальной стадии использования инструментов, во время обучения работе с ними.

2. Пользователю должны быть предоставлены возможности сочетать различные способы формирования словарной статьи - как универсальные (ввод значений параметров ИГО-основы «вручную из головы»; использование указателя для выбора номера ТФ), так и частные, существенно облегчающие задание каких-либо параметров не всегда, но хотя бы для достаточно часто встречающихся случаев (например, использующие информацию об аналогичных лексемах в словаре).

3. Указатели выбора номера ТФ представляют собой довольно сложную и вместе с тем открытую систему правил. Их коррекция и, при необходимости, пополнение новыми правилами «вручную» также являются трудоемкими задачами, поэтому требуется инструментальное средство для совершенствования указателей.

4. Дизайн интерфейса должен обеспечивать удобное и наглядное предъявление пользователю как редактируемых данных, так и сопутствующей информации, соответствующей выбранному пользователем методу построения новой словарной статьи. Аналогичные требования предъявляются и к интерфейсу инструмента для коррекции указателей.

5. Необходимы средства учета изменений, внесенных в словарь различными пользователями в разное время (журнал изменений), и контроля правильности этих изменений.

6. «Уникальная» реализация, ориентированная только на пополнение словаря в ИГО-формате, вряд ли целесообразна. Желательно иметь возможность не слишком сложной настройки предлагаемого инструментария для сопровождения других электронных словарей.

7. Программная реализация инструментов должна выполняться как в локальной (для использования на отдельном компьютере), так и в распределенной (для работы в сетях Интернет или Интранет) версиях.

Следствием сформулированных выше требований является качество, очень важное для применения подобного инструментального комплекса в условиях вуза: существенно снижается уровень компетенции и специализации, необходимой для работы по дальнейшему развитию ИГО-словаря, что позволяет привлекать студентов, в том числе и младших курсов, в качестве ее исполнителей. При этом студенты довольно быстро осваивают эти инструменты и приступают к работе со словарем.

И наконец, последнее. Мы здесь обсуждаем только задачу добавления словарной статьи, поскольку изменение уже имеющейся в словаре статьи выполняется как две последовательные операции: удаление ее прежнего варианта и добавление затем нового, измененного.

Архитектура инструментального комплекса. «Производственный» цикл пополнения словаря

На рис. 1 представлены основные компоненты комплекса программных инструментов для сопровождения электронного словаря. Такой словарь мы будем далее считать целевым.

РЕДАКТОР .УКАЗАТЕЛЕЙ □ Указатель

КОНСОЛЬ АДМИНИСТРАТОРА

<2

ИНСТРУМЕНТ ПОПОЛНЕНИЯ СЛОВАРЯ

Словари Источники

ИЗМЕНЕНИЯ ЦЕЛЕВОГО СЛОВАРЯ

БД

Целевого Словаря

Рис. 1. Основные компоненты комплекса программных инструментов для сопровождения электронных грамматических словарей

Комплекс включает три основных инструментальных приложения, с которыми работают, соответственно статусу, пользователи трех разных категорий:

- инструмент пополнения словаря, предоставляющий возможность пользователям - составителям словаря формировать различными способами словарные статьи;

- редактор указателей, используя который специалисты с достаточным лингвистическим образованием могут корректировать и пополнять новыми правилами указатели для сопоставления ТФ вводимым в словарь основам;

- консоль администратора, предоставляющая администратору проекта по развитию словаря, как наиболее квалифицированному и ответственному специалисту, осуществлять функции по контролю и учету изменений словаря.

В распределенной версии инструментального комплекса эти три компонента являются клиентскими приложениями.

Большую часть работы по заполнению словаря выполняют его составители. Поэтому компонент для пополнения словаря можно считать «центральным» в комплексе инструментов. Его функциональные возможности облегчают, насколько это возможно, разработку новых словарных статей.

Прежде всего, составитель имеет возможность проверить, представлено ли данное слово в актуальной текущей версии целевого словаря или нет, а если да, то проверить правильность такого представления.

При формировании новой словарной статьи составитель может использовать различные вспомогательные средства. Одним из них является обращение к источникам.

Рис. 2. Окно инструмента для пополнения ИГО-словаря

1 - главная форма приложения;

2 - список статей, найденных по заданным словам

в источнике и целевом словаре;

3 - текущее состояние разрабатываемой статьи

в формате целевого словаря;

4 - «стековый мастер» - интерфейс указателя для соста-

вителей словаря (чем ниже страница мастера, показывающая правило, тем раньше оно было рассмотрено пользователем)

Настоящая, применяемая на практике, версия комплекса инструментов ориентирована на пополнение ИГО-словаря как целевого. В роли источников в ней выступают «Грамматический словарь русского языка» А.А. Зализняка в электронном виде и сам целевой ИГО-словарь. Если вводимое в ИГО-словарь слово содержится в словаре А.А. Зализняка, то часть параметров ИГО его основы можно вычислить по описывающей это слово статье словаря А.А. Зализняка и такое преобразование реализовано в компоненте пополнения словаря. Если в ИГО-словаре найдена лексема, аналогичная новому слову, то значения части параметров ИГО-основ такой лексемы могут быть перенесены в разрабатываемую статью. Рассматриваемый инструмент дает и такую возможность.

В ряде случаев номер ТФ для новой основы также может быть определен по аналогии при обращении к словарям-источникам. В других случаях составитель может воспользоваться актуальной версией соответствующего указателя.

Компонент пополнения словаря не дает составителю возможности непосредственно внести свои изменения в целевой словарь. В процессе работы составителя лишь формируется пул изменений целевого словаря как совокупность новых и/или измененных статей.

Периодически порции таким образом подготовленных новых словарных статей составитель передает администратору. Последний, используя консоль администратора, проверяет полученные от составителя словарные статьи, делает необходимые исправления и фиксирует изменения в БД целевого словаря. Эта БД, по существу, представляет журнал изменений целевого словаря. Актуальные состояния целевого словаря (после внесения изменений в БД) выгружаются в форматы его представлений, с которыми работают использующие его приложения (среди них и инструмент пополнения этого словаря).

Кратко охарактеризуем организацию обмена данными между различными специалистами, разрабатывающими словарь. При использовании ими локальной версии рассматриваемого программного комплекса возможен только обмен файлами. Распределенная версия комплекса инструментов предполагает, что БД целевого словаря локально поддерживается на сервере. Таким образом, для этой БД снимается техническая проблема синхронизации параллельно разрабатываемых версий12. Однако другие информационные ресурсы и в этой версии удобно передавать для использования на стороне клиента. Техническая проблема синхронизации «параллельно» модифицируемых версий одних и тех же информационных ресурсов в настоящее время разрабатывается другим исполнителем в Учебно-научном центре программного и лингвистического обеспечения интеллектуальных систем (УНЦ ПиЛОИС) РГГУ.

Средства реализации

• Выбор средств реализации обсуждаемого здесь программного комплекса в первую очередь обусловлен следующими причинами.

• Реализация продукта проводится в настоящее время в виде локальной и предполагается в дальнейшем в виде распределенной версии. Желательно, чтобы при этом, насколько это возможно, использовались одни и те же средства реализации.

• В силу ряда причин реализация пока будет проводиться на основе платформы Windows.

• Существует возможность применения разработанных ранее в УНЦ ПиЛОИС средств и технологий, упрощающих реализацию специфицированного программного продукта.

В итоге для разработки инструментального комплекса в целом используются следующие технологии и средства.

1. Технология DHTML (Dynamic HTML) с использованием языка сценариев JavaScript и библиотека JavaScriptMVC Framework13 для реализации всех трех основных инструментов, что позволит легко оформить их как клиентские приложения в будущей распределенной версии. Браузер Internet Explorer версии 6.0 и выше применяется в качестве среды выполнения для поддерживающих интерфейс с пользователем приложений. Используются также HTML-компоненты (HTC)14.

2. Применение специально разработанных несложных предметных XML-языков для обмена данными между различными приложениями и их составными частями. Использование XSLT для отображения XML-документов в их HTML-представления с целью визуализации и редактирования.

3. БД целевого словаря и БД для каждого из указателей реализованы в интегрированной среде разработки (IDE) MS Access. Такой выбор делает удобным макетирование БД как информационных ресурсов системы в целом. Этот формат приемлем и для обмена файлами БД между разработчиками словаря (MS Office, включающий Access, имеется на каждом рабочем и домашнем компьютерах). Небольшое количество участников проекта по расширению ИГО-словаря дает возможность даже поддерживать эти БД в формате MDB на сервере в случае распределенной версии. При необходимости несложно конвертировать эти БД в формат MS SQL Server или в формат популярных баз данных, работающих на платформе Linux (например, MySQL) при переходе на Unix-сервер.

4. Применение объектной библиотеки ADO (ActiveX Data Objects) в качестве API к указанным выше БД.

Некоторые особенности реализации комплекса программных инструментов для сопровождения электронного ИГО-словаря

Словари различаются содержанием и форматом представления статей. В то же время желательно, чтобы один из самых важных инструментов - редактор словарных статей - был структурно ориентирован на их представление, показывая их как можно нагляднее. Ясно, что интерфейс такого редактора будет уникальным. Как будет показано ниже, сами задачи, возникающие при сопровождении машинных словарей, используемых различными программными системами, могут отличаться от того, что приходится делать при составлении (или ведении) словарей, ориентированных на пользователя-человека, в том числе словарей печатных. Таким образом, подобные инструментальные системы разрабатываются индивидуально для каждого словаря. Однако наличие в них компонент со схожей функциональностью и некоторое подобие в архитектуре позволяют искать упрощающие их создание технологии.

Подобная технология15 была предложена М.Е. Епифановым в 2006 г. С тех пор она развивается и применяется на практике16 автором этой статьи. На ее основе разработаны два комплекса инструментальных средств: один, рассматриваемый в настоящей работе, и другой17, предназначенный для сопровождения печатного латинско-русского словообразовательного словаря18 (первая версия инструментов выполнена Р.А. Веретеновым в рамках дипломного проекта, с тех пор поддерживается и развивается автором данной статьи).

Кратко охарактеризуем применение этой технологии в реализации рассматриваемых программных инструментов.

Все они разработаны на основе применения открытой (open source) библиотеки JavaScriptMVC Framework, удобной для построения богатых клиентов (Rich Internet Application - «богатые Интернет-приложения», работающего на клиентской, в смысле архитектуры «клиент - сервер», стороне). Такие приложения обладают функциональностью традиционных настольных приложений и не поддерживаются браузерами непосредственно. Инструменты пополнения ИГО-словаря являются «богатыми клиентами».

Основными достоинствами JavaScriptMVC являются: поддержка архитектуры Model - View - Controller, предоставляемые средства тестирования и развертки19.

Model - View - Controller (MVC, «Модель - представление - поведение» или «Модель - представление - контроллер») - архитектура программного обеспечения, в которой модель данных приложе-

ния, пользовательский интерфейс и управляющая логика разделены на три отдельных компонента так, что модификация одного из них оказывает минимальное воздействие на другие20.

Как уже говорилось выше, одной из возможностей автоматизации пополнения целевого электронного словаря является привлечение «сторонних» словарей-источников, по которым ав-томатизированно или полностью автоматически можно строить требуемые данные. Например, по статье словаря А.А. Зализняка можно построить часть ИГО-основы для того же самого слова или слова с такой же парадигмой. При этом возникает необходимость преобразования данных из формата одного словаря в формат другого.

Предлагаемая система сопровождения электронных словарей реализована как открытая для добавления новых словарей в качестве источников и/или целевых. Но при добавлении словаря приходится заново решать задачи парсирования (разбора) формата представления словарной статьи, отображения формата представления в формат визуализации на форме инструмента пополнения словаря, конверсии словарной статьи из формата одного словаря в формат другого. Уникальная реализация этих трех задач достаточно трудоемка сама по себе, а с увеличением числа используемых словарей затруднит и поддержку программного комплекса в целом.

Применение JavaScriptMVC и разработанной ранее в УНЦ Пи-ЛОИС объектной библиотеки оболочек источников данных21 дает возможность унифицировать и существенно ускорить реализацию этих трех задач для инструмента пополнения словаря и для консоли Администратора.

В программной реализации редактора указателей существенным образом используется технология интерактивной визуализации и редактирования иерархических структур с «богатым содержанием узлов»22. Указатель - это дерево с большим количеством представляющих его правила узлов. Целиком такое дерево загружать в редактор нецелесообразно. Указанная технология позволяет подгружать фрагменты дерева «на лету», т. е. осуществляется так называемая ленивая подкачка: дочерние узлы подгружаются, когда пользователь приблизился к родительскому узлу, раскрывая (в смысле «свернуть - развернуть») узлы, предшествующие ему при обходе, и просматривая и/или редактируя содержащиеся в них правила. Узлы из БД указателя в редактор и обратно передаются в специальном XML-формате. Отображение XML-представления узла указателя в соответствующий HTML-формат для просмотра и редактирования реализовано при помощи XSLT.

Рис. 3. Общий вид инструмента редактирования указателей

Разработана отдельная утилита импорта указателей, модифицированных другими пользователями, что облегчает распространение новых указателей среди пользователей комплекса инструментов. После импорта указатель становится доступным в стековом мастере инструмента пополнения словаря.

Заключение

Разработан комплекс программных инструментов, облегчающих коррекцию и пополнение новыми словами ИГО-словаря. Положенная в основу его реализации технология допускает его модификации с целью добавления новых словарей-источников или переориентации его для сопровождения другого специализированного электронного грамматического словаря, экономя при этом человеко-временные ресурсы.

Примечания

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

См.: Белоногов Г.Г., Калинин Ю.П., Хорошилов А.А. Компьютерная лингвистика и перспективные информационные технологии. М.: Русский мир, 2004. С. 11. Кобзарева Т.Ю. Иерархия задач поверхностно-синтаксического анализа русского предложения // НТИ. 2007. Сер. 2. № 1. М.: ВИНИТИ, 2007. С. 23-35. Баталина А.М., Айриян Г.Ю., Епифанов М.Е., Кобзарева Т.Ю, Кушнарева Е.В., Лахути Д.Г. Объектная среда для отладки алгоритмов поверхностно-синтак-

2

7

сического анализа // Десятая национальная конференция по искусственному интеллекту с международным участием КИИ-2006: Труды конференции. Т. 2. М.: Физматлит, 2006. С. 589-597; Баталина А.М., Епифанов М.Е., Ивличева О.О., Кобзарева Т.Ю., Лахути Д.Г. Инструментальная среда для экспериментов с алгоритмами поверхностно-синтаксического анализа // Компьютерная лингвистика и интеллектуальные технологии: Труды Международной конференции «Диалог'2004». М.: Наука, 2004. С. 32-38.

4 В составе этой группы составлением лингвистических алгоритмов поверхностно-синтаксического анализа начала заниматься Т.Ю. Кобзарева.

5 См.: Владимирова Е.В., Карпова Г.Д., Лесскис Г.А., Уриновская И.Д. Словарь окончаний в системе автоматического индексирования документов «Скобки» // НТИ. 1985. Сер. 2. № 6. С. 29-31; Пархоменко В.Ф. Система автоматического индексирования документов СКОБКИ ОС ЕС // Методические материалы и документация по пакетам прикладных программ. Вып. 23. М.: МЦНТИ, 1983.

6 Там же.

См.: Карпова Г.Д., Пирогова Ю.К., Кобзарева Т.Ю, Микаэлян Е.В. Компьютерный синтаксический анализ: описание моделей и разработок. Итоги науки и техники (серия «Вычислительные науки»). Т. 6. М.: ВИНИТИ, 1991. Пример частеречной омонимии, которая должна сниматься «хорошей» системой синтаксического анализа.

См.: Зализняк А.А. Грамматический словарь русского языка. Словоизменение. М.: АСТ-ПРЕСС, 2008. С. 794.

В рассматриваемом словаре лексемы пронумерованы. Все основы, относящиеся к одной и той же лексеме, содержат ее номер в качестве одного из параметров. Поэтому, упорядочив словарь основ по номерам лексем, мы могли бы собрать словарные статьи в блоки размещенных подряд основ для каждой лексемы. Такая утилита реализована и применяется для решения некоторых задач. Имеется утилита, восстанавливающая порядок статей, нужный для морфо-анализатора. Однако такое переупорядочивание уже само является некоторым средством автоматизации редактирования словаря основ, требующим удобного интерфейса. Но его применение не снимает другие обсуждаемые здесь трудности редактирования словаря основ «вручную».

Справочная документация по ИГО-словарю, включая указатели для сопоставления ТФ-основам, была также разработана рабочей группой под руководством Г.А. Лесскиса в «Информэлектро» в 1980-е годы.

Не имея здесь возможности обсуждать этот вопрос, заметим, что репликация баз данных, предоставляемая, например, в MS Access, лишь частично решает эту проблему.

JavaScriptMVC - официальный сайт. Главная страница [Электронный ресурс] // JavaScriptMVC - an open source javascript framework. URL: http://1-5. javascriptmvc.com.

HTC Reference. URL: http://msdn.microsoft.com/en-us/library/ms531018% 28VS.85%29.aspx.

Хохряков И.А., Веретенов Р.А., Айриян Г.Ю., Епифанов М.Е. Об инструментальных системах сопровождения печатных и электронных словарей // Информационное общество. Интеллектуальная обработка информации. Информационные технологии. Труды 7-й международной конференции НТИ'2007 (Москва, 24-26 октября 2007 г.). М.: ВИНИТИ, 2007. С. 361-362. Там же. Там же.

На протяжении многих лет разрабатывается Г.В. Петровой «вручную». Мы надеемся, что применение упомянутых здесь инструментов облегчит работу по дальнейшему развитию этого словаря в будущем. (Имеется печатное издание словаря: Латинско-русский словообразовательный словарь: Ок. 20 000 слов / Авт.-сост. Г.В. Петрова. М.: Оникс: Мир и образование, 2008. С. 704). См.: JavaScriptMVC [Элекронный ресурс] // Сайт open-source проекта Java ScriptMVC. [USA, 2010]. URL: http://www.javascriptmvc.com (дата обращения: 20.12.2010).

См.: Гамма Э, Хелм Р., Джонсон Р., Влиссидес Дж. Приемы объектно-ориентированного проектирования. Паттерны проектирования. СПб.: Питер, 2001. С. 368.

См.: Ершова Е.С., Епифанов М.Е. Графический конструктор структур объектов как интерфейс инструментальной объектной среды // Девятая национальная конференция по искусственному интеллекту с международным участием КИИ 2004: Труды конференции. Т. 2. М.: Физматлит, 2004. С. 498-507. Айриян Г.Ю. Об интерактивной визуализации и представлении иерархических структур в гуманитарных приложениях // Девятая национальная конференция по искусственному интеллекту с международным участием КИИ 2004: Труды конференции. Т. 2. М.: Физматлит, 2004. С. 443-451.

16

17

18

19

20

21

22

i Надоели баннеры? Вы всегда можете отключить рекламу.