Модуль
автоматизированного пополнения словаря электронной библиотеки МГУП
И. Хоренова,
ДЦмаг-6
Электронная библиотека МГУП хранит большое количество текстов на различную тематику. Одной из целей проекта по созданию электронной библиотеки является рубрицирование этих текстов. Для достижения этой цели необходимо решить ряд задач. Создаются модули, каждый из которых выполняет ту или иную из задач, которые в дальнейшем будут объединены в одну систему. Давайте рассмотрим, что нужно сделать, чтобы рубрицировать тексты. Во-первых, должен быть модуль, добавляющий тексты в систему. Такой модуль уже есть. Он добавляет текст, после чего разбивает текст на отдельные слова, отсеивая слова короче трех символов. Затем он проверяет текст на наличие слов, которых нет в базе данных словаря. Если такие имеются, то вызывает модуль автоматизированного пополнения словаря. Затем другой модуль составляет статистику для каждого слова, то есть считает, сколько раз оно встретилось в тексте. Также в этот модуль выводит статистику о том, какую долю в процентах составляют в данном тексте существительные, прилагательные и глаголы. Есть возможность загрузки двух текстов. Тогда модуль показывает процент схожести текстов. К примеру, если тексты на абсолютно разные тематики, то процент схожести будет низким, если тексты на одну тематику, то выше. В случае, если загрузить в модуль один и тот же текст два раза, совпадение будет стопроцентным.
Модуль автоматизированного пополнения словаря
Давайте, рассмотрим, зачем нужен этот модуль. Крайне нежелательно, чтобы словарь в системе был избыточным. К примеру, многие системы автоматизированного морфологического словаря используют в качестве основы словарь Зализняка. Но в этом словаре со-
держится порядка 100 тыс. базовых словоформ русского языка с их полным морфологическим описанием, в то время как на данный момент в базе нашей системы хранится 20 тыс. слов, включая все словоформы. Можно предположить, что тематика текстов в электронной библиотеке МГУП достаточно узконаправленная. То есть такой большой развернутый словарь действительно может быть чересчур избыточным. Также в текстах могут встречаться слова и термины, использующиеся только в полиграфических отраслях, что обусловлено профессиональными жаргонизмами, а также тем, что полиграфия - это одна из самых передовых отраслей, следовательно периодически появляются новые вещи, а вместе с этим и новые термины.
Электронные морфологические словари могут быть основаны на нескольких различных принципах. Системы, основанные на первом принципе, не могут генерировать словоформы самостоятельно, то есть пополнение словаря производит оператор. Другие системы предполагают автоматическую или автоматизированную генерацию словоформ.
Для разработки электронной библиотеки используется модуль, который может генерировать словоформы. Модуль автоматизированный, поэтому оператор должен проверить и выбрать правильные словоформы, отметив флажком либо все сгенерированные словоформы, либо, если словоформа сгенерирована некорректно, те, которые сгенерированы правильно. Стоит отметить, что данный алгоритм дает небольшой процент ошибки. Исключение могут составить слова, которые выпадают из данного алгоритма, например слова, которые не склоняются: кофе, метро. В этом случае, так как модуль просклоняет эти слова автоматически, оператор не должен отмечать ни одну из словоформ.
Так как модуль автоматизированного пополнения словаря, в случае когда встречает слово, добавляет сразу все его словоформы, можно говорить о том, что он позволяет ускорить процесс пополнения словаря в среднем в 10 раз. Для создания модуля, как и для остальных модулей системы, используется программа Visual Basic 6.0.
Библиографический список
1. Агеев В.Н. Автоматизированная система формирования морфологического словаря электронной библиотеки / В.Н. Агеев // Вестник МГУП. - 2009. - № 11.
2. http://www.deeptext.ru
3. http://www.inteltec.ru
4. http://www.kv.by
5. http://www.rco.ru
6. http://roinet.net
7. http://slovari.yandex.ru
8. http://ru.wikipedia.org