А. В. Андреев
ОБ ОРГАНИЗАЦИИ ПОИСКОВОЙ СИСТЕМЫ ДЛЯ КОМПЬЮТЕРНОГО КОРПУСА ФРАКИЙСКОГО
ЯЗЫКА*
Подготовка материала
Автоматическое распознавание текстов, записанных в греческой графике, к сожалению, является практически невозможным, хотя большинство современных средств OCR
-
знаванию новых символов, процесс этот весьма трудоемок, а результат оставляет желать лучшего. В случае с древнегреческой графикой дополнительную проблему представляют диакритические знаки, которые сильно затрудняют
-
ние только немецкого пояснительного текста оказывается не вполне качественным.
---
чение, мы отказались от идеи разработки специального шрифта, кодировка символов которого соответствовала бы, допустим, латинской транслитерации для греческих букв (равно как и от использования какого-либо существующего шрифта такого типа). Во-первых, самодельные шрифты,
как правило, отличаются очень плохим полиграфическим
-
ние шрифта с нестандартной кодировкой препятствует
нормальному использованию текста. На данный момент
-
ческих букв является кодировка Unicode (а именно, т. н.
-
* Работа подготовлена при финансовой поддержке РГНФ, грант № 04-04-00199a.
но ее1. Неудобство на&ра в данном случае является мнимым, так как в большинстве текстовых редакторов имеется возможность задавать произвольное соответствие между клавишами и символами, вставляемыми в документ.
----
тальном форматирование оригинала не сохраняется.
Организация поисковой системы
Разрабатываемая система позволит пользователю
-
дующими характеристиками:
•поиск то всему тексту или только среди заголовочных слов статей. •
максимального расстояния между ними знаков
-
скими буквами оно записано.
•ном случаев, не удовлетворяющих заданному критерию» (логическое вычитание)
--
ной корпус Дечева или Nachträge), страниц в источнике и визуальным выделением искомых слов. Также возможно
1 Надо отмстить, что использование Unicodc имеет некоторые недостатки: во-первых, Unicodc достаточно проблематично использовать
-
во шрифтов, формально совместимых с Unicodc, не содержит всех
-
ются нам мало существенными.
получение количественных характеристик (в первую очередь, числа употреблений данного слова в корпусе).
Детали реализации
Наиболее подходящим для нашей задачи форматом хранения является так называемый формат Patricia2. Являясь разновидностью цифрового поиска, Patricia позволяет осуществлять эффективный поиск по частичному ключу, и
в то же время размеры индекса оказываются существенно
-
ле дерева хранится единственный бит данных.
---
са, а не самих данных). Затем строится собственно индекс,
при этом в качестве ключа используется цепочка символов,
-
-
деке содержит ссылки на позиции внутри файла исходных
данных (который фактически представляет собой просто
-
-
делить по номеру позиции источник (поскольку все данные физически хранятся в одном файле), страницу, позицию начала словарной статьи и, может быть, номер строки.
Поисковая машина будет изначально реализована как надстройка над Web-сервером, предоставляя пользователю удобный и привычный интерфейс в стиле Intemet-поиско-
2 Расшифровывается как Practical Algorithm To Retrieve Information Coded In Alphanumeric, предложенный Дональдом Моррисом в 1968 г. и независимо в то же время Г. Гвсснбергером. Исчерпывающее его
The Art of Computer
Programming, Vol. 3, 1998
вых машин. В дальнейшем возможна реализация в виде подключаемых модулей к текстовым редакторам, таким как Ms Word или OpenOffice Write, что предоставит пользователю еще большее удобство в работе с материалом.