Об организации поисковой системы для компьютерного корпуса фракийского языка

А. В. Андреев

А. В. Андреев

ОБ ОРГАНИЗАЦИИ ПОИСКОВОЙ СИСТЕМЫ ДЛЯ КОМПЬЮТЕРНОГО КОРПУСА ФРАКИЙСКОГО

ЯЗЫКА*

Подготовка материала

Автоматическое распознавание текстов, записанных в греческой графике, к сожалению, является практически невозможным, хотя большинство современных средств OCR

-

знаванию новых символов, процесс этот весьма трудоемок, а результат оставляет желать лучшего. В случае с древнегреческой графикой дополнительную проблему представляют диакритические знаки, которые сильно затрудняют

-

ние только немецкого пояснительного текста оказывается не вполне качественным.

---

чение, мы отказались от идеи разработки специального шрифта, кодировка символов которого соответствовала бы, допустим, латинской транслитерации для греческих букв (равно как и от использования какого-либо существующего шрифта такого типа). Во-первых, самодельные шрифты,

как правило, отличаются очень плохим полиграфическим

-

ние шрифта с нестандартной кодировкой препятствует

нормальному использованию текста. На данный момент

-

ческих букв является кодировка Unicode (а именно, т. н.

-

* Работа подготовлена при финансовой поддержке РГНФ, грант № 04-04-00199a.

но ее1. Неудобство на&ра в данном случае является мнимым, так как в большинстве текстовых редакторов имеется возможность задавать произвольное соответствие между клавишами и символами, вставляемыми в документ.

----

тальном форматирование оригинала не сохраняется.

Организация поисковой системы

Разрабатываемая система позволит пользователю

-

дующими характеристиками:

•поиск то всему тексту или только среди заголовочных слов статей. •

максимального расстояния между ними знаков

-

скими буквами оно записано.

•ном случаев, не удовлетворяющих заданному критерию» (логическое вычитание)

--

ной корпус Дечева или Nachträge), страниц в источнике и визуальным выделением искомых слов. Также возможно

1 Надо отмстить, что использование Unicodc имеет некоторые недостатки: во-первых, Unicodc достаточно проблематично использовать

-

во шрифтов, формально совместимых с Unicodc, не содержит всех

-

ются нам мало существенными.

получение количественных характеристик (в первую очередь, числа употреблений данного слова в корпусе).

Детали реализации

Наиболее подходящим для нашей задачи форматом хранения является так называемый формат Patricia2. Являясь разновидностью цифрового поиска, Patricia позволяет осуществлять эффективный поиск по частичному ключу, и

в то же время размеры индекса оказываются существенно

-

ле дерева хранится единственный бит данных.

---

са, а не самих данных). Затем строится собственно индекс,

при этом в качестве ключа используется цепочка символов,

-

деке содержит ссылки на позиции внутри файла исходных

данных (который фактически представляет собой просто

-

делить по номеру позиции источник (поскольку все данные физически хранятся в одном файле), страницу, позицию начала словарной статьи и, может быть, номер строки.

Поисковая машина будет изначально реализована как надстройка над Web-сервером, предоставляя пользователю удобный и привычный интерфейс в стиле Intemet-поиско-

2 Расшифровывается как Practical Algorithm To Retrieve Information Coded In Alphanumeric, предложенный Дональдом Моррисом в 1968 г. и независимо в то же время Г. Гвсснбергером. Исчерпывающее его

The Art of Computer

Programming, Vol. 3, 1998

вых машин. В дальнейшем возможна реализация в виде подключаемых модулей к текстовым редакторам, таким как Ms Word или OpenOffice Write, что предоставит пользователю еще большее удобство в работе с материалом.

Об организации поисковой системы для компьютерного корпуса фракийского языка Текст научной статьи по специальности «Компьютерные и информационные науки»

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — А. В. Андреев

Текст научной работы на тему «Об организации поисковой системы для компьютерного корпуса фракийского языка»