Научная статья на тему 'Об организации поисковой системы для компьютерного корпуса фракийского языка'

Об организации поисковой системы для компьютерного корпуса фракийского языка Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
52
10
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Об организации поисковой системы для компьютерного корпуса фракийского языка»

А. В. Андреев

ОБ ОРГАНИЗАЦИИ ПОИСКОВОЙ СИСТЕМЫ ДЛЯ КОМПЬЮТЕРНОГО КОРПУСА ФРАКИЙСКОГО

ЯЗЫКА*

Подготовка материала

Автоматическое распознавание текстов, записанных в греческой графике, к сожалению, является практически невозможным, хотя большинство современных средств OCR

-

знаванию новых символов, процесс этот весьма трудоемок, а результат оставляет желать лучшего. В случае с древнегреческой графикой дополнительную проблему представляют диакритические знаки, которые сильно затрудняют

-

ние только немецкого пояснительного текста оказывается не вполне качественным.

---

чение, мы отказались от идеи разработки специального шрифта, кодировка символов которого соответствовала бы, допустим, латинской транслитерации для греческих букв (равно как и от использования какого-либо существующего шрифта такого типа). Во-первых, самодельные шрифты,

как правило, отличаются очень плохим полиграфическим

-

ние шрифта с нестандартной кодировкой препятствует

нормальному использованию текста. На данный момент

-

ческих букв является кодировка Unicode (а именно, т. н.

-

* Работа подготовлена при финансовой поддержке РГНФ, грант № 04-04-00199a.

но ее1. Неудобство на&ра в данном случае является мнимым, так как в большинстве текстовых редакторов имеется возможность задавать произвольное соответствие между клавишами и символами, вставляемыми в документ.

----

тальном форматирование оригинала не сохраняется.

Организация поисковой системы

Разрабатываемая система позволит пользователю

-

дующими характеристиками:

•поиск то всему тексту или только среди заголовочных слов статей. •

максимального расстояния между ними знаков

-

скими буквами оно записано.

•ном случаев, не удовлетворяющих заданному критерию» (логическое вычитание)

--

ной корпус Дечева или Nachträge), страниц в источнике и визуальным выделением искомых слов. Также возможно

1 Надо отмстить, что использование Unicodc имеет некоторые недостатки: во-первых, Unicodc достаточно проблематично использовать

-

во шрифтов, формально совместимых с Unicodc, не содержит всех

-

ются нам мало существенными.

получение количественных характеристик (в первую очередь, числа употреблений данного слова в корпусе).

Детали реализации

Наиболее подходящим для нашей задачи форматом хранения является так называемый формат Patricia2. Являясь разновидностью цифрового поиска, Patricia позволяет осуществлять эффективный поиск по частичному ключу, и

в то же время размеры индекса оказываются существенно

-

ле дерева хранится единственный бит данных.

---

са, а не самих данных). Затем строится собственно индекс,

при этом в качестве ключа используется цепочка символов,

-

-

деке содержит ссылки на позиции внутри файла исходных

данных (который фактически представляет собой просто

-

-

делить по номеру позиции источник (поскольку все данные физически хранятся в одном файле), страницу, позицию начала словарной статьи и, может быть, номер строки.

Поисковая машина будет изначально реализована как надстройка над Web-сервером, предоставляя пользователю удобный и привычный интерфейс в стиле Intemet-поиско-

2 Расшифровывается как Practical Algorithm To Retrieve Information Coded In Alphanumeric, предложенный Дональдом Моррисом в 1968 г. и независимо в то же время Г. Гвсснбергером. Исчерпывающее его

The Art of Computer

Programming, Vol. 3, 1998

вых машин. В дальнейшем возможна реализация в виде подключаемых модулей к текстовым редакторам, таким как Ms Word или OpenOffice Write, что предоставит пользователю еще большее удобство в работе с материалом.

i Надоели баннеры? Вы всегда можете отключить рекламу.