Научная статья на тему 'Подход к построению специализированных электронных библиотек'

Подход к построению специализированных электронных библиотек Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
106
24
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Иванченко А. Н., Кислов М. В.

Рассматривается подход к созданию инструмента для формирования электронных библиотек. Документы в библиотеке хранятся в специальном формате, который позволяет адекватно отображать текст документов в виде древовидной структуры. Описывается один из способов реализации метода обработки документов, позволяющий автоматически восстанавливать древовидную структуру документа по его тексту. С помощью данного метода происходит преобразование текста из линейного вида в специальный формат. Предложенный метод можно использовать при создании специализированных электронных библиотек нормативно-технических документов в различных системах обучения. Разработанная методика не требует высокой квалификации от персонала для наполнения электронной библиотеки новыми документами, а также не предъявляет жестких требований к оформлению исходных текстов вносимых документов. Ил. 7. Табл. 4. Библиогр. 8 назв.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Иванченко А. Н., Кислов М. В.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Подход к построению специализированных электронных библиотек»

Для каждого состояния Ax, x = 1,2,..., N, проверяется условие клонирования. Клонирование состояний осуществляется следующим образом:

1. Для каждого входа состояния Ax вычисляются вероятности второго порядка (вектор вероятностей);

2. Для идентификации кластеров векторов вероятностей применяется алгоритм К-средних:

2. 1. K - количество кластеров (каждый кластер соответствует новому состоянию). Полагается К=2.

2.2. Векторы распределяются между кластерами случайным образом в соответствии с равномерным распределением.

2.3. Вычисляются центроиды кластеров, как вероятности перехода, полученные после перераспределения весов входных связей, включенных в данный кластер.

2.4. Для каждого входа выполняется: если ближайший центроид относится к другому кластеру, то необходимо отнести данный вход к этому кластеру. Переход на 2.3, до тех пор, пока есть перемещения между кластерами.

2.5. Проверка, является ли данное решение точным. Решение называется «точным», если для каждого кластера выполняется условие, что вероятности, заданные его центроидом, близки к вероятностям второго порядка всех входов, включенных в данный кластер, т.е. не существует входа, для которого разность между вероятностью второго порядка и вероятностью соответствующего центроида превышает заданный предел у .

2.6. Если решение не является точным, выполнить алгоритм К-средних еще раз, про К=К+1 (при К < I, для К = I решение однозначно). При реализации алго-

Введение

На сегодняшний день в различных сферах деятельности человека накоплены большие объемы различного рода справочной информации, и процесс её накопления неуклонно растет.

Ввиду глобальной информатизации общества все актуальнее становится задача перевода в цифровую форму хранения уже накопленных информационных массивов. Перевод документов из бумажной формы хранения в цифровую дает возможность применения современных информационных технологий, что позволяет более эффективно использовать имеющиеся

ритма, К можно увеличивать в геометрической прогрессии К = К2, иначе для состояний с большим количеством входов большое количество итераций алгоритма кластеризации приведет к недопустимому времени выполнения.

3. Создать К-1 клонов (копий) состояния Ах, перераспределить входные связи между клонами в соответствии с результатом кластеризации. Вычислить веса выходов.

Результаты вычислительных экспериментов на реальных и сгенерированных данных показали, что время работы алгоритма линейно зависит от размерности модели, а полученное количество состояний в данной модели меньше, чем в моделях ^грам при эквивалентной адекватности этих моделей.

Литература

1. Borges J., Levene M. (2000). Data mining of user navigation patterns // Masand B. and Spliliopoulou M. (editors). Web Usage Analysis and User Profiling, Lecture Notes in Artificial Intelligence (LNAI 1836), P. 92-111. Springer Verlag, Berlin.

2. Cadez I., Heckerman D., Meek C, Smyth P., White S. (2000). Visualization of navigation patterns on a web site using model based clustering // Proceedings of the Sixth International KDD conference. 2000. P. 280-284.

3. Zhu J., Hong J., Hughes J.G. Using markov models for web site link prediction // Proceedings of the 13th ACM Conference on Hypertext and Hypermedia. 2002. P. 169-170.

10 июля 2007 г.

информационные массивы. Создание и использование электронных библиотек (ЭБ) уже доказало свою значимость, а использование электронных документов оказалось намного удобнее их бумажных аналогов.

Однако существуют важные аспекты при выборе технологии перевода бумажных документов и способа хранения их электронных версий. Выбор технологий перевода документов часто зависит от технологии их последующего использования. Самая распространенная на сегодняшний день технология использования документов - это библиотечная. Способ хранения документов при данной технологии характеризуется

Южно-Российский государственный технический университет (Новочеркасский политехнический институт)

УДК 004.91

ПОДХОД К ПОСТРОЕНИЮ СПЕЦИАЛИЗИРОВАННЫХ ЭЛЕКТРОННЫХ БИБЛИОТЕК

© 2007 г. А.Н. Иванченко, М.В. Кислов

тем, что существует сам документ и его метаданные. Единицей хранения информации считается документ. Альтернативной можно считать «технологию использования структурированных документов». В этом случае документ хранится разделенный на некоторые порции, что позволяет использовать документ не только как единое целое, но и работать с отдельно взятыми его фрагментами.

Преимуществом такого способа хранения является то, что документ может представляться в виде многоуровневой древовидной структуры, а это в свою очередь дает возможность эффективнее осуществлять навигацию по документу. В пользу данного способы хранения может выступать то, что документы изначально создаются в структурированном виде. Практически каждый документ имеет оглавление, которое фактически является его древовидной структурой.

Такой способ хранения документов применяется в ЭБ различных систем обучения, так как позволяет обращаться к определенным частям документа. Примерами таких систем могут являться АСОП-«Инфосреда» [1], АСОП-«Наставник» [2], Центурион, Эксперт и другие им подобные [3]. Также необходимо заметить, что данный способ хранения документов, разделенных на порции, можно рассматривать как расширение «библиотечной» технологии использования.

На сегодня системы обучения и проверки знаний находят широкое применение в различных отраслях [4 - 8]. В связи с этим актуальной становится задача создания и ведения полнотекстовых ЭБ для таких специализированных систем. Объем документов в ЭБ может достигать сотен и тысяч экземпляров, поэтому процессу автоматизации перевода документов в структурированный вид хранения необходимо уделять должное внимание.

Существуют различные методы и средства преобразования текста документа из его линейного вида в древовидную структуру. Оценкой эффективности данных систем может являться не только качество результата перевода, но и требования к предварительной подготовке текста исходных документов. Например, для добавления документа в ЭБ программного комплекса АСОП-«Эксперт» текст исходного документа должен быть размечен специальными системными метками, а в программном комплексе АСОП-«Наставник» накладываются жесткие ограничения на стилевое оформление документа. Это негативным образом сказывается на эффективности применения подобных ЭБ, так как предъявляются дополнительные требования к квалификации людей выполняющих эти задачи.

В данной статье рассматривается подход к созданию инструмента, позволяющего формировать ЭБ, используя специальный формат хранения, который позволяет адекватно отображать текст документов в виде древовидной структуры. Описывается один из способов реализации метода обработки документов, позволяющий автоматически восстанавливать древовидную структуру документа по его тексту.

С помощью данного метода происходит преобразование текста из линейного вида в специальный формат хранения.

Отличительной чертой ЭБ, используемых в системах обучения, от ЭБ в их «классическом понимании» являются сами документы. Основной составляющей таких библиотек являются нормативно-технические документы (НТД), которые представляют собой специализированные отраслевые документы, нормативные акты, федеральные законы, ГОСТы и т.д. Особенности их заключаются в способе изложения информации. Как правило, тексты НТД сильно структурированы и представляют собой набор параграфов, сгруппированных по разделам, главам, частям и т.д. (рис. 1).

технической эксплуатации электрических станцтл (утв. приказом Минэнерго РФ от 19

1.1. Основные положения

1.1.1. Настоящие Правила распространяются на теш органическом топливе, гидроэлектростанции, электрические на организации, выполняющие работы применительно к этим

1.1.2. При выполнении на ГЭС АСУ ТП должны выполняться I

1.1.3. Опытные (экспериментальные), опытно-промышл подлежат приемке в эксплуатацию приемочной комиссией, е< или выпуску продукции, предусмотренной проектом.

1.2.1. К работе на э не р го объектах электроэнергетики образованием, а по управлению энергоустановками также и с

1.2.2. Лица, не имеющие соответствующего профессионал вновь принятые, так и переводимые на новую должность д

Рис. 1. Пример текста документа

Принимая во внимание специфичность применения ЭБ НТД, вопросы, касающиеся полнотекстовых ЭБ литературных изданий, в данной статье не рассматриваются.

Основные принципы структуризации информации в нормативно-технических документах

Основываясь на том, что текст НТД разделен на порции (параграфы), введем понятие «элементарного объекта», который представляет собой определенную порцию текста и на основе которого в дальнейшем будем производить построение древовидной структуры документа.

В процессе анализа текстов НТД было установлено, что элементарный объект может содержать следующие элементы текста: название документа, раздела, подраздела, части, главы и т.д., а также их номера, номера параграфов и текст параграфов и разделов. Некоторые из приведенных элементов могут быть сходны по своей структуре построения, поэтому будет целесообразно сгруппировать их по определенным признакам:

- идентификатор объекта;

- название объекта;

- текст объекта.

Данные группы элементов будем считать подобъ-ектами, составляющими элементарный объект.

Учитывая принципы построения текста, подобъ-екты располагают в определенной последовательности относительно друг друга. Например, мы знаем, что номер главы не может располагаться после её названия или что вслед за номером параграфа обязательно должен располагаться его текст. В процессе анализа текстов НТД было установлено несколько вариантов комбинации подобъектов в элементарном объекте. Их можно описать следующей синтаксической диаграммой на рис. 2. Примеры вариантов комбинаций подобъектов приведены в табл. 1.

Будем считать, что элементарный объект может быть однозначно определен в тексте документа либо идентификатором объекта, либо названием объекта, либо их парой. Для упрощения последующей формализации описания структуры документа введем дополнительный термин «искусственный идентификатор». Считаем, что «искусственным идентификатором» будет определяться элементарный объект, не содержащий идентификатор объекта. Фактически «искусственный идентификатор» не содержит ничего, он только обозначает место, где должен был бы находиться идентификатор объекта.

Рис. 2. Синтаксическая диаграмма элементарного объекта

Таблица 1

Примеры вариантов комбинаций подобъектов

Комбинация следования подобъектов Пример

Идентификатор объекта Примером элементарного объекта, который содержит только идентификатор, может быть текст: «ЧАСТЬ ПЕРВАЯ», «Часть вторая» и т.д.

Идентификатор объекта ^ Название объекта Примером данной комбинации подобъектов может быть текст вида: «Раздел А.»+«Название», «Глава 1.»+«Название» и т.д.

Идентификатор объекта ^ Текст объекта Третий вариант наиболее распространен в текстах документов и ему с оответствует «лист» в древовидной структуре документа. Примером данной последовательности подобъектов является текст вида: «1.1.3. »+«Текст параграфа», «Статья 12.»+«Текст статьи» и т.д.

Идентификатор объекта ^ Название объекта ^ Текст объекта Данный пример последовательности подобъектов встречается довольно редко. Примером может являться фрагмент, в котором между названием раздела и названием подраздела присутствует вступительный текст: «Номер»+«Название раздела»+«Текст»+далее идут подразделы. Или может встречаться другой случай: «Номер»+«Название подразде-ла»+«Текст»+далее идут параграфы

Название объекта Данный пример элементарного объекта может встречаться, когда в виде «Названия объекта» выступает «Название документа» или название группы параграфов в подразделе

Название объекта ^ Текст объекта Примером данной комбинации подобъектов может быть текст вида: «ВВЕДЕНИЕ»+«Текст введения», «ЗАКЛЮЧЕНИЕ»+«Текст заключения» и т.д.

Текст объекта Пример элементарного объекта такого вида практически не встречается так как текст, как правило, относится к разделу, подразделу или параграфу

Математический аппарат

Для реализации метода преобразования линейного текста документа в специальный вид предлагается использовать математический аппарат теории формальных языков. Данный метод предполагается разделить на следующие этапы:

1. Определение элементарных объектов в тексте документа.

2. Определение иерархических связей (древовидной структуры) полученных элементарных объектов.

В общем виде поэтапную обработку текста можно отобразить, как показано на рис. 3.

символов, сформированной по правилам формального языка, адекватно описывающего структуру НТД. К таким правилам можно отнести правила построения идентификатора объекта (номер главы, раздела, параграфа), названия объекта и его текста. Пример правила для формирования номера параграфа показан на рис. 4.

Задачу определения элементарных объектов предполагается выполнять в два этапа:

1. Выделение всех идентификаторов объектов.

2. Отсеивание ложных идентификаторов объектов.

Исходные данные Этап 1 Этап 2

Текст на естественном языке Текст на промежуточном специализированном языке Древовидная структура

1. Организация эксплуатации 1.1. Основные положения и задачи 1.1.1. Настоящие Правила распространяются на тепловые электростанции, работающие на органическом топливе... 1.1.2. При выполнении на ГЭС АСУ ТП должны выполняться положения раздела 4.7 настоящих Правил... <оЪ]ес1 1(1=001 1уре=1>1.</оЪ]ес1> <Иеа(1ег 1(1=001>Организация эксплуатации</Ьеа(1ег> <оЪ)ес11(1=002 1уре=2>1.1.</оЬ]ес1> <Иеа(1ег М=001>Основные положения и задачи</Ьеа(1ег> <оЪ)ес1 И=003 1уре=3>1.1.1.</оЪ]ес1> <1еХ; М=003>Настоящие Правила распространяются на тепловые электростанции, работающие на органическом топливе...</1еХ> <оЪ)ес! И=004 1уре=3>1.1.2.</оЪ]ес1> <1еХ; И=003>При выполнении на ГЭС АСУ ТП должны выполняться положения раздела 4.7 настоящих Правил.. .<Лех1>

1. ^Организация эксплуатации ^

(^Основные положения и задачи

^Настоящие Правила ..Г)

\

(^При выполнении ...

Рис. 3. Пример поэт

Этап определения элементарных объектов связан с определением в тексте всех возможных идентификаторов объектов, так как один элементарный объект может быть однозначно определен одним идентификатором.

В связи с тем что текст НТД имеет сложный вид, могут возникать ситуации, когда в тексте документа встречаются нумерованные списки, ссылки на другие параграфы и другие элементы, представляющие собой различные комбинации цифр. При определении элементарных объектов такие элементы могут быть определены как «идентификаторы объектов», что влечет за собой неправильную интерпретацию иерархической структуры документа. Здесь возникает дополнительная задача отсеивания ложных идентификаторов объектов.

Решение задачи определения в тексте элементарных объектов построим с использованием математического аппарата теории формальных языков. Для этого текст документа представим в виде цепочки

обработки текста

Рис. 4. Синтаксическая диаграмма формирования номера параграфа

Первый этап требует проведения лексического анализа текста, в задачи которого входит нахождение во входной цепочке последовательности символов, образующих отдельные лексические элементы, называемые лексемами. В нашем случае лексемами будут являться идентификаторы объектов. Для выполнения данного этапа необходимо построить группу правил, с помощью которых во входной цепочке (тексте документа) будут определяться все необходимые виды лексем.

Второй этап требует проведения синтаксического и семантического анализа. Задача семантического анализа предполагает построение системы правил для анализа лексем. Одновременно приходится анализировать контекст (семантику) нескольких лексем (идентификаторов объектов), так как их расположение относительно друг друга имеет некоторые ограничения.

Необходимость семантического анализа обусловлена наличием ситуаций, при которых некоторые последовательности символов могут быть ошибочно интерпретированы как идентификаторы объектов. Примером могут служить ссылки в тексте элементарного объекта на другие элементарные объекты (параграфы), нумерованные списки и т. д.

Анализ элементарных объектов

Анализ коллекций НТД показал, что для различных видов документов используются определенные варианты формы записи идентификаторов объектов. В результате анализа формы записи идентификаторов были выделены определенные классы, приведенные в табл. 2. Для представления формы подобъ-ектов будем использовать нотацию языка расширенных регулярных выражений. Введем следующие обозначения:

- арабское число - число, записанное в арабской системе исчисления;

- римское число - число, записанное в римской системе исчисления;

- буква - символ из русского алфавита;

- «...» - обозначение последовательности символов;

- (...) - служит для наглядного отображения группы символов;

- | - обозначение альтернативы.

Таблица 2

Варианты представления подобъекта «Идентификатор объекта»

Название класса Форма подобъекта

Класс 1 (арабское число)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Класс 2 (арабское число).(арабское число)

Класс 3 (арабское число).(арабское число).(арабское число)

Класс 4 (римское число)

Класс 5 «Часть» («первая»|«вторая»|«третья» ...)

Класс 6 «Раздел» ((буква)|(арабское число)|(римское число))

Класс 7 «Глава» ((арабское число)|(римское число))

Класс 8 «Статья» (арабское число)

Класс 9 «Статья» (арабское число).(арабское число)

Класс 10 Искусственный идентификатор для основных названий

Класс 11 Искусственный идентификатор для основных приложений

Класс 12 Искусственный идентификатор для обычных названий

Возможные варианты форм представления «названия объекта», которые могут не иметь идентификаторов, но могут определять элементарный объект и участвовать в иерархии документа, приведены в табл. 3.

Таблица 3

Варианты представления подобъекта «Название объекта»

Название класса Форма подобъекта

Основные названия «Оглавление», «Содержание», «Предисловие», «Введение», «Общая часть», «Заключение», «Список литературы», «Список использованной литературы», «Литература»

Приложения «Приложение» ((буква)|(арабское число))

Обычные названия Обычный текст, содержащий алфавитно-цифровые символы и символы перехода на новую строку

Принадлежность символьной цепочки к классам, приведенным в табл. 3, можно определить не только по её контексту, но и по некоторым стилевым свойствам. Приведем список таких свойств в табл. 4.

Таблица 4

Свойства текста, принадлежащего к классам «Основные названия», «Приложения», «Обычные названия»

№ Описание

1 Все буквы в верхнем регистре

2 Текст выровнен по центру

3 Текст выровнен по правому краю

4 Текст выделен жирным шрифтом

5 Текст находится между двумя подряд идущими спецсимволами «перевод строки» слева и двумя спецсимволами «перевод строки» справа

Для унификации всех комбинаций элементарных объектов используем искусственные идентификаторы, которыми будут обозначаться элементарные объекты, не имеющие собственных идентификаторов (объекты, принадлежащие классам, приведенным в табл. 3).

Формальное описание классов подобъектов

Для формального описания классов подобъектов целесообразно будет использовать математический аппарат теории формальных языков. В данной работе нами будет разработан формальный язык, адекватно описывающий структуру нормативно-технического документа. Для описания языка будем использовать грамматики и синтаксические диаграммы. Синтаксические диаграммы являются эквивалентным представлением грамматики языка, но имеют преимущество для визуального представления в силу своей наглядности (рис. 5).

RomanNum

ью-

тО|

-»(^^Сотая^^)-

-►( Статья

ArabicNum

ArabicNum

*■ Text

* CustomID -► Head

Text

Рис. 5. Синтаксические диаграммы описания идентификаторов объектов: а - для класса 1; б - для класса 2; в - для класса 3; г - для класса 4; д - для класса 5; е - для класса 6; ж - для класса 7; з - для класса 8;

и - для класса 9; к - для классов 10, 11, 12

б

а

г

в

е

д

з

er

и

к

При составлении синтаксических диаграмм будем использовать следующие обозначения для терминальных и нетерминальных символов (рис. 6):

ЬеШр - обозначает букву русского алфавита в верхнем регистре;

Letters - обозначает регулярное множество букв русского алфавита в верхнем и нижнем регистрах; ArabicNum - обозначает арабское число; RomanNum - обозначает римское число;

Text

Header

Text

Рис. 6. Синтаксические диаграммы определения границ заголовков: а - для правила 1; б - для правила 2; в - для правила 3; г - для правила 4; д - для правила 5

а

б

в

г

д

Sym - обозначает множество символов, например таких, как знаки препинания и т.д., за исключением символов «пробел», «возврат каретки» и «новая строка»;

Text, Header - обозначают регулярное множество любых символов, за исключением символов «пробел», «возврат каретки» и «новая строка»;

CustomID - обозначает искусственный идентификатор;

— - обозначение символа «пробел»;

J - обозначение символов «возврат каретки» и «новая строка».

Свойства текста, который может являться «названием объекта», отражены непосредственно в самом тексте документа и обозначаются специальными комбинациями символов. Сформулируем правила построения потенциально возможных «названий объектов» и составим соответствующие синтаксические диаграммы, учитывая свойства текста данного класса.

Правило 1. Считать потенциально-возможным «названием объекта» текст, набранный в «ВЕРХНЕМ РЕГИСТРЕ».

Правило 2. Считать потенциально-возможным «названием объекта» текст, выровненный по центру средствами MS Word.

Правило 3. Считать потенциально-возможным «названием объекта» текст, выровненный по правому краю средствами MS Word.

Правило 4. Считать потенциально-возможным «названием объекта» текст, выделенный жирным типом шрифта средствами MS Word.

Правило 5. Считать потенциально-возможным «названием объекта» текст, находящийся между двумя подряд идущими спецсимволами «перевод строки» слева и двумя спецсимволами «перевод строки» справа. Текст возможного «названием объекта» должен заканчивается буквенным символом (возможно символами пробелов, но не символом «точка») стоящим перед спецсимволами «перевод строки». Выше на рис. 5 приведены соответствующие синтаксические диаграммы.

Способ определения иерархии элементарных объектов в тексте НТД

Иерархическая структура текста документа определяет взаимосвязи между элементарными объектами. Например, связь «родитель» ^ «потомок». Наша задача установить возможные иерархические связи между всеми элементарными объектами. Также стоит заметить, что один и тот же элементарный объект может являться потомком для одного объекта и родителем для другого, а также не иметь потомков вообще.

Материал в документах излагается последовательно - иерархия не нарушается, следовательно, элементарные объекты также будут встречаться последовательно и элементарный объект, встретившийся в тексте раньше, в иерархии будет находиться выше

при выполнении некоторых условий. Учитывая, что элементарный объект может быть определен идентификатором, то для построения иерархии идентификаторов можно использовать их классы. В соответствии с определенными ранее классами идентификаторов объектов приведем возможные варианты иерархических связей для этих классов. Результат сведем в список по шаблону «Класс родителя» ^ «Возможные классы потомка»:

Класс 1 ^ Класс 2 | последний элемент в иерархии.

Класс 2 ^ Класс 3 | Класс 12 | последний элемент в иерархии.

Класс 3 ^ последний элемент в иерархии.

Класс 4 ^ Класс 1 | Класс 2.

Класс 5 ^ Класс 6.

Класс 6 ^ Класс 7.

Класс 7 ^ Класс 8 | Класс 9.

Класс 8 ^ Класс 1 | последний элемент в иерархии.

Класс 9 ^ Класс 1 | последний элемент в иерархии.

Класс 10 ^ не имеет потомков {данный класс располагается на 1 уровне иерархии}.

Класс 11 ^ Класс 1 {данный класс располагается на 1 уровне иерархии}.

Класс 12 ^ Класс 3.

Алгоритм определения иерархической структуры элементарных объектов

Учитывая, что элементарные объекты одного класса, как правило, располагаются на одном уровне в древовидной структуре документа, можно предложить алгоритм определения иерархии идентификаторов объектов на основе их классов:

1. Определяем все возможные идентификаторы в тексте документа.

2. Определяем классы полученных идентификаторов.

3. Присваиваем каждому идентификатору порядковый номер, независимо от класса.

4. Учитывая правила иерархических связей между классами, выбираем идентификаторы в интервале:

4.1. Между парой ближайших идентификаторов одного класса.

4.2. Идентификатором одного класса и идентификатором класса, находящегося на один или несколько уровней выше по иерархии.

4.3. Между идентификатором и концом символьной цепочки (идентификаторы, относящиеся к классам: 1, 10 и 11, считаем идентификаторами одного класса).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

5. Выбранные идентификаторы считаются потомками первого идентификатора.

6. Пункты 4 и 5 выполняются последовательно для всех идентификаторов в соответствии с правилами наследования.

Результат работы алгоритма, схематично, можно отобразить на рис. 7.

ч

1.1.

1.1.1. 1.1.2. 1.1.3.

1.2.

1.2.1. 1.2.2.

П Класс 1------- —

0 ------- Класс 2 —

П ------- ------- Класс 3 ■

□ -------------- Класс 3 !

□ -------------- Класс 3 '

П ------- Класс 2 —

□ -------------- Класс 3 ■

П ------- ------- Класс 3

П Класс 1------- —

0 ------- Класс 2-------

□ -------------- Класс 3 '

П ------- ------- Класс 3

П ------- Класс 2 —

П ------- ------- Класс 3>

^ П Класс 1------- —

-Конец символьной цепочки—

2.1.

2.1.1. 2.1.2.

2.2.

2.2.1.

1.1.

0

1.1.1. 1.1.2.

0

1.1.3.

1.1.4.

1.2.

П------- Класс 2------- -------

□-------------- Класс 12------

[]-------------- ------- Класс 3

д-------------- ------- Класс 3

д-------------- Класс 12------

д-------------- ------- Класс 3

д-------------- ------- Класс 3

П------- Класс 2------- -------

-Конец символьной цепочки-

Рис. 7. Пример иерархической структуры документа

Заключение

В статье предлагается метод обработки документов, позволяющий автоматически восстанавливать древовидную структуру НТД по его тексту. Данный метод можно использовать при создании специализированных ЭБ, использующихся в различных системах обучения.

При использовании предложенной методики для наполнения ЭБ новыми документами от персонала не требуется высокой квалификации, а также не предъявляются жесткие требования к оформлению исходных текстов вносимых документов.

На основе данного метода ведется разработка инструмента, позволяющего в автоматизированном (полуавтоматическом) режиме добавлять документы в ЭБ НТД.

Литература

1. Информационно-образовательная среда для обучения и поддержания квалификации персонала АСОП «Инфосреда» // http://ucpk.ru/cgi-bin/page.pl?article=67

2. Автоматизированная система обучения персонала АСОП «Наставник» // http://do.ucpk.ru.

3. Gerald Salton, James Allan, Amit Singhal. Automatic text decomposition and structuring // Information Processing & Management. 1996. 32(2):127-138.

4. Прокофьева Н.О. Вопросы организации компьютерного контроля знаний // Educational Technology & Society 2006. 9(1): 433-440.

5. Зайцева Л.В., Прокофьева Н.О. Модели и методы адаптивного контроля знаний // Educational Technology & Society 2004. 7(4): 265-277.

6. Добрынин В.Ю, Клюев В.В, Некрестьянов И.С. Оценка тематического подобия текстовых документов // Тр. второй Всерос. науч. конф. «Электронные библиотеки: перспективные методы и технологии, электронные коллекции». Протвино, Сентябрь 2000. C. 204-210.

7. Барашев Д.В., Горшкова Е.А., Новиков Б.А. Оптимизация представления XML документов в реляционной базе данных // Тр. второй Всерос. науч. конф. «Электронные библиотеки: перспективные методы и технологии, электронные коллекции». Протвино, Сентябрь 2000. C. 224-229

8. Столяров С.В., Ермаков Н.Б., Федотов А.М. Электронные Библиотеки: схемы данных и объектная модель документа. http://www.nsc .ru/ws/ show_abstract. dhtml?ru+127+9299.

Южно-Российский государственный технический университет (Новочеркасский политехнический институт)

10 июля 2007 г.

б

а

i Надоели баннеры? Вы всегда можете отключить рекламу.