Научная статья на тему 'Выбор модели базы данных для построения векторного пространства описывающего узкоспециализированную предметно-ориентированную коллекцию документов'

Выбор модели базы данных для построения векторного пространства описывающего узкоспециализированную предметно-ориентированную коллекцию документов Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
68
13
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Выбор модели базы данных для построения векторного пространства описывающего узкоспециализированную предметно-ориентированную коллекцию документов»

Edgecam. Также в работе приведены результаты переноса данных из сторонней САМ системы, смоделирована обработка изделия на токарном станке, что позволяет наглядно увидеть весь процесс обработки изделия на станке с ЧПУ.

В дальнейшем планируется приступить к созданию АСТПП. Для этого будут решаться следующие задачи: выбор для конкретных изделий станков с ЧПУ, вспомогательного оборудования, роботов-манипуляторов (для транспортировки между станками), проектирование размещения этого оборудования на площади цеха. В результате мы должны получить комплексное решение к поставленной задаче.

Список литературы:

1. Схиртладзе А.Г., Ярушин С.Г «Технологические процессы в машиностроении», ПГТУ Пермь 2006.

2. Е.И. Яблочников «Методологические основы построения АСТПП», ИТМО Санкт-Петербург 2005.

3. Быков А. В., Силин В. В., Семенников В. В., Феоктистов В. Ю. ADEM CAD/CAM/TDM. Черчение, моделирование, механообработка. — СПб.: БХВ-Петер-бург, 2003. — 320 с.

4. Быков А. В., Гаврилов В. Н., Рыжкова Л. М., Фадеев В. Я., Чемпинский Л. А. Компьютерные чертежно-графические системы для разработки конструкторской и технологической документации в машиностроении: Учебное пособие для проф. образования / Под общей редакцией Чемпинского Л. А. — М.: Издательский центр «Академия», 2002. — 224 с.

5. Гончаров П. С., Ельцов М. Ю., Коршиков С. Б., Лаптев И. В., Осиюк В. А. NX для конструктора-машиностроителя. — М.: ИД ДМК Пресс, 2009. — 376 с.

6. Русская промышленная компания [Электронный ресурс]: САПР для Машиностроения и Промышленного производства / САПР технологических процессов / Edgecam (создание УП для станков с ЧПУ). - Режим доступа:

http://www.cad.ru/ru/software/detail.php?ID=401, свободный.

ВЫБОР МОДЕЛИ БАЗЫ ДАННЫХ ДЛЯ ПОСТРОЕНИЯ ВЕКТОРНОГО ПРОСТРАНСТВА ОПИСЫВАЮЩЕГО УЗКОСПЕЦИАЛИЗИРОВАННУЮ ПРЕДМЕТНО-ОРИЕНТИРОВАННУЮ КОЛЛЕКЦИЮ ДОКУМЕНТОВ

Хруничев Роберт Вячеславович

Аспирант кафедры систем автоматизированного проектирования вычислительных средств, инженер центра дистанционного обучения рязанского государственного радиотехнического университета г. Рязани

Задача узкоспециализированного поиска в настоящее время является актуальной, поскольку глобальный поиск сети интернет обеспечен большим разнообразием поисковых систем, таких как Яндекс, Google, Yahoo, Mail и др. В то же время поиск неструктурированной информации в узкоспециализированных хранилищах данных системами не обеспечен вовсе. Причин у этого несколько: во-первых - создание поисковых систем занимает достаточно большое количество времени; во-вторых - для разработки поисковых систем требуются квалифицированные кадры; в-третьих - сама по себе разработка таких систем требует немалых материальных вложений [1]. Сложившаяся ситуация приводит к тому, что вся накопленная в различных структурах информация, потенциально востребованная, превращается в большую «свалку», где найти требуемый документ не представляется возможным.

Одной из наиболее значимых задач при создании поисковой системы для хранилищ данных является выбор модели базы данных (БД), которая бы удовлетворяла требованиям, предъявляемым к узкоспециализированному поиску. Обозначим данные требования к такой модели:

- возможность хранения результатов статистической обработки текста;

- возможность осуществления работы со словарем конкретной предметной области;

- возможность хранения статичных статистических данных и быстрый пересчёт динамических параметров при добавлении новых документов в хранилище данных;

- возможность внесения изменений в разрешающую способность частотной фильтрации термов;

- связывание документов БД со ссылкой на вектор, описывающий данный документ;

- поддерживать возможность сетевого взаимодействия с несколькими серверами одновременно, на которых хранится документация;

- обеспечение многопользовательского режима обращений к БД;

- возможность доработки БД (настройки под конкретные задачи и цели);

- низкая себестоимость реализации (в случае самостоятельной разработки БД), либо низкая стоимость приобретения лицензии на использование;

- простота реализации и использования. Рассмотрим наиболее распространенные модели

БД на предмет соответствия поставленным требованиям.

Иерархическая модель имеет древовидную структуру с выраженными вертикальными связями подчинения нижнего уровня высшему уровню, что облегчает доступ к необходимой информации, но при условии, что все запросы имеют древовидную структуру [4]. Данная модель БД не подходит для задачи информационного поиска по нескольким причинам, главной из которых является отсутствие поддержки соответствия между парными записями, что является необходимым условием при реализации поисковых систем. Т.е. задача ранжирования с такой структурой трудно решаема. Также иерархическая модель не поддерживает отношение «многое ко многим», когда множество объектов одного типа связаны с множеством объектов другого типа. Так к одному документу может относится N слов, а к одному слову - М документов [1]. Кроме того, данная модель не способна работать с документами как объектами, т.е. хранить ссылки на текстовые,

видео- и аудиофайлы, что является главной задачей при создании поисковой системы.

В сетевой модели данных наряду с вертикальными реализованы и горизонтальные связи. Недостатком такой модели данных являются высокая сложность структуры БД, построенной на ее основе. Логика процедуры выборки данных зависит от физической организации этих данных, поэтому эта модель не является полностью независимой от приложения, если необходимо изменить структуру данных, то нужно изменить и приложение для обращений к БД. Это противоречит требованиям низкой себестоимости, простоты реализации и использования. Такая модель БД, также как и иерархическая не работает с объектами, что не удовлетворяет задаче информационного поиска [9].

Реляционная модель предоставляет средства описания данных на основе только их естественной структуры без потребности введения какой-либо дополнительной структуры для целей машинного представления. Представление данных не зависит от способа их физической организации, что обеспечивается за счет использования математической реализации теории отношений. Отношения удобно представлять в виде таблиц. Строки таблицы соответствуют кортежам. Каждая строка фактически представляет собой описание одного объекта реального мира, характеристики которого содержатся в столбцах [2,3,5,8]. Данная модель больше всех удовлетворяет заявленным требованиям, но сама по себе не работает с объектами.

Объектно-ориентированная модель. Новые области использования вычислительной техники, такие как научные исследования, автоматизированное проектирование и автоматизация учреждений, потребовали от БД способности хранить и обрабатывать новые объекты - текст, аудио- и видеоинформацию, а также документы. Основные трудности объектно-ориентированного моделирования данных связаны с тем, что такого развитого математического аппарата, на который могла бы опираться общая объектно-ориентированная модель данных, не существует. В большей степени, поэтому до сих пор нет базовой объектно-ориентированной модели. С другой стороны, некоторые авторы утверждают, что общая объектно-ориентированная модель данных в классическом смысле и не может быть определена по причине непригодности классического понятия модели данных к парадигме объектной ориентированности.

Несмотря на преимущества объектно-ориентированных систем - реализация сложных типов данных, связь с языками программирования и т.п. - на ближайшее время превосходство реляционных СУБД гарантировано [6,7]. В итоге, с одной стороны нам необходимо использовать объектно-ориентированную модель БД, чтобы описать документы предметно-ориентированного хранилища документов, а с другой стороны математический аппарат и возможности по управлению объектами не столь развиты как у реляционной модели БД. Да и не могут быть в силу неоднородности и неоднозначности применения математических моделей к объектной ориентированности данных [6].

Очевидно, что для реализации поисковой системы в хранилище данных необходим некий симбиоз реляционной и объектно-ориентированной моделей. Так компании Oracle и IBM DB2 (начиная с 7 версии) одними из первых

начали использовать объектно-реляционную модель управления данными. В своей статье [9] С. Кузнецов указывает на то, что данная модель данных предназначена для работы с составными типами данных, что является принципом работы поисковой системы. В данной статье также рассмотрены основы объектной инфраструктуры, принципы построения и работы объектно-реляционных БД на примере компаний Oracle и IBM [6].

В итоге, можно сделать заключение о том, что современные БД, описывающие объекты реального мира всё чаще имеют в своей основе объектно-реляционную модель. Данная модель удовлетворяет требованиям, предъявляемым к построению БД для реализации поисковой системы ориентированной на поиск документов в хранилище данных. Выбор данной модели БД обоснован и возможностью ее технической реализации. Такая БД может быть реализована на языке С# с помощью объектно-реляционного модуля сопоставления Entity Framework (EF), который включен в Visual Studio. Entity Framework (EF) позволяет разработчикам.МЕТ работать с реляционными данными с помощью объектов. Это устраняет необходимость в написания большей части кода для доступа к данным [10]. Кроме того Visual Studio предоставляется по программе сотрудничества Academic Alliance, что позволяет снизить затраты на создание БД. Построенная на основе объектно-реляционной модели БД позволит осуществлять поиск в хранилищах данных, а также может быть использована в библиотечных информационных системах для поиска литературных источников. Список литературы:

1. Борри Хелен, Firebird: руководство разработчика баз данных СПб.: БХВ-Петербург, 2007.

2. Дейт, К. Дж. Введение в системы баз данных, 8-е издание.: Пер. с англ. - М.: Издательский дом Виль-ямс, 2008. - 1328с.

3. Дейт, К. Дж. Руководство по реляционной СУБД DB2 / Пер. с англ. и предисл. М.Р. Когаловского. -М.: Финансы и статистика, 1988. - 320 с.: ил.

4. Информационные Базы и Банки данных, их особенности. [Электронный ресурс]. Режим доступа: http://edu.dvgups.ru/METDOC/ITS/STRPRO/I NF_TEH_STR/METOD/SULDIN/frame/6.htm#_Toc 211935240.

5. Кириллов В.В. Введение в реляционные базы данных / В.В.Кириллов, Г.Ю.Громов — СПб:БХВ-Пе-тербург, 2008 — 464с.

6. Кузнецов, С.Д. Объектно-реляционные базы данных: прошедший этап или недооцененные возможности?/ С.Д. Кузнецов // Труды Института системного программирования РАН. - 2007. - №2 - т.13 -с.115-140.

7. Модели организации баз данных. [Электронный ресурс]. Режим доступа: http://www.intuit.ru/studies/ courses/3439/681/lecture/14023

8. Реляционная модель данных. [Электронный ресурс]. Режим доступа: http://www.mstu.edu.ru/study/ materials/zelenkov/ch_4_1.html

9. Ульман, Дж. Основы систем баз данных, Пер. с англ. - М.: Финансы и статистика, 1983г.

10. Entity Framework. [Электронный ресурс]. Режим доступа: http://msdn.microsoft.com/ru-ru/data/ef.aspx

i Надоели баннеры? Вы всегда можете отключить рекламу.