Научная статья на тему 'Разработка информационной модели, содержащей специализированную информацию'

Разработка информационной модели, содержащей специализированную информацию Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
110
37
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Найзабаева Л.

В работе описывается применение case-технологий при разработке распределенной базы данных по сердечно-сосудистым заболеваниям (ССЗ). В созданной распределенной базе, данные организованы и структурированы. Организована защита клиент-серверной базы данных, распределены привилегии пользователей, предложена качественная обработка данных с помощью универсальной поисковой системы.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Найзабаева Л.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Разработка информационной модели, содержащей специализированную информацию»

РАЗРАБОТКА ИНФОРМАЦИОННОЙ МОДЕЛИ, СОДЕРЖАЩЕЙ СПЕЦИАЛИЗИРОВАННУЮ ИНФОРМАЦИЮ

© Найзабаева Л.*

Казахстанско-Британский технический университет, Республика Казахстан, г. Алматы

В работе описывается применение case-технологий при разработке распределенной базы данных по сердечно-сосудистым заболеваниям (ССЗ). В созданной распределенной базе, данные организованы и структурированы. Организована зашита клиент-серверной базы данных, распределены привилегии пользователей, предложена качественная обработка данных с помощью универсальной поисковой системы.

В нашей стране и за рубежом постоянно ведутся работы по определению генов, соответствующих белков, а также молекулярных маркеров ССЗ и ОЗ, накопленный огромный объем материала, нуждается в обработке и систематизации. Представляется важным создание полной организованной информационной базы данных, содержащей достоверную информацию по генам и белкам, ответственным за некоторые ССЗ и ОЗ. Создаваемая база данных позволит провести не проводившееся ранее масштабное изучение свойств генов и соответствующих белков, ответственных за развитие некоторых ССЗ и ОЗ, создать молекулярные методы ранней диагностики заболеваний, а также определить мишени для создания генно-терапевтических лекарственных средств. Особенно важна ранняя диагностика при лечении рака. То есть создание молекулярных методов ранней диагностики РЖКТ позволит существенно увеличить шансы больного на благополучный исход лечения.

Новизна работы заключается в создании базы данных, содержащей специализированную информацию по ССЗ. Уже существующие базы данных National Center for Biotechnology Information (NCBI) (www.ncbi.nih.gov), Gene Ontology по белкам Швейцарского института Биоинформатики SWISS-PROT (www.geneontology.org), содержат информацию, получаемую в ходе экспериментальных работ. Созданная в данной работе база данных содержит информацию по генам и соответствующим белкам, аннотированную вручную, что значительно повышает функциональность базы и степень достоверности представленных данных.

Целью данной работы является разработка комплекса программ для организации и хранения информации по генам и белкам, ответственным за сердечно-сосудистые и онкологические заболевания человека.

* Ассистент-профессор кафедры Компьютерной инженерии, кандидат физико-математических наук, доцент

Логическое проектирование базы данных

Проектирование схемы БД должно решать задачи минимизации дублирования данных и упрощения процедур их обработки и обновления. При неправильно спроектированной схеме БД могут возникнуть аномалии модификации данных. Они обусловлены отсутствием средств явного представления типов множественных связей между объектами ПО и неразвитостью средств описания ограничений целостности на уровне модели данных. Для решения подобных проблем проводится нормализация отношений.

В рамках реляционной модели данных Э.Ф. Коддом (E.F. Codd) был разработан аппарат нормализации отношений и предложен механизм, позволяющий любое отношение преобразовать к третьей нормальной форме [2]. Нормализация схемы отношения выполняется путём декомпозиции схемы.

Применяя метод нормализации, была понижена избыточность в таблице, устранены проблемы противоречивости и неоправданного расходования пространства на диске. Нормализация обеспечила отсутствие потерь информации.

Применение CASE-технологий

В связи с наглядностью представления концептуальных схем баз данных ER-модели получили широкое распространение в системах Computer-Aided Software / System Engineering (CASE), поддерживающих автоматизированное проектирование реляционных баз данных.

Создание современных информационных систем представляет собой задачу, решение которой требует применения специальных методик и инструментов. Неудивительно, что в последнее время среди системных аналитиков и разработчиков значительно вырос интерес к CASE-технологиям и инструментальным CASE-средствам, позволяющим максимально систематизировать и автоматизировать все этапы разработки программного обеспечения [3].

ERwin является ведущим решением для моделирования баз данных для создания и поддержки баз, витрин (data marts) и хранилищ данных, а также моделей ресурсов данных предприятия. Модели ERwin визуализируют структуры данных для облегчения организации и управления данными, упрощения сложных взаимосвязей данных, а также технологий создания баз данных и среды развертывания. При этом упрощается и ускоряется процесс разработки базы данных, а ее качество и надежность существенно улучшаются.

В данной работе логическое проектирование базы данных создано с помощью CASE средства ERwin, построена модель «Сущность-связь» (рис. 1).

Рис. 1. Логическая схема «Сущность-Связь» в среде Erwin

для сердечно-сосудистых и онкологических заболеваний человека

Эта схема дает интуитивный обзор проекта и особенно полезна для обмена идеями между пользователями. Следующим шагом явилась проверка всех оперативных применений данных организации, связанных с их обработкой, и исключение ненужных или повторяющихся данных.

Физическое проектирование базы данных

Этап физического проектирования заключается в увязке логической структуры БД и физической среды хранения с целью наиболее эффективного размещения данных, т.е. отображении логической структуры БД в структуру хранения. Решается вопрос размещения хранимых данных в пространстве памяти, выбора эффективных методов доступа к различным компонентам «физической» БД. Результаты этого этапа документируются в форме схемы хранения на языке определения данных (DDL). Принятые на этом этапе решения оказывают определяющее влияние на производительность системы.

Физическое проектирование данной базы сделано с использованием пакета профессионального проектирования MS SQL Server 2005. База данных SQL Server представляет собой реляционную базу данных, со-

вместимую с SQL (Structured Query Language) с интегрированной поддержкой XML для Интернет-приложений. База данных - это также место хранения информации, но большинству типов файлов данных, не представляет информацию непосредственно пользователю, запускает приложение, которое обращается к данным базы и представляет их в понятном для пользователя формате. Несмотря на наличие разных способов информации в виде баз данных, реляционные СУБД считаются одними из наиболее эффективных. В реляционной СУБД для эффективной организации используется математическая теория, а именно реляционная алгебра. MS SQL Server обладает рядом преимуществ перед другими СУБД: легкость установки, развертывания и эксплуатации, а также масштабируемость, создание хранилищ данных и системную интеграцию с другим серверным ПО. Еще один фактор, повлиявший на выбор CУДБ MS SQL Server в данной работе - это скорость. В реляционных СУБД скорость - это время, необходимое для выполнения запроса и возвращения результатов обработки запроса пользователю.

Cтремительный рост популярности SQL (Structured Query Language) является одной из самых важных тенденций в современной компьютерной промышленности. За несколько последних лет SQL стал единственным языком баз данных. На сегодняшний день SQL поддерживают свыше ста CУБД, работающих как на персональных компьютерах, так и на больших ЭВМ.

Одной из важнейших составляющих проекта базы данных является разработка средств защиты БД. Защита данных имеет два аспекта: защита от сбоев и защита от несанкционированного доступа. Для защиты от сбоев разрабатывается стратегия резервного копирования. Для защиты от несанкционированного доступа каждому пользователю доступ к данным предоставляется только в соответствии с его правами доступа.

В данной работе осуществляемая средствами SQL Server организация защиты проведена в стандартном режиме. Записи пользователей служат для контроля за правами доступа к определенным ресурсам сервера, таким как таблицы и хранимые процедуры. В записи пользователя определены роли пользователя - одна или несколько. Изданы учетные записи пользователей для входа в систему в качестве пользователя, пользователю необходимо в поле Name необходимо ввести Logins, ввести пароль в поле Password, выбрать SQL Server Authentication, из выпадающего списка Database выбрать базу Biolnformatics.

При разработке распределенных информационных систем в организации взаимодействия клиентской и серверной части появляются и решаются следующие задачи: перенос персональной базы данных на сервер для последующего ее коллективного использования как корпоративной базы данных; организация запросов к корпоративной базе данных, размещенной на сервере, со стороны компьютера-клиента; разработка клиентского при-

ложения для удаленного доступа к корпоративной базе данных со стороны компьютера-клиента; администрирование сервера со стороны клиента.

В данной работе при разработке клиент-серверного приложения применена возможность работы с базами данных посредством технологии ActiveX Data Objects (ADO) [1]. Технология ADO основана на объектной модели, в которой объекты имеют наборы коллекций, методов и свойств, обеспечивающие поддержку баз данных. Объекты этой технологии предоставляют наиболее широкие возможности по интеграции приложений с базами данных.

Клиентское приложение, созданное в среде программирования C++ Builder разработано для пользователя с целью обработки данных, а именно: извлечения, обновления, поиска информации. Преимущество в предложенной в данной работе обработке данных состоит в том, что для каждого вида заболевания указывается место локализации гена на хромосоме. Причем есть детальная карта участка хромосомы, где расположен ген и идеограмма хромосомы, на которой можно видеть общее строение хромосомы и характер полос в плечах - рисунок сегментации. Так же на карте указывается общее количество генов в этом регионе с описанием их функции, и общее количество генов на хромосоме. В данных по белку имеются графики и рисунки.

Организация поисковой системы

В больших базах данных немыслимо выполнять корректировку и редактирование информации без средств поиска нужной записи. Проще всего выполнять подобный поиск с помощью универсального метода Locate (), который дает возможность создавать поиск без учета регистра lo-Casemsensitive и по частичному ключу loPartialKey.

Примененный поисковый метод позволяет найти соответствующую информацию по генам, ответственным за развитие заболевания, синонимам гена-кандидата; его маркерам; картам участка хромосомы. Чтобы облегчить поиск, все эти характеристики даны и в прописном виде. В описаниях к белку приводится установленный список болезней, за развитие которых отвечает этот белок. Для облегчения поиска дается список синонимов, что позволяет избежать путаницы при поиске того или иного гена или белка.

Создаваемая база данных может быть внедрена как в научно-исследовательских институтах, научно-экспериментальных лабораториях для проведения масштабного изучение свойств генов и соответствующих белков, ответственных за развитие некоторых ССЗ и ОЗ и при создании определения мишеней для создания генно-терапевтических лекарственных средств, а также в лечебно-диагностических учреждениях для проведения диагностики сердечно-сосудистых и онкологических заболеваний с использованием молекулярных маркеров, содержащихся в создаваемой базе данных.

Diseases Type | Diseases Name Gene j Gene Neighbours | Gene Neighbours Search | GPI | mRNA j Gene Ontology and Markers ] Homo Sapiens and Primer Inf ] Map Viewer |

Bj Cardiomyopathy, dilated, 1A H \ < ► W + - ж I I pi

ID j Official_Symbol |Name_ ]Gene_Type Gene_aliases | *

► 2 LMNA lamin А/С protein coding FPL; IDC; LFP; CDDC; EMD2; FPLD; HGPS; LDP1; LMN1; LMNC; PR01; CDCD1; CMD1A; CMT2B1; LGMD1В

Cardiomyopathy. dila protein coding FDC: CMPD1

Caidiomyopathy, dila protein coding CMD1C, CMPD3

LIM domain binding 3 protein coding ZASP: CYPHER: ORACLE: PDLIM6; Idb3z1 j Idb3z4; KIAA0613

6 TNNT2 troponin T type 2 (c protein coding CMH2; TnTC; cTnT; CMD1D; MGC38BS

<□

The nuclear lamina consists of a two-dimensional matrix of proteins located next to the inner nuclear membrane. The lamin family of proteins make up the matrix and are highly conserved in evolution. During mitosis, the lamina matrix is leveisibly disassembled as the lamin proteins are phosphorylated. Lamin proteins are thought to be involved in nuclear stability, chromatin structure and gene expression. Vertebrate lamins consist of two types. A and B. Through alternate splicing, this gene encodes three type A lamin isoforms. Mutations in this gene lead to several diseases: Emery-Dreifuss muscular dystrophy, familial partial lipodystrophy, limb girdle | muscular dystrophy, dilated cardiomyopathy, Charcot-Marie-Tooth disease, and Hutchinson-Gilford progeria syndrome.

Diseases name

il

1. This variant (1) encodes isoform 1, also known as lamin A I Number of exons: 12

2. This variant (2) uses an alternate splice site in the 3 coding region, compared to variant 1, resulting in a shorter isoform [2, also known as lamin C) with a distinct C-terminus when compared to isoform 1.

Number of exons: 10

3. This variant (3) lacks an internal segment of sequence compared to variant 1. The encoded isoform (3). also known is the lamin Adeltal 0 isoform, is shorter but has the same C-terminus when compared to isoform 1 (lamin A).

Number of exons: 11

ID 1 Location j Symbol | Title 1 *

► 64 10q22.2-q23.3 LDB3. ZASP, CYPHER. KIAA01613 j LIM domain binding 3

65 20q13.1 AC0T8, PTE1 Acyl-CoA thioesterase 8

66110q22.3 ARVD7, ARVC7 Arrhythmogenic right ventricular dysplasia, familial, 7

67 10q22.3 BMPR1A,ACVRLK3, ALK3 Bone morphogenetic protein receptor, type IA

68 10q22.3 1Dq22.3 Potassium large conductance calcium-activated channel, subfamily M. alpha member 1 (slowpoke, Drosc

Рис. 2. Клиентская часть базы по генам и соответствующим белка, ответственным за развитие кардиомиопатии

Найзабаева JI Разработка информационной модели

Список литературы:

1. Дунаев С. Доступ к базам данных и техника работы в сети. Практические приемы современного программирования. - М.: ДИАЛОГ - МИФИ, 2000. - 416 с.

2. Конноли Т., Бегг К. Базы данных. Проектирование, реализация и сопровождение. Теория и практика. - 3-е издание / Пер. с англ. - М.: Издательский дом «Вильяме», 2003. - 1440 с.

3. Маклаков С.В. Создание информационных систем с AllFusing Modeling Suite. - М.: Диалог-МИФИ, 2003.

i Надоели баннеры? Вы всегда можете отключить рекламу.