Научная статья на тему 'Контроль качества данных при построении информационно-аналитической системы'

Контроль качества данных при построении информационно-аналитической системы Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
495
74
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Контроль качества данных при построении информационно-аналитической системы»

Toolbox, включенный в проіраммньїй комплекс Matlab. •*.

при котором на вход подавался вектор из 30 состав- 4

ляюших и классифицирующий полученные образы пофонемно.

5.

ЛИТЕРАТУРА ,

Ьекеши. Проблемы физиологии слуха // Успехи физических паук. 1982. Т. XV.

Haumganc /■'. ¡■crekuhs С., l-uchs Н. A Nonlinear Psychoacoustic Model Applied to the ISO MPEG Layer 3 Coder, http://www.tnt.uni-hannover.de/project/coding/audio/perception/publi-cations.html. 1995. Rohmson !) J M, Hawksford M.OJ. Psychoacoustic models and nonlinear human hearing H Proceedings o('IFEF. 2000. V. 88. № 4.

Kahiner /... Jong H Fundamentals of speech recognition. CL.SU, 1993

1. Л.и)<тшпи И.Л. Основы психоакустики // Звукорежиссер. 2004.

№ 1-10.

2. 5РЕШМ-2006: гр, науч. конф. / спирас при ран рф СПб., Поступила в редакцию 17 октября 2006 г.

2006.

КОНТРОЛЬ КАЧЕСТВА ДАННЫХ ПРИ ПОСТРОЕНИИ ИНФОРМАЦИОННО-АНАЛИТИЧЕСКОЙ СИСТЕМЫ

©А.А. Ильин

analytical system/

llyin А.А. Quality control of data at formation of an infonnatioii

Большинство потребителей информационных технологий оперируют с большим объемом данных, которые необходимо анализировать. На сегодняшний день разработан ряд программных средств, предназначенных для облегчения задачи анализа информации. Одним из классов таких программных средств являкггся информационно-аналитические системы. За последние десятилетия были разработаны методологии построения систем >того класса. Разработанные методики способствовали решению ряда важных задач, таких как быстрый доступ к необходимой информации и возможность наиболее полного анализа данных. При этом одним из основных факторов риска, определяющим успешность проекта по созданию информационно-аналитической системы, является проблема качества данных f 1].

Многие исследователи определяют качественную информацию, как обладающую определенным набором свойств. Наиболее полный список свойств, характеризующих качественную информацию, для систем поддержки принятия решений приводится в работе [2]:

• Корректность. То есть все значения, содержащиеся в информационно-аналитической системе, являются достоверными и безошибочными.

• Недвусмысленность. То есть любая запрошенная информация должна иметь единственное значение, так чтобы она не могла быть истолкована различными пользователями по-разному.

• Согласованность. То есть вся информация должна соответствовать единой нотации.

• Полнота. Существуют два аспекта полноты:

1. Обеспечение того, чтобы все необходимые величины содержали непустые значения.

2. Обеспечение кон фоля попадания в информационно-аналитическую систему всех необходимых записей.

Была поставлена задача разработать методологию контроля качества данных, удовлетворяющую следующим требованиям:

1. контроль качества данных на всех стадиях создания информационно-аналитической системы:

2. возможность настройки производительности системы;

3. использование архитектурных особенностей информационно-аналитических систем.

В результате были определены пять типов проверок качества данных, требующихся при разработке информационно-аналитических систем, и предложена методика применения данных проверок, позволяющая реализовать систему контроля качества данных, удовлетворяющую всем сформулированным требованиям:

1. контроль значений колонок таблицы;

2. контроль наличия в таблице всех необходимых значений;

3. контроль дубликатов;

4. контроль правила «трех сигм»;

5. контроль качества информации с помощью прогнозирования.

Также была поставлена задача разработать программное средство, позволяющее контролировать качество данных в рамках данной методологии.

На рис. 1 представлена архитектура разработанного программного комплекса, осуществляющею контроль качества данных. 11рограммный комплекс состоит из трех частей: I) средство определения правил проверки качества данных; 2) инструмент КТЦ Extract Transform Load) - используется для наполнения информационно-аналити-ческой системы данными; 3) серверная часть системы, осуществляющая проверку качества данных.

Разработчик определяет офаничения. накладываемые на данные, и сохраняет их в текстовом файле. Затем добавляет в процедуры ETL компоненты проверки качества данных, в качестве параметра которых указывает имя файла, содержащего ограничения. При выполнении процедур ETL происходит вызов необходимых проверок качества данных, результат выполнения которых определяет последующие действия процедур ETL (продолжение загрузки данных либо предупреждение администратора системы о проблемах с качеством данных).

Средство определения правил проверки качества данных

Инструмент ETL

Серверная часть системы, осуществляющая проверку качества данных

Рис. 1. Архитектура разработанного программного комплекса

Для осуществления взаимодействия между ЕТЬ-средством и серверной частью системы был выбран один из универсальных способов интеграции нескольких приложений - \уеЬ-сервисы, т. к. технология \veb-ссрвисов поддерживается большинством ЕТЬ-средств.

Таким образом, был разработан и реализован программный комплекс, позволяющий производить контроль качества данных в рамках разработанной методики. Реализована возможность определения пяти типов правил контроля качества информации, которые могут быть применены на любом этапе построения информационно-аналитической системы. При этом множество типов проверок качества данных может быть расширено. Для этого новый вид проверок должен быть реализован в виде \*еЬ-сервиса. принимаю-

щего в качестве входного параметра имя файла, содержащего ограничения, накладываемы на анализируемую информацию. Реализованный таким образом новый вид проверок может быть использован аналогично тому, как было описано выше.

ЛИТЕРАТУРА

1. Olson ./. Data Quality Accuracy Dimension. Morgan Kauffmann Publishers. 2003. 293 p.

2. Kimbali R.. Сшепа J. The Data Warehouse ETL Toolkit: Practical Techniques for Extracting, Cleaning, Confirming and Delivering Data. Wiley, 2004 525 p.

Поступила в редакцию 20 октября 2006 г.

МЕТОДЫ МОДЕЛИРОВАНИЯ СОЦИАЛЬНЫХ СИСТЕМ © O.A. Соломина

Solomina O.A. The methods of the social systems modeling.

В последние годы быстрыми темпами развивается идея использования моделирования для исследования социальных процессов. Применение моделей позволяет проводить контролируемые эксперименты в ситуациях -весьма характерных для социального познания - где экспериментирование на реальных объектах является практически невозможным или по каким-то причинам (экономическим, нравственным и т. д.) нецелесообразным.

Целью данной работы является проведение сравнительного анализа методов математического и компьютерного моделирования в социальных системах.

Методология построения моделей социальных явлений существенно отличается от методологии моделирования в естественных науках. В последних, как

правило, основу составляет набор твердо установленных экспериментом и практикой зависимосгей (законов), которые, будучи однажды найденными, всегда остаются справедливыми в границах своей применимости.

В социальных науках ситуация намного сложнее. При построении моделей социальных явлений необходимо учитывать изначальную неточность задания всех данных, отсутствие четкого математического описания переменных и параметров, используемых при моделировании, социально-психологические факторы (такие, как соотношение личных и групповых интересов, особенности индивидуальной и национальной психологии при принятии решений и др.).

i Надоели баннеры? Вы всегда можете отключить рекламу.