Научная статья на тему 'Разработка автоматизированной информационной системы для сбора и анализа данных'

Разработка автоматизированной информационной системы для сбора и анализа данных Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
1152
168
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Павлов А. С., Павличева Е. Н.

В данной публикации приведено краткое описание структуры создаваемой автоматизированной информационной системы для сбора и анализа данных. Также приводится список составных модулей системы, их функциональное назначение. Дается краткое описание функций модуля анализа данных.I

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

n the given publication a short description of structure of automated information system for data retrieval and analysis is stated. A short description of every functional module and detailed description of data analysis module are stated too.

Текст научной работы на тему «Разработка автоматизированной информационной системы для сбора и анализа данных»

ролевого управления доступом, организация доступа пользователей по предъявлению цифрового сертификата, а в ближайшей перспективе - промышленное решение по выборочному шифрованию и применение алгоритмов ГОСТ для шифрования.

Для полного решения проблемы защиты данных администратор безопасности должен иметь возможность проводить мониторинг действий пользователей, в том числе с правами администратора. Поскольку штатная система аудита не имеет достаточных средств защиты, необходима независимая система, защищающая корпоративную сеть не только снаружи, но и изнутри. В будущем должны также появиться типовые методики комплексного решения задачи защиты баз данных для предприятий разного масштаба - от мелких до территориально распределенных [9, 10].

Список литературы

1. Бабенков М. eToken Network Logon - новый уровень аппаратной безопасности сети / М. Бабенков // Компьютер-пресс. - 2002. - № 8. - С.156-158.

2. Попов М. БДИ. - 2002. - № 1 (41). - http:// sec.ru.

3. Степаненко Н., Т рофимова Е. Маска, я тебя знаю / Н. Степаненко, Е.Трофимова // Мир ПК. - 2003. - № 6. - http://www.smartcard.ru.

4. Шепелев А. За семью замками / А. Шепелев // Chip CD. - 2002. - № 10. - С.18-22.

5. Журнал «Защита информации. Инсайд», СПб, 2006, №3.

6. Малышенко Д.Г. Противодействие компьютерному терроризму - важнейшая задача современного общества и государства. - ВНИИ МВД России. http://oxpaha.ru/view.asp713341

7. Яковенко А.А., http://www.russianlaw.net/law/doc/a202.doc, 2006.

8. ГОСТ СТР-К, 2005.

9. Голубев В. Организационно-правовые аспекты противодействия компьютерной преступности и кибертерроризму. - 2004. http://www.crime-research.ru.

10. Dorothy E. Denning. Activism, Hacktivism, and Cyberterrorism: The Internet as a Tool for Influencing Foreign Policy. http://www.crime.vl.ru/docs/ stats/ stat_92.htm

УДК 004.42:519.22

А.С. Павлов, Е. Н. Павличева

Российский химико-технологический университет им. Д.И. Менделеева, Москва, Россия

РАЗРАБОТКА АВТОМАТИЗИРОВАННОЙ ИНФОРМАЦИОННОЙ СИСТЕМЫ ДЛЯ СБОРА И АНАЛИЗА ДАННЫХ

In the given publication a short description of structure of automated information system for data retrieval and analysis is stated. A short description of every functional module and detailed description of data analysis module are stated too.

В данной публикации приведено краткое описание структуры создаваемой автоматизированной информационной системы для сбора и анализа данных. Также приводится список составных модулей системы, их функциональное назначение. Дается краткое описание функций модуля анализа данных.

Задача сбора и статистического анализа численных данных возникает во многих областях деятельности человека: в медицине, промышленности, науке и в информационных технологиях. Уже было разработано достаточно систем сбора и анализа данных в конкретных областях. Однако универсальных систем, позволяющих собирать и анализировать данные из разных источников немного, а систем позволяющих производить не только мониторинг, но и статистический анализ —„ полученных данных, единицы.

Целью данной работы является создание универсальной кросс-платформенной модульной системы сбора и статистического анализа численных данных с открытым исходным кодом.

Универсальность системы достигается за счет:

1. Использования модульной архитектуры (это позволит менять последовательность передачи данных между модулями, территориально разносить их по разным серверам, добавлять дополнительные модули к общей системе).

2. Возможности запускать внешние приложения сторонних производителей для получения необходимых данных.

3. Использования специального языка описания источника данных, что позволит привести данные из любого источника к требуемому программой виду

Общая схема системы приведена на рисунке. Система состоит из следующих модулей:

1. Модуля сбора данных

2. Модуля анализа, модуля классификации и базы данных, составляющих вместе основное ядро системы.

3. Модуля анализа актуальности выбираемых из хранения данных

4. Модуля для проведения статистического анализа выбранных данных

5. Пользовательских модулей для составления отчетов и построения моделей

Опишем функциональное назначение каждого из модулей подробнее.

Модуль сбора данных. Этот модуль служит для периодического опроса источников данных с целью получения текущей информации. Для описания источников данных применяется специальный язык, позволяющий сделать базовую обработку полученных данных, т.е. привести их к виду, который может быть использован другими модулями.

Модуль анализа данных. Служит для первичной проверки полученных модулем сбора данных на достоверность и на выброс по заданным программе критериям. В простейшем случае данными критериями могут являться максимальное и минимальное значения получаемых параметров.

Модуль классификации данных. Необходим для разделения получаемых данных на группы (Пример 1: нормальное давление, высокое давление и критическое

давление. Пример 2: студент, аспирант, сотрудник). Признаки, используемые для классификации задаются в конфигурационных файлах модуля с использованием специального языка описания.

База данных. Обработанные и классифицированные данные передаются на хранение СУБД. Для того, чтобы сделать программу универсальной используется СУБД MySQL. Это также позволяет организовать постоянное резервирование хранимой информации, а также постоянную поддержку целостности базы данных в целом. Кроме того к плюсам данной СУБД относится кросс-платформенность и возможность организации кластеров для хранения больших объемов данных.

Анализ актуальности данных. На этапе классификации, каждому из классов сопостовляется срок, в течение которого полученные данные будут актуальны. Данный модуль является своего рода фильтром, не допускающим попадание устаревших данных в текущие отчеты. Однако, при построении достоверной модели развития необходимо учитывать все данные, в том числе и исторического характера. Поэтому использование данного модуля в системе не обязательно.

Модуль статистического анализа. Является, пожалуй, самым сложным модулем системы. Он представляет из себя комбинацию различных функций, реализующих различные методы статистического анализа изучения. На выходе модуль будет выдавать данные, полученные при помощи выбранного метода статистического анализа, либо модели, построенные для различных классов переменной по выбранному пользователем алгоритму. Планируется также разработка модуля нейросетевого анализа.

Пользовательские модули для составления текущих отчетов и отчетов с предсказанием динамики развития переменной фактически представляют собой интерфейс пользователя для работы с программой. Модули являются Web-ориентированными поэтому не требуют установки дополнительного программного обеспечения на компьютере пользователя системы. Большая часть данных будет представлена пользователю в графическом виде, что значительно упрощает процесс анализа и принятия решения пользователем.

Модулем, несущим основную нагрузку, является модуль анализа данных. Типовыми задачами, которые будут решаться данным модулем, являются:

1. Описание данных (компактное и информативное представление полученных

данных)

2. Установление совпадения групп данных (например совпадения данных по месяцам, по источникам)

3. Установление различия групп данных

Описание данных. В задачах, решаемых программой обычно будут иметься большие совокупности измеренных данных (сотни, а иногда - тысячи результатов измерений индивидуальных характеристик), поэтому возникает задача компактного описания имеющихся данных. Для этого используют методы описательной статистики -описания результатов с помощью различных агрегированных показателей и графиков. Кроме того, некоторые показатели описательной статистики используются в статистических критериях при определении достоверности совпадений и/или различий характеристик нескольких групп данных.

Показатели описательной статистики можно разбить на несколько групп:

• показатели положения описывают положение экспериментальных данных на числовой оси. Примеры таких данных - максимальный и минимальный элементы выборки, среднее значение, медиана, мода и др.;

• показатели разброса описывают степень разброса данных относительно своего центра (среднего значения). К ним относятся: выборочная дисперсия, разность между минимальным и максимальным элементами (размах, интервал выборки) и др.

• показатели асимметрии: положение медианы относительно среднего и др.

• графики, диаграммы и др.

Данные показатели используются для наглядного представления и первичного ("визуального") анализа результатов.

Общие подходы к определению достоверности совпадений и различий. Как

отмечалось выше, типовой задачей анализа данных в педагогических исследованиях является установление совпадений или различий характеристик различных групп данных. Для этого формулируются статистические гипотезы:

• гипотеза об отсутствии различий (так называемая нулевая гипотеза);

• гипотеза о значимости различий (так называемая альтернативная гипотеза).

Для принятия решений о том, какую из гипотез (нулевую или альтернативную)

следует принять, используют решающие правила - статистические критерии. То есть, на основании информации о результатах наблюдений (характеристиках членов экспериментальной и контрольной группы) вычисляется число, называемое эмпирическим значением критерия. Это число сравнивается с известным (например, заданным таблично) эталонным числом, называемым критическим значением критерия.

Критические значения приводятся, как правило, для нескольких уровней значимости. Уровнем значимости называется вероятность ошибки, заключающейся в отклонении (не принятии) нулевой гипотезы, то есть вероятность того, что различия сочтены существенными, а они на самом деле случайны.

Обычно используют уровни значимости (обозначаемые а), равные 0,05, 0,01 и 0,001. Если полученное исследователем эмпирическое значение критерия оказывается меньше или равно критическому, то принимается нулевая гипотеза - считается, что на заданном уровне значимости (то есть при том значении а, для которого рассчитано критическое значение критерия) характеристики групп данных совпадают. В противном случае, если эмпирическое значение критерия оказывается строго больше критического, то нулевая гипотеза отвергается и принимается альтернативная гипотеза - характеристики групп данных считаются различными с достоверностью различий (1 - а).

Другими словами, чем меньше эмпирическое значение критерия (чем левее оно находится от критического значения), тем больше степень совпадения характеристик сравниваемых объектов. И наоборот, чем больше эмпирическое значение критерия (чем правее оно находится от критического значения), тем сильнее различаются характеристики сравниваемых объектов.

УДК 628.4.04-404.1:504:574 А.И. Чулок, Е.С. Михайлов

Российский химико-технологический университет им. Д.И. Менделеева, Москва, Россия

ВЫБОР ОПТИМАЛЬНОГО СЦЕНАРИЯ МИНИМИЗАЦИИ СБРОСОВ ОТРАБОТАННЫХ СМАЗОЧНО-ОХЛАЖДАЮЩИХ ЖИДКОСТЕЙ

Scenarios of minimization of waste of the fulfilled metalworking liquids are stated and the scheme for their minimization is resulted.

Изложены сценарии минимизации сбросов отработанных смазочно-охлаждающих жидкостей и приведена схема для их минимизации.

i Надоели баннеры? Вы всегда можете отключить рекламу.