Научная статья на тему 'Совершенствование обработки входных данных ОСМ'

Совершенствование обработки входных данных ОСМ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
78
13
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
рыболовство / информационные и геоинформационные системы / отраслевая система мониторинга / модель. / fishing / information and geoinformation systems / sectoral monitoring system / model.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — И Г. Проценко, С В. Сороковых

Статья посвящена оценке эффективности и обоснованию алгоритма обработки входных данных ОСМ на базе имитационного моделирования с учетом производительности программных средств ОСМ. Результаты численных экспериментов дали возможность выбрать и реализовать наиболее приемлемую схему, основанную на распараллеливании процессов обработки входных данных.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — И Г. Проценко, С В. Сороковых

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

IMPROVING OF SECTORAL MONITORING SYSTEM INPUT DATA PROCESSING

The efficiency evaluation and algorithm justification of processing the input SMS data based on simulation taking into account the performance of SMS software tools are analyzed in the article. The results of numerical experiments made it possible to choose and implement the most appropriate scheme based on parallelization of input data processing processes.

Текст научной работы на тему «Совершенствование обработки входных данных ОСМ»

УДК 004.94

И.Г. Проценко, С.В. Сороковых

Камчатский государственный технический университет,

Петропавловск-Камчатский, 683003

СОВЕРШЕНСТВОВАНИЕ ОБРАБОТКИ ВХОДНЫХ ДАННЫХ ОСМ

Статья посвящена оценке эффективности и обоснованию алгоритма обработки входных данных ОСМ на базе имитационного моделирования с учетом производительности программных средств ОСМ. Результаты численных экспериментов дали возможность выбрать и реализовать наиболее приемлемую схему, основанную на распараллеливании процессов обработки входных данных.

Ключевые слова: рыболовство, информационные и геоинформационные системы, отраслевая система мониторинга, модель.

I.G. Protsenko, S.V. Sorokovykh

Kamchatka State Technical University, Petropavlovsk-Kamchatsky, 683003

IMPROVING OF SECTORAL MONITORING SYSTEM INPUT DATA PROCESSING

The efficiency evaluation and algorithm justification of processing the input SMS data based on simulation taking into account the performance of SMS software tools are analyzed in the article. The results of numerical experiments made it possible to choose and implement the most appropriate scheme based on parallelization of input data processing processes.

Key words: fishing, information and geoinformation systems, sectoral monitoring system, model.

Отраслевая система мониторинга (ОСМ) предназначена для мониторинга водных биоресурсов на основе непрерывного наблюдения и контроля за деятельностью промысловых судов [1, 2]. ОСМ создана для информационного обеспечения Росрыболовства и его региональных подразделений, а также взаимодействующих ведомств, определенных постановлениями Правительства Российской Федерации [3].

ОСМ [1, 2] объединяет в своем составе комплекс программно-аппаратных средств решения прикладных и системных задач в области контроля деятельности промысловых судов в море и обеспечения данными спутникового мониторинга пользователей информационных узлов.

Автоматизированная обработка потока данных большого объема в реальном масштабе времени, когда непрерывно поступают разнородные сведения более чем от 2 500 судов, проверка их достоверности, хранение и анализ предъявляют особые требования к надежности работы программных средств.

Таким образом, в процессе построения информационной системы необходимо решить целый комплекс характерных для Дальневосточного бассейна задач, связанный не только с обработкой больших объемов информации, но также изучить вопросы использования существующих каналов связи для их получения, распространения, вопросы управления техническими средствами контроля, установленными на объектах мониторинга, вопросы надежности и устойчивости работы системы в целом.

Программные средства ОСМ решают задачу распознавания и усвоение различных стандартов и форматов принимаемых данных, контроля достоверности входных данных. Эта задача предъявляет высокие требования не только к программно-техническим средствам, но и выбору такой модели передачи данных между программными процессами и информационными узлами, которая исключала бы возможность искажения или потери информации.

В общем случае программно-техническая платформа ОСМ представляет собой совокупность средств и систем, состоящую из серверов, рабочих станций, средств телекоммуникаций, программного обеспечения, способную осуществлять процесс приема, обработки и передачи разнородных данных в реальном масштабе времени. Данными в ОСМ являются позиции промысловых судов, судовые суточные донесения (ССД), оперативные и статистические отчеты предприятий, сведения об изменениях справочников системы и др. Особенность входного потока состоит в том, что данные, поступающие от разных источников, имеют специфичный формат и содержание.

Процесс обработки данных включает в себя первичную обработку, в процессе которой выполняется преобразование формата исходных данных во внутренний формат информационной системы, комплексный анализ, выполняющий синтаксический и семантических разбор данных и подготовку аналитического материала, ввода потока в базу данных и его рассылку другим пользователям.

Входные информационные потоки в системе мониторинга рыболовства имеют различную интенсивность. Ввиду их неравномерности, причиной которой могут быть как внешние, так и внутренние факторы, на входе процессов обработки могут образовываться очереди. Внешним фактором может быть отсутствие канала связи, выход из строя оборудования, когда данные накапливаются на передающем сервере, а после восстановления канала лавинным потоком попадают на вход системы. Внутренним фактором - фатальный сбой программы обработки, ограничение в предоставлении процессорного времени при порождении на сервере большого количества других процессов. Анализ и моделирование очередей позволяют оценить эффективность информационной модели, рассчитать время восстановления работоспособности после сбоя, определить критические характеристики функционирования системы, а также установить оптимальную интенсивность входного информационного потока путем удаленного управления ТСК.

При остановке процесса обработки данных в результате сбоя или по другой причине на входе процесса будет образовываться очередь, размер которой прямо пропорционален средней интенсивности соответствующего входного потока и времени пребывания процесса в состоянии сбоя.

Процесс обработки данных в ОСМ простроен по принципу потока, в котором источник сообщения посылает данные на вход процесса обработки, а получатель сообщения видит на выходе результат преобразования данных. Причем цепочка «источник - получатель» может строиться в несколько этапов.

В случае однопоточной системы потоки, объединяясь, попадали на вход программы, которая выполняла весь комплекс задач по первичной обработке, анализу, преобразованию данных, формированию таблиц базы данных и рассылке другим пользователям. Ввиду того, что алгоритм обработки данных достаточно сложный и требует большого количества процессорного времени, производительность программы была низкой, но, в то же время, достаточной для работы в стационарных условиях. Однако в сбойных ситуациях, которые могли возникнуть при аварии канала связи или остановке программного процесса, устойчивость и равномерность обработки данных в системе значительно снижалась из-за образования одной общей очереди сообщений.

Операционные характеристики производительности работы процесса обработки данных [4, 5] представлены в табл. 1.

Таблица 1

Операционные характеристики программы обработки данных ОСМ

Ш Ьд "ч

(записей/сек.) (записей/сек.) (записей) (сек.) (записей) (сек.)

0,3212 1,2 0,3655 1,1379 0,0978 0,3046

ц - эффективная производительность системы, рассчитанная с учетом того, что программа после каждого цикла обработки входных данных, выполняет дополнительные операции, связанные с сортировкой больших объемов данных, поиском и т. п,

X - интенсивность потока (количество записей в единицу времени), Ь. - среднее число записей, находящихся в информационной системе, Ш - средняя продолжительность пребывания записи в системе, где Ьд - среднее число записей, находящихся в очереди, Шд - средняя продолжительность пребывания записи в очереди.

Время восстановления стационарного режима работы системы после сбоя представлено в табл. 2.

Таблица 2

Период восстановления стационарного режима работы программы

Период состояния сбоя (час) 1 3 8 24 72

Период восстановления (час) 0,37 1,10 2,92 8,77 26,32

Задержка в поступлении данных на период 8 ч или 3 сут представляется вполне реальной из-за возможных сбоев работы систем связи и др.

Из табл. 2 видно, что после сбоя системы более 1/3 времени работы программы уходит на обработку образовавшейся очереди. Это вызывает значительную задержку в обновлении базы данных и не может обеспечить устойчивую обработку и рассылку потока данных в реальном масштабе времени.

Теоретически, повысить производительность программы можно путем распределения обработки входных потоков между различными процессами и серверами. Однако это достаточно сложная и трудоемкая задача, на которую требуются значительные временные и финансовые затраты. При этом настоящие затраты будут оправданы, если распределенная система окажется более надежной и производительной, чем однопоточная.

Поэтому с целью оценки эффективности работы распределенной системы обработки входных информационных потоков была построена имитационная модель в программе MatLab Simulink.

В модель введены блоки, участвующие в формировании исходного сигнала, а также блоки, отображающие ключевые моменты в формировании сигнала; блоки, отвечающие за производительность системы; блок, отображающий значение пропускной возможности системы в минуту; блок, отвечающий за коэффициент приведения длинных сообщений (ССД) к коротким (позициям судов); блок, отображающий этот коэффициент; выходные сигналы: графики накопления сообщений в очереди и обработки сообщений. С помощью переключателей Switch возможно управлять потоками позиций судов, ССД и анализировать их обработку по отдельности. Позиции судов поступают в систему в течение суток равномерно, дневной пик поступления ССД приходится на отчетное время 12 часов. Также особенностью построенной модели является возможность имитации сбоя системы, выхода ее из строя на длительное время с целью оценки эффективности восстановления системы.

В новой схеме обработка входного потока распределена между несколькими системными процессами и осуществляется в общей сложности в два этапа:

- первичная обработка и комплексный анализ данных;

- ввод потока в базу данных.

На этапе первичной обработки выполняется разархивирование, декодирование данных, поступающих по различным каналам связи, выявляются грубые ошибки, связанные, как правило, с неправильной работой ТСК. Формат данных приводится к каноническому виду, единому для всей информационной системы в целом и пригодному для дальнейшей обработки. Процессы первичной обработки данных выполняются параллельно, независимо друг от друга и обеспечивают непрерывный поток данных даже при аварии одного или нескольких каналов связи.

Программа комплексного анализа выполняет основной процесс обработки данных. Ею собираются воедино все входные информационные потоки, прошедшие этап первичной обработки и формируется выходной поток для его ввода в базу данных. В процессе обработки выявляются синтаксические и семантические ошибки, которые регистрируются в протоколе работы программы. Программа формирует ряд аналитических таблиц, отображающих количественные и качественные характеристики входного потока. На основании этих таблиц имеется возможность в реальном масштабе времени классифицировать входной поток по различным характеристикам, оперативно выявлять нарушения и принимать решения по изменениям режимов работы ТСК.

Программа ввода в базу данных выполняет дополнительный синтаксический контроль записей, полученных от программы комплексного анализа, проверяет соответствия ключевых значений полей входных записей справочникам базы данных и преобразует информационный поток в последовательность SQL-операторов для их выполнения сервером базы данных. Результатом работы программы являются заполненные и скорректированные таблицы базы данных ОСМ.

Необходимым условием перехода в стационарный режим работы после сбоя является то, что производительность программ 8^еашСХ и UpdateCX должна превышать суммарную производительность программ первичной обработки данных. А учитывая тот факт, что программа 8^еашСХ после каждого цикла обработки формирует ряд аналитических таблиц, на которые уходит 3/4 общего времени работы, ее производительность должна превышать производительность программ UpdateCX в 4-5 раз.

Средняя интенсивность входных данных представлена в табл. 3.

Производительность процессов обработки данных представлена в табл. 4.

Операционные характеристики процессов обработки входного информационного потока, рассчитанные по формулам (4)-(7), представлены в табл. 5.

Таблица 3

Интенсивность входных информационных потоков ОСМ

Входной поток Позиции Инмарсат Позиции Аргос ССД

X (записей/сек.) 0,0410 0,0239 0,0802

Таблица 4

Производительность программ обработки данных

ипр1пшагеаЮХ ШрЛ^08СХ БЬеашСХ UpdateCX

ц (зап./сек.) 2 1 35 8

Таблица 5

Операционные характеристики процессов обработки данных ОСМ

Ьх (записей) Г, (сек.) Ьа ,-записей) (сек.)

ипр1пшагеаЮХ 0,0209 0,5105 0,0004 0,0105

ШрЛ^08СХ 0,0245 1,0245 0,0006 0,0245

Б^еашСХ 0,0094 0,0288 0,0001 0,0003

UpdateCX 0,0426 0,1303 0,0017 0,0053

Таким образом, период восстановления стационарных режимов работы процессов по сравнению с программой в однопоточной схеме уменьшился в 8-10 раз.

Параметр Я/ц, характеризующий степень загруженности системы обработки данных, много меньше 1 и показывает, что программные процессы отраслевой системы мониторинга рыболовства обладают достаточным запасом прочности. Данные представлены в табл. 6.

Таблица 6

Степень загруженности процессов обработки данных ОСМ

ипр1пшагеаЮХ ШрЛ^08СХ БЬеашСХ UpdateCX

Х/ц 0,0390 0,0030 0,0090 0,0446

Параллельная обработка входного информационного потока обеспечивает живучесть системы при аварии одного или даже нескольких каналов связи. В этом случае будет обеспечен ввод данных от других источников, а кратковременное увеличение интенсивности потока после восстановления канала не окажет заметных влияний на производительность системы ввиду распределения вычислений между процессами первичной обработки данных и комплексным анализом данных.

Моделирование обработки потока входных данных ОСМ позволило сравнить различные модели обработки в нескольких режимах работы системы. Результаты численных экспериментов дали возможность выбрать и реализовать наиболее приемлемую схему, основанную на распараллеливании процессов обработки.

Литература

1. О создании отраслевой системы мониторинга водных биоресурсов, наблюдения и контроля за деятельностью промысловых судов: Постановление правительства Российской Федерации от 26 февраля 1999 г. № 226 .

2. Проценко И.Г. Информационная система мониторинга рыболовства // Рыбное хозяйство. - 2001. - Спец. выпуск. - С. 3-18.

3. Мониторинг рыболовства-2005: инструкции и рекомендации экипажам промысловых судов и судовладельцам / Л.А. Кошкарева, Ф.А. Образцов, И.Г. Проценко и др. - Петропавловск-Камчатский: Новая книга, 2005. - 264 с.

4. Гмурман В.Е. Теория вероятностей и математическая статистика. - М.: Высшая школа, 2002.

5. Таха Х. Введение в исследование операций. - М.: Мир, 1985.

i Надоели баннеры? Вы всегда можете отключить рекламу.