лабораторных работ было произведено осенью 2010 г. За семестр было обучено около 30 студентов кафедры АСУ.
За время обучения студенты познакомились с понятиями процессного подхода, в частности с понятиями «определение бизнес-процесса», «экземпляр бизнес-процесса», «исполнение экземпляра бизнес-процесса». Также студенты познакомились с основными компонентами систем управления бизнес-процессами и административными регламентами. Во время практикума были отработаны вопросы построения схем бизнес-процессов в нотации BPMN, задания и инициализации ролей бизнес-процесса. Были изучены и закреплены на практике вопросы работы с переменными бизнес-процессов, правилами выбора маршрута движения точки управления, а также возможности задания сроков выполнения заданий.
Литература
1. Абдикеев Н. М., Данько Т. П., Ильдеменов С. В., Киселев А. Д. Реинжиниринг бизнес-процессов. -М.: Эксмо, 2005. 592 с.
2. ТельновЮ. Ф. Реинжиниринг бизнес-процессов: Компонентная методология. - М.: Финансы и статистика, 2004. 319 с.
3. КаляновГ. Н. Моделирование, анализ, реорганизация и автоматизация бизнес-процессов. - М.: Финансы и статистика, 2006. 240 с.
4. ХаммерM., Чампи Д. Реинжиниринг корпорации: манифест революции в бизнесе. - СПб.: СПбУ, 1997. 332 с.
5. Кловпулос Т. Необходимость Workflow. - М.: Весть-МетаТехнология, 2000. 384 с.
6. Куликов Г. Г., Михеев А. Г., Орлов М. В., Габбасов Р. К., Антонов Д. В. Изучение методологии BPMN на примере программного продукта RunaWFE: Лабораторный практикум по дисциплине «Автоматизированные информационные системы в производстве» и «Автоматизированные информационные системы в экономике». - Уфа: УГАТУ, 2010.
7. Сайт проекта RunaWFE. - http://wf.runa.ru/rus.
УДК 004.627 ББК 22.18
ОБЛАСТИ ПРИМЕНЕНИЯ И КЛАССИФИКАЦИЯ МЕТОДОВ СЖАТИЯ ДАННЫХ
В. Л. Бурцев, к. т. н., доцент каф. компьютерных систем и технологий Тел.: (495) 324-84-82, e-mail: [email protected] М. Н. Ехин, к. т. н., доцент каф. компьютерных систем и технологий Тел.: (495) 324-84-82, e-mail: [email protected]
A. П. Кларин, к. т. н., доцент каф. компьютерных систем и технологий
Тел.: (495) 324-84-82, e-mail: [email protected]
B. В. Макаров, к. т. н., доцент каф. компьютерных систем и технологий
Тел.: (495) 324-84-82, e-mail: [email protected] Ю. А. Чернышев, д. т. н., профессор каф. компьютерных систем и технологий Тел.: (495) 324-84-82, e-mail:[email protected]
В следующем году запланировано:
1. Увеличение (примерно в 2 раза) числа студентов, выполняющих практикум.
2. Увеличение количества лабораторных работ с двух до четырех.
Разработка и внедрение лабораторного практикума показали следующие преимущества использования свободного ПО в учебном процессе:
'Ґ отсутствие затрат на приобретение;
^ неограниченное число инсталляций;
^ простота установки;
'Ґ возможность для студентов и преподавателей заниматься не только в учебном классе, но и на домашнем компьютере.
В частности, использование свободного ПО позволяет легко внедрить данный лабораторный практикум в любом
российском вузе.
В. А. Шурыгин, к. т. н., доцент каф. компьютерных систем и технологий Тел.: (495) 324-84-82, +7-903-131-03-35, e-mail: [email protected]
Национальный исследовательский ядерный университет МИФИ (НИЯУМИФИ)
http://www.mephi.ru
In the given article the classification of methods of data compression and the scopes and specific examples of their application are presented.
В данной статье представлена классификация медов сжатия данных, а также области применения и конкретные примеры их применения.
Ключевые слова: сжатие данных, области применения, информационная система, физический эксперимент, коллайдер, космические исследования, рациональное представление данных.
Keywords: data compression, scopes, information system, physical experiment, a collider, space researches, rational data presentation.
Введение
Характерной чертой постиндустриального общества является постоянный рост передаваемой и хранимой информации в самых разных областях человеческой деятельности. Появился термин «информационный взрыв». Особенно остро это относится к области образования. Очевидно, что эта тенденция сохранится до тех пор, пока будет существовать современная цивилизация, и будет только
Резкий рост объемов информации приводит к появлению проблемы перегрузки соответствующих систем передачи и хранения данных.
Известно два направления решения данной проблемы:
1. Постоянное улучшение технических характеристик систем передачи и хранения данных.
2. Рациональное представление данных.
Ко второму направлению относятся различные методы передачи в хранения лишь наиболее
существенных данных, т. е. только той части информации, которая интересует получателя. Принципиальным отличием этого направления от первого является то, что такие
характеристики, как пропускная способность канала, объем запоминающих устройств, мощности передающих устройств, быстродействие ЭВМ, считаются заданными. В рамках этих характеристик необходимо так представить данные, чтобы добиться максимально возможной разгрузки соответствующих систем, сокращения объемов передаваемых и хранимых данных.
Это направление, возникшее в начале 60-х годов XX века и получившее название «сжатие данных» (СД) (в ряде источников встречаются также термины: «сжатие информации», «сокращение избыточности информации», «компрессия») базируется на результатах теории информации и в ряде случаев учитывает физиологию человека.
Оба направления развиваются одновременно и взаимно дополняют друг друга. Появление новых, совершенных технических средств позволяют реализовать более сложные и эффективные методы СД. С другой стороны, как бы хороши ни были средства хранения и передачи данных, всегда встает вопрос, как их использовать наиболее рационально, и здесь необходимо СД.
1. Области применения и примеры использования сжатия данных
В настоящее время ряд областей науки и техники характеризуется исключительно большими объемами передаваемых и хранимых данных, и в них целесообразно применение СД. Перечислим основные:
1. Космические исследования.
2. Физические эксперименты.
3. Вычислительная техника.
4. Средства связи.
5. Телеметрические системы.
6. Интернет.
7. Метеорология.
8. Библиотеки.
9. Архивы.
10. Системы видеонаблюдения.
11. Телевидение.
Следует отметить, что все эти направле-
Как правило, имеется несколько источников информации (И1, ..., И„). Это могут быть датчики, детекторы, данные ЭВМ и т. д. Вслед за источниками всегда находятся некоторые первичные преобразователи (П1, ..., П„), которые преобразуют сигналы с источников к некоторому единому представлению. Например, АЦП, если источники аналоговые, а обработка дискретная. Поскольку источников несколько - необходима коммутация, т. е. опрос источников в соответствии с заданным алгоритмом. Например, это может быть циклический опрос, опрос с приоритетами и т. д. Под предварительной обработкой, как
правило, понимают совокупность преобразований дан-
ных перед поступлением их в канал передачи. Это может быть отбраковка данных, контроль, сжатие, преобразование к формату канала и др.
Обработка перед хранением, как правило, включает в себя контроль данных, отбраковку, представление в виде, соответствующем средству хранения. Цифрами 1, 2, 3 помечены блоки, в которых может быть реализована функция СД.
В качестве примера рассмотрим большой адронный коллайдер (БАК) [1]. БАК представляет собой кольцевой ускоритель
ния имеют самое непосредственное отношение к образованию.
На рис. 1 представлена структура, характерная для большинства информационных систем.
окружностью 27 км, расположенный под землей в монолитной скале, недалеко от Женевы. Следует отметить, что НИЯУ МИФИ весьма плотно сотрудничает с ЦЕРН по тематикам коллайдера (изготовление
датчиков БАК, написание программного обеспечения, анализ данных и т. д.). Преподаватели, аспиранты и студенты МИФИ постоянно работают в ЦЕРН, а результаты сотрудничества используются в учебном процессе МИФИ.
Этот пример выбран, поскольку он показывает, с какими объемами данных приходится иметь дело современным ученым. Очевидно, что данный эксперимент имеет огромное значение как для науки, так и для образования.
БАК позволяет оперировать с самыми малыми расстояниями (вплоть до нанонанометра, или 10-18 м) и энергиями порядка тера-электронвольт (1 ТэВ = 1012 эВ).
При таких энергиях теоретически возможна фиксация неуловимых частиц Хиггса (ответственных, как полагают, за существование массы у других частиц), а также частиц, образующих темную материю, составляющую большую часть вещества во Вселенной.
Рис. 1. Типовая структура информационной системы
Миллионы каналов данных от датчиков (блоки Иь Ип на рис. 1) после первичного
преобразования (блоки П1, ..., Пп на рис. 1) создают общий объем данных порядка одного петабайта (миллиарда мегабайт) каждые две секунды. Сырые данные поступают на систему обработки первого уровня. Этот уровень поддерживается сотнями специализированных компьютерных плат со схемной реализацией логики. На этой стадии отбираются (предварительная обработка, блок 2 на рис. 1) 100 тыс. блоков данных в секунду (перспективные события) для более тщательного анализа на следующей стадии более высокого уровня. По сути, реализуется необратимое сжатие данных, поскольку общий объем информации, предоставляемый датчиками, несоизмеримо превосходит возможности обработки.
Система обработки данных должна уменьшать их поток до управляемой величины, она имеет несколько уровней. Система запуска более высокого уровня (блок 3 на рис. 1) передает приблизительно 100 событий в секунду на концентратор вычислительных ресурсов глобальной сети БАК - распределенную вычислительную сеть GRID. Сеть объединяет мощности вычислительных центров и делает их доступными пользователям, в том числе и образовательным учреждениям, предоставляя неоценимую «живую» физиче-
скую информацию. Сетевое программное обеспечение, при среднем времени 10 мкс между блоками данных, отобранных системой запуска первого уровня, успевает
«реконструировать» каждое событие. Программное обеспечение обеспечивает «привязку» следов частиц к общим исходным точкам. Далее оно «проектирует» события -формирует массивы энергий, импульсов, траекторий частиц. Затем происходит создание архивов на магнитных носителях.
На каждом из этапов обработки производится дополнительное сжатие данных с возможностью последующего восстановления информации.
В области космических применений потоки данных с космических аппаратов, независимо от их назначения, имеют одну общую тенденцию - стремление к увеличению. Это связано с естественным желанием исследователей расширять номенклатуру, количество и длительность экспериментов.
Следует учитывать, что на бортовые системы сбора, обработки и передачи данных накладываются дополнительные условия, связанные с ограничениями на вес, габариты, потребляемую мощность систем летательных аппаратов, что является естественной преградой для удовлетворения возрастающих потребностей. В табл. 1 представлены аппараты, работающие в настоящее время.
Таблица 1
Действующие в настоящее время космические научные аппараты
Аппарат Объект изучения Год запуска
1. «Марс-Одиссей» (НАСА, США) (прибор «Хенд» РФ) Марс. Научные измерения на орбите вокруг Марса 2001
2. «Марс-Экспресс» (ЕКА, ЕС) (6 приборов РФ) Марс. Научные измерения на орбите вокруг Марса 2003
3. «Венера-Экспресс» (ЕКА, ЕС) (6 приборов РФ) Венера. Научные измерения на орбите вокруг Венеры 2005
4. «Ресурс-КД» (РФ) (прибор «Памела») Антивещество в солнечных лучах. Потоки антипротонов и позитронов 2006
5. «Лунный разведывательный орбитальный комплекс» (НАСА, США) (система «ЛЕНД» РФ) Поиск водяного льда в полярных районах Луны 2009
6. «Коронас-Фотон» (РФ) Вспышки на Солнце. Мониторинг «космической погоды» 2009
7. Всемирная космическая обсерватория «Ультрафиолет» (РФ) Космические объекты и происходящие на них процессы 2011
Данные взяты с официального сайта Федерального космического агентства и составляют лишь небольшую часть запущенных или планируемых к запуску спутников.
Применение СД на международных космических станциях позволило сократить объем передаваемых данных в десятки раз, что, в свою очередь, позволило увеличить время работы приборов за счет экономии бортовой памяти, предавать больше информации при той же пропускной способности каналов.
В ряде систем основной целью применения СД является экономия носителей информации, помещений для хранения носителей и т. д. В этом случае СД осуществляется на этапе обработки данных перед хранением. Особенно остро эта проблема стоит в архивах долгосрочного хранения на основе больших ЭВМ.
В НИЯУ МИФИ подобные задачи возникают перед физиками, получающими огромные потоки информации с космических объектов, в работе которых принимает участие МИФИ (пункты 4, 6 в табл. 1), кроме того рациональное хранение данных осуществляется в учебных компьютерных классах МИФИ, корпоративной сети МИФИ.
2. Классификация методов сжатия данных
В настоящее время термин «сжатие данных» объединяет большое число различных методов сокращения объемов передаваемых и хранимых данных. Эти методы различаются по целому ряду признаков. Они могут быть ориентированы на аналоговый или дискретный источник, быть адаптивными или неадаптивными, работать в условиях известных или неизвестных статистических характеристик источника сообщений и т. д.
В связи с этим имеет смысл провести классификацию существующих методов сжатия, что позволит на ее основе из всего множества методов сжатия выбирать те, которые соответствуют поставленным задачам в каждом конкретном случае.
Представленная в статье классификация отличается от известных тем, что в ней учитывается большее число признаков методов сжатия и при этом для каждого метода можно определить набор этих признаков и, наоборот, для заданного набора признаков выбрать соответствующие методы. Классификация представлена на рис. 2.
Используются следующие признаки:
• восстанавливаемость (с определенной точностью) исходного сигнала;
• тип источника (аналоговый или дискретный);
• априорное знание статистики источника;
• адаптивность;
• вид воздействия на исходный сигнал.
Классификация построена таким образом, что все ее блоки адресуемы. На нижних уровнях классификации находятся списки названий методов.
Пусть, например, нас заинтересовало название «Кодирование длин серий» (блок В 6). Из классификации выясняем (следуя снизу вверх), что этот метод относится к рациональному кодированию, предполагает известной статистику источника сообщений, используется для кодирования дискретных источников, является квазиобратимым преобразованием. А теперь пусть, наоборот, требуется подобрать квазиобратимый метод сжатия аналогового источника, не зависящий от знания статистики и не требующий создания сложных адаптивных систем. Следуя сверху вниз, приходим к группе «Фиксированные процедуры СД» (блок Е5).
Все методы СД можно разбить на две основные группы: необратимое СД (блок В 2) и квазиобратимое (блок ¥2). К необратимым относятся такие методы, после применения которых невозможно восстановить все исходные данные целиком. В результате применения таких методов экспериментатор получает интересующие его характеристики исследуемого процесса, например вероятности тех или иных событий, спектры и т. д. Применение такого метода суть повышение уровня обработки на борту. При этом передаются не исходные данные, а окончательный результат вычислений, что естественно резко снижает объем передаваемых данных. Однако необратимое сжатие принципиально неприменимо, если исследователи сами не могут четко сформулировать интересующие их параметры исходного процесса и требуют обязательной передачи всех исходных данных. Типичный для практики случай.
К квазиобратимому СД относятся все методы, допускающие восстановление исходного представления исследуемого процесса с заданной точностью. Их можно разделить на две основные группы: рациональное кодирование дискретного источника (блок С3) и рациональное преобразование аналогового сигнала в цифровой (блок ¥3).
Ко второй группе относятся методы
дискретизации и квантования непрерывного сигнала, учитывающие его естественную избыточность. Если статистика известна, наиболее применяемые процедуры - предсказание, интерполяция, передача вместо исходного непрерывного процесса коэффициентов разложения его в какой-либо ряд (блоки Об,
07, 08). Если статистика неизвестна, как правило, на практике применяются апертурные алгоритмы (блок Еб), поскольку они не требуют знания статистики источника, легко реализуются практически и обеспечивают высокие коэффициенты сжатия.
Особняком стоят методы СД с учетом физических свойств получателя (блоки 05,
Об, 07, 09). Они ориентированы на особенности человеческих органов чувств. Например, можно допустить такие искажения тембра голоса, которые позволят разобрать смысл сообщения и за счет этого снизить объем передаваемых данных. При передаче изображений используется уменьшение контрастности или яркости и т. д.
Рациональное кодирование используется для сжатия данных дискретных источников. В частности, оно может рассматриваться как второй этап сжатия данных непрерывного источника после дискретизации и квантования исходного сигнала.
0 ©
Рис. 2. Классификация методов сжатия данных
В случае известной статистики источника, как правило, применяют различные варианты кодирования длин серий и адреснопозиционного кодирования [2] (блоки Вб, В 7), поскольку эти методы легко реализуются и не требуют громоздких таблиц соответствия. В тех случаях, когда наблюдается изменение во времени какой-либо величины, используется кодирование с предсказанием [2] (блок В8). Для кодирования дискретных источников с небольшими алфавитами исполь-
зуются оптимальные методы статистического кодирования (коды Шеннона-Фано, Хафма-на) [3, 4] (блок В5), позволяющие полностью устранить избыточность при известной статистике.
Задача сжатия данных дискретного источника существенно усложняется, если статистические характеристики источника не известны, известны не полностью, меняются во времени (блоки С5-С9). Основные теоретические работы, посвященные решению
этой задачи, отражены в публикациях [5-7]. Долгое время в литературе не удавалось найти сведений о практическом применении результатов этих работ. В основном это связало со следующими причинами:
■ высокая трудоемкость реализации («адаптивное кодирование», «универсальное кодирование» - блоки С8, С9);
■ недостаточная эффективность простых в реализации методов (например, «итерации простых подстановок», «разностное кодирование» -блоки С5, Сб);
■ узкие классы источников, на которые ориентированы методы, например «матричное кодирование» (блок С7) используется в случае монотонности дискретных данных.
В настоящее время в связи с развитием флэш-технологий [8, 9] методы универсального кодирования, трудоемкость которых раньше казалась немыслимой, стали вполне реализуемы на практике [10].
Отметим, что каждый блок классификации - это именно метод СД, а не способ (или алгоритм). Под способом (или алгоритмом) СД, как правило, понимается комбинация нескольких методов, например архиваторы.
Для удобства восприятия в табл. 2 сведены методы сжатия данных с указанием блоков в классификации и номеров областей применения в перечне раздела 1.
Методы сжатия данных
Таблица 2
Метод сжатия Клок № обл.
Повышение уровня обработки А4 1 -11
Предварительная отбраковка событий А5 1,23*5
Спектральный анализ А6 2,4,5
Передача гистограмм, квантилей А7 1,2,5,7
Измерение вероятностей А8 1,2,5
Оптимальное кодирование (коды Шеннона, Фано, Хафмана В5 3,6,8,9
Кодирование длин серий Вб 1,2,4,5,10,11
Адресно — позиционное кодирование В7 1,2,4,5,10,11
Кодирование с предсказанием В8 4,5,7
Итерации простых подстановок С5 3,4,9
Разностное кодирование С6 4:5
Матричное кодирование С7 3
Адаптивное кодирование С8 1-6
Универсальное кодирование С9 1-9
Преобразование в ряд Карунена, Лоева т 4:5
Оптимальное предсказание Б7 1,2,5
Дискретизация по Котельникову Б8 1,2,4,5
Апертурные алгоритмы Е6 1,2,4,5
Преобразование в ряд Фурье Е7 1.2.4.5.7
Разностные методы Е8 2-5
Адаптивное квантование Е9 2.4.5
Переменная частота опроса ЕЮ 1,2,5
Накопление статистики Бб 2,3,6,7
Системы РКИМ с перестройкой параметров фильтров предсказателя и порогов квантования Б7 1,4,5
Вероятностные интерактивные процедуры ПО 3-6
Анализ и синтез речи 1,3,4,6,11
СД при передаче изображений и фильмов С1 1=5,6.7
СД при передаче ТВ - сигнала С9 10 .11
Заключение
Постоянный рост объемов передаваемой и хранимой информации приводит к перегрузкам средств хранения и каналов передачи данных, что обусловливает необходимость применения сжатия данных. Методов сжатия очень много. Они отличаются по большому числу признаков. Данная статья посвящена систематизации и упорядочению этих признаков. Представлены следующие материа-
лы:
■ Обобщенная структурная схема информационной системы.
■ Конкретные примеры применения методов СД.
■ Подробная классификация методов СД.
■ Таблица соответствия областей применения и методов СД.
Использование результатов данной статьи поможет облегчить ориентирование в
широкой области науки и техники под назва- нием «сжатие данных».
Литература
1. Коллинз Г. Фабрика открытий // В мире науки, 2008 . № 5. С. 3-12.
2. Соловьев В. Ф. Рациональное кодирование при передаче сообщений. - М.: Энергия, 1970. 64 с.
3. Фано Р. Передача информации. Статистическая теория связи. - М.: Мир, 1965. 438 с.
4. Яглом А. М., Яглом И. М. Вероятность и информация. - М.: Наука, 1973. 512 с.
5. Колмогоров А. Н. Три подхода к определению понятия «количество информации» // Проблемы передачи информации, 1965. № 1. С. 3-11.
6. Фитингоф Б. М. Сжатие дискретной информации // Проблемы передачи информации, 1967. № 3.
С. 28-36.
7. Кларин А. П., Шурыгин В. А. Исследование эффективности универсального кодирования в зависимости от длины блока // Проблемы передачи информации, 1984. № 2. С. 105-110.
8. Васильев Н. П., Макаров В. В., Шурыгин В. А. Флэш-память - становление развитие, перспективы // Автоматизация в промышленности, 2011. № 3. С. 55-59.
9. Шурыгин В. А. Флэш-память. - М.: МИФИ, 2011. 116 с.
10. Шурыгин В. А. и др. Метод универсального кодирования двоичных данных // Вопросы радиоэлектроники, 2011. № 2. С. 94-115.
СТРУКТУРНЫЙ ПОДХОД К ФОРМИРОВАНИЮ ИНФОРМАЦИОННОЙ КУЛЬТУРЫ ЛИЧНОСТИ
Р. М. Алгулиев, член-корр. НАНА, д. т. н., директор Тел.: (+99412) 539-01-67, e-mail: [email protected] Р. Ш. Махмудова, зав. учебно-инновационным центром Тел.: (+99412) 510-09-57, e-mail: [email protected] Институт информационных технологий НАНА http://www.ict.az/az
The article considers the issues of information culture of individuals. Various views, approaches to the concept of information culture are studied and different structural approaches are offered. It is shown that the individual information culture consists of the knowledge and skills related to the information reception, saving it, its protection, as well as information processing and presentation; and each of them is investigated separately. To achieve high-level formation of information culture, comprehensive development of knowledge and skills of the people is recommended.
Статья посвящена вопросам формирования информационной культуры. Исследуются различные точки зрения и подходы к понятию «информационная культура» и предложен новый структурный подход. Показано, что структура информационной культуры личности состоит из совокупности знаний и способностей приема, сохранения, обработки, обеспечения защиты и представления информации и каждое из них исследуется в отдельности. Рекомендуется всестороннее развитие этих знаний и способностей у людей.
Ключевые слова: информационная культура, прием информации, запоминание информации, обработка информации, обеспечение защиты информации, представление информации.
Keywords: information culture, information reception, information saving, information processing, information protection, information presentation.
Введение. Человек постоянно находится лепередач, прослушивание музыки, обсужде-
во взаимосвязи с окружающей его информа- ние чего-либо, общение и т. д.
ционной средой (инфосферой). Большая Несмотря на то что люди с момента воз-
часть человеческой деятельности связана никновения человечества на протяжении
именно с информацией: чтение, просмотр те- многих веков занимаются обработкой и об-