Научная статья на тему 'Сжатие текстовых данных'

Сжатие текстовых данных Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
413
67
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
АРХИВАЦИЯ / СЖАТИЕ / ВИРУСЫ / АРХИВАТОР

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Петрянин Д. Л., Сидорова Е. А., Зорькин А. В.

Проводится сравнительный анализ архиваторов по степени сжатия и времени процесса. Для анализа используются текстовые типы данных TXT, DOCX, DOC и RTF.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Сжатие текстовых данных»

Сжатие текстовых данных

Петрянин Д. Л., Сидорова Е.А.,

ФГБОУВПО «Пензенский государственный университет», [email protected], г. Пенза, Россия

Зорькин А.В.

ФГБОУВПО «Пензенский государственный университет»,

Аннотация: Проводится сравнительный анализ архиваторов по степени сжатия и времени процесса. Для анализа используются текстовые типы данных TXT, DOCX, DOC и RTF.

Ключевые слова: архивация, сжатие, вирусы, архиватор.

Архиватор — программа, осуществляющая сжатие и/или упаковку одного и более файлов в архив или серию архивов, для удобства переноса или хранения , а также распаковку архивов.

На сегодняшний день существует множество архиваторов: некоторые из них устарели и практически не используются. Каждый архиватор обладает своими достоинствами и недостатками, такими как скорость сжатия и степень сжатия. Эти характеристики — обратно зависимые величины. То есть, чем больше скорость сжатия, тем меньше степень сжатия, и наоборот.

Архивация все чаще используется при передаче данных через локальные сети или/и сети Интернет, для экономичности трафика и времени передачи. В настоящее время сжатие данных является трудоемкой задачей. Дело в том, что большинство пользователей или владельцев (авторов) информации хранят различную информацию в сжатом виде (в архивах) [Петрянин, 2013; Алексеев, 2012], что уменьшает размер и в некоторой степени защищает ее, например, от вирусов [Бростилов, 2010; Ольхов, 2012]. Само сжатие данных обычно происходит значительно медленнее, чем обратная операция (разархивирование), т.к. при сжатии происходит поиск одинаковых цепочек данных, с последующей их заменой, в меньшем количестве.

Пропускная способность каналов связи более дорогостоящий ресурс, чем дисковое пространство, по этой причине сжатие данных до или во время их передачи еще более актуально [Горячев, 2010; Бростилов, 2011, Бростилова, 2013]. Здесь целью сжатия информации является экономия пропускной способности и в конечном итоге ее увеличение. Все известные алгоритмы сжатия сводятся к шифрованию входной информации, а принимающая сторона выполняет дешифровку принятых данных [Григорьев, 2011; Жизняков, 2012; Секретов, 2012].

Сжатие текстовых данных

Для сжатия того или иного файла или группы файлов, необходимо выбрать архиватор с наивысшим коэффициентом сжатия, т.е. получить в результате архив с наименьшим размером.

Сжатие текстовых данных обычно происходит намного быстрее, чем остальных типов данных.

Проведем эксперимент: произведем сжатие 4 распространенных текстовых типов данных: TXT, DOCX, DOC и RTF. В каждый из данных файлов будет находиться один и тот же текст (малого объема - 135 слов (1054 знака), без форматирования). Количество используемых архиваторов: 11 (RAR, 7z, ZIP, ARJ, UC2, GZ, LHA (LZH), TGZ, DST, RK и CAB). Результаты сжатия по размерам приведены в таблице 1, а по времени сжатия - в таблице 2.

Таблица 1 Результаты сжатия по размерам (в байтах)

Файл Размер файла RAR N Г- Сц ч-Н N ARJ UC2 GZ LZH TGZ DST RK CAB •s S S 1 С нный апхива

тхт 1058 61 2 72 6 84 1 68 8 15 55 59 2 61 0 84 1 61 6 64 0 72 3 59 2 GZ

DOCX 1095 84 84 86 84 10 83 83 86 83 91 84 10 UC

1 43 35 23 66 41 70 90 32 50 20 64 41 2

DOC 2816 60 56 63 62 72 58 61 63 59 59 59 56 7z

0 06 01 11 19 09 83 15 59 83 56 79 01

RTF 3758 71 74 83 83 92 75 82 85 76 76 80 71 RA

2 34 02 49 51 65 34 94 92 42 84 53 34 R

Таблица 2 Результаты сжатия по времени сжатия (в мс)

Файл Размер файла RAR N O CU ч-t N s UC2 4 О LZH TGZ DST 04 CAB ■a 1 Выбран ный архиват nn

TXT 1058 78 61 45 46 297 31 31 46 79 93 93 31 GZ/LZH

DOCX 10951 469 47 469 108 312 61 78 62 124 94 218 47 7z

DOC 28160 124 63 31 78 295 78 46 63 92 78 93 31 zip

RTF 37582 93 46 63 46 282 124 46 45 141 78 110 45 TGZ

Из приведенных выше результатов (таблицы 1 и 2) видно, что архиваторы, имеющие максимальный размер сжатия не имеют минимального времени сжатия и наоборот [Лысенко, 2011; Царев, 2010; Юрков, 2012]. Несмотря на то, что во всех файлах, участвовавших в эксперименте, находился один и тот же текст, результаты сжатия оказались разными, т.к. бинарное содержание каждого файла различается.

Таким образом, выбор требуемого архиватора должен производиться с учетом данных характеристик. Список литературы

[Алексеев, 2012] Алексеев В.М. Периодичность проверок условий обработки персональных данных при риск-ориентированном внутреннем контроле соответствия

обработки требованиям к защите персональных данных / В.М. Алексеев, C.JI. Зефиров // Труды международного симпозиума Надежность и качество. 2012. Т. 1. С. 142-145.

[Бростилов, 2010] Бростилов С.А. Волоконно-оптический датчик давления на основе туннельного эффекта / С. А. Бростилов, Т. И. Мурашкина, Т. Ю. Бростилова // Известия высших учебных заведений. Поволжский регион. Технические науки. - 2010. - № 4. -С. 106-117.

[Бростилов, 2011] Бростилов С.А. Волоконно-оптические кабели для волоконно-оптических датчиков / С.А. Бростилов, Т.И. Мурашкина, Т.Ю. Бростилова, А.Ю. Удалов, A.B. Архипов // Труды международного симпозиума Надежность и качество. 2011. Т. 2. С. 108-111.

[Бростилова, 2013] Бростилова Т.Ю. Волоконно-оптический датчик деформации / Т.Ю. Бростилова, С.А.Бростилов, Т.И. Мурашкина // Надежность и качество сложных систем . 2013. № 1. С. 93-99.

[Горячев, 2010] Горячев Н.В. Индикатор обрыва предохранителя как элемент первичной диагностики отказов РЭА / Н.В. Горячев, Н.К. Юрков // Труды международного симпозиума Надежность и качество. 2010. Т. 2. С. 78-79.

[Григорьев, 2011] Григорьев A.B. Критерий обнаружения объектных фрагментов штрихового изображения в полутоновом / A.B. Григорьев, АЛ. Држевецкий // Труды международного симпозиума Надежность и качество. 2011. Т. 2. С. 310-312.

[Жизняков, 2012] Жизняков A.JI. Анализ возможностей применения фрактальных методов в промышленных системах обработки изображений / A.JI. Жизняков, Д.Г. Привезенцев // Труды международного симпозиума Надежность и качество. 2012. Т. 2. С. 385-386.

[Лысенко, 2011] Лысенко A.B. Краткий обзор методов имитационного моделирования / A.B. Лысенко, Н.В. Горячев, И.Д. Граб, Б.К. Кемалов, Н.К. Юрков // Современные информационные технологии. 2011. № 14. С. 171-176.

[Ольхов, 2012] Ольхов, Д. В. Система обработки экспериментальной информации в проектных исследованиях радиотехнических устройств/Д. В. Ольхов, А. В. Затылкин, Н.К. Юрков//Известия ЮФУ. Технические науки. -2012. № 5. -С. 94-99.

[Петрянин, 2013] Петрянин ДЛ. Анализ систем защиты информации в базах данных / ДЛ. Петрянин, Н.В. Горячев, Н.К. Юрков // Труды международного симпозиума Надежность и качество. 2013. Т. 1. С. 115-122

[Секретов, 2012] Секретов М.В. Защита персональных данных больных социально значимыми заболеваниями биометрическим обезличиванием электронных историй болезни / М.В. Секретов, Б.С. Ахметов, И.В. Сериков, К.Т. Сауанова // Труды международного симпозиума Надежность и качество. 2012. Т. 2. С. 289-289.

[Царев, 2010] Царев А.Г. Критерии оптимальной фильтрации видеосигналов изображений / А.Г. Царев, В.Я. Баннов // Труды международного симпозиума Надежность и качество. 2010. Т. 2. С. 458-459.

[Юрков, 2012] Юрков Н.К. Концепция синтеза сложных наукоемких изделий / Н.К. Юрков // Труды международного симпозиума Надежность и качество. 2012. Т. 1. С. 3-5

i Надоели баннеры? Вы всегда можете отключить рекламу.