Научная статья на тему 'Сжатие данных'

Сжатие данных Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
1043
99
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СЖАТИЕ ДАННЫХ / DATA COMPRESSION / СЖАТИЕ БЕЗ ПОТЕРИ / LOSSLESS / СЖАТИЕ С ПОТЕРЯМИ / LOSSY / ИНФОРМАЦИЯ / INFORMATION / СИГНАЛ / SIGNAL

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Дык Буй Минь, Хуи Нгуен Нгок, Линь Лай Тхи, Хю Нгуен Ба, Чыонг Нгуен Динь

Сжатие данных очень полезно применять в коммуникационной связи, потому что оно позволяет устройствам передавать или хранить одно и то же количество информации в меньшем числе битов. Сжатие может быть либо без потери, либо с потерями. Сжатие данных постоянно используется в сохранении данных, передаче информации, утилите резервного копирования, электронных таблицах и системе управления базами данных. Есть различные методы сжатия данных, но лишь немногие из них являются стандартизированными. Эта статья даёт вам знание о сжатии данных и его применении.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Дык Буй Минь, Хуи Нгуен Нгок, Линь Лай Тхи, Хю Нгуен Ба, Чыонг Нгуен Динь

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Сжатие данных»

2. Голованов В. Как работает Tor. [Электронный ресурс]. Режим доступа: https://geektimes.ru/post/277578/ (дата обращения: 22.06.2016).

3. Tor. [Электронный ресурс]. Режим доступа: https://ru.wikipedia.org/wiki/Tor/ (дата обращения: 22.06.2016).

DATA COMPRESSION Duc B.1, Huy N.2, Linh L.3, Huy N.4, Truong N.5, Lam N.6 СЖАТИЕ ДАННЫХ Дык Б. М.1, Хуи Н. Н.2, Линь Л. Т.3, Хю Н. Б.4, Чыонг Н. Д.5, Лам Н. Ч.6

'Дык Буй Минь /Duc Bui — магистрант, кафедра программных систем, факультет инфокоммуникационных технологий; 2Хуи Нгуен Нгок / Huy Nguyen — студент;

3Линь Лай Тхи /Linh Lai — студент, кафедра проектирования и безопасности компьютерных систем, факультет информационной безопасности и компьютерных технологий;

4Хю Нгуен Ба /Huy Nguyen — студент;

5Чыонг Нгуен Динь / Truong Nguyen — студент, кафедра систем управления и информатики, факультет систем управления и робототехники; 6Лам Нгуен Чонг /Lam Nguyen — студент, кафедра проектирования и безопасности компьютерных систем, факультет информационной безопасности и компьютерных технологий, Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики, г. Санкт-Петербург

Аннотация: сжатие данных очень полезно применять в коммуникационной связи, потому что оно позволяет устройствам передавать или хранить одно и то же количество информации в меньшем числе битов. Сжатие может быть либо без потери, либо с потерями. Сжатие данных постоянно используется в сохранении данных, передаче информации, утилите резервного копирования, электронных таблицах и системе управления базами данных. Есть различные методы сжатия данных, но лишь немногие из них являются стандартизированными. Эта статья даёт вам знание о сжатии данных и его применении. Abstract: data compression is particularly useful in communications because it enables devices to transmit or store the same amount of data in fewer bits. Data compression can be either lossless or lossy. Data compression is widely used in saving data, transmitting informations, backup utilities, spreadsheet applications, and database management systems. There are a variety of data compression techniques, but only a few have been standardized. This article will give you knowledge about data compression and its application.

Ключевые слова: сжатие данных, сжатие без потери, сжатие с потерями, информация, сигнал. Keywords: data compression, lossless, lossy, information, signal.

При обработке сигналов, сжатие данных, кодирования источника, или bit-rate reduction включается информация кодирования с использованием меньшего количества битов, чем в исходной представленной информации. Сжатие данных - это алгоритмические преобразования данных, производимые с целью уменьшения занимаемого ими объёма. Применяется для более рациональных использований устройств передачи и хранения данных. Сжатие - это очень полезный процесс, так как оно уменьшает ресурсы, необходимые для хранения и передачи данных. Сжатие может быть с потерями (Lossy) или без потери (Lossless). При использовании сжатия без потери сжатые данные могут быть восстановлены с точностью до бита. При этом исходные данные восстанавливаются полностью из сжатого состояния. При использовании сжатия с потерей восстановленные данные отличаются от исходных. Для каждого типа цифровой информации существуют свои оптимальные алгоритмы сжатия, зависит от точки зрения их дальнейшего использования [1].

Сжатие без потери (Lossless) уменьшает биты путем выявления и устранения статистической избыточности. Никакая информация не теряется в сжатии без потерь. Сжатие без потери возможно потому, что большинство реальных данных показывает статистическую избыточность. Например, изображение может иметь области цвета, которые не изменяются в нескольких последовательных пикселях; вместо кодирования «красный пиксель, красный

пиксель, ...» данные могут быть закодированы как «100 красных пикселей». Основной принцип алгоритмов сжатия базируется на том, что в любом файле, содержащем неслучайные данные, информация частично повторяется. Используя статистические математические модели можно определить вероятность повторения определённой комбинации символов. После этого можно создать коды, обозначающие выбранные фразы, и назначить самым часто повторяющимся фразам самые короткие коды. Для этого используются разные техники, например: энтропийное кодирование, кодирование повторов и сжатие при помощи словаря. С их помощью 8-битный символ, или целая строка, могут быть заменены всего лишь несколькими битами, устраняя таким образом излишнюю информацию [2]. Сжатие без потери используется в тех случаях, когда важно, чтобы оригинальные и распакованные данные были идентичными, или где отклонение от исходных данных может быть вредно. Типичными примерами являются исполняемые программы, текстовые документы и исходный код. Некоторые форматы файлов изображений, как PNG или GIF, используют только сжатие без потерь. Lossless форматы аудио часто используются для архивирования или производственных целей. Есть много методов сжатия без потери, для конкретной цели сжатия существует определенные методы. Например, для сжатия аудио существуют следующие методы: Free Lossless Audio Codec — FLAC, WMA Lossless — Windows Media Lossless, RealPlayer — RealAudio Lossless, Apple Lossless — ALAC (Apple Lossless Audio Codec) и др. Для сжатия графики можно использовать методы: GIF — (без потерь только для изображений содержащих не более 256 цветов), Lossless JPEG — (расширение стандарта сжатия JPEG, обеспечивающее сжатие без потерь), PNG — Portable Network Graphics, PGF — Progressive Graphics File (сжатие с/без потерь) и др.

Сжатие с потерями (Lossy) означает, что после распаковки полученные данные, несколько отличаются от первоначальных. Но в этом случае потери информации является приемлемыми. Опуская незначащие детали из источника данных, можно сэкономить место для хранения. Методы сжатия данных с потерями разработаны исследованиями о том, как люди воспринимают данные. Например, человеческий глаз более чувствителен к тонким изменениям в яркости, чем к изменениям в цвете. Сжатие изображений JPEG работает частично путем округления незначащих битов информации. Существует соответствующий компромисс между сохранением информации и уменьшенным размером. Ряд популярных форматов сжатия используют эти перцептивные различия, в том числе те, которые используются в музыкальных файлах, изображениях и видео [3]. Сжатие с потерями изображений может использоваться в цифровых камерах, для увеличения емкости хранения с минимальной потерей качества. Аналогично в DVD-дисках используют метод MPEG-2 для сжатия видео. В сжатии с потерями звука, методы психоакустики используются для удаления неслышимых (или менее слышимых) компонентов звукового сигнала. Сжатие человеческой речи часто осуществляется с еще более специализированной методикой, кодирование речи или кодирование голоса иногда выделяется как отдельная дисциплина в сжатии аудио. Сжатие голоса используется в Интернет-телефонии, например, аудио-сжатия используется для копирования компакт-дисков, и декодированных аудиопроигрывателей. У методов сжатия с потерями (Lossy) есть несколько недостатков. Один из них состоит в том, что с каждыми повторными сжатием и распоковкой погрешности будут накапливаться все больше и больше [4].

Каждые виды сжатия данных имеют свои достоинства и недостатки, поэтому они используются для различных целей. Сжатие без потери используются для компрессии данных, в случае требуют исходные и распакованные данные должны быть идентичными. Сжатие с потерями применяется, когда небольшое отличие между первоначальными и востановленными приемлемо цели пользования.

Литература

1. Data compression // wikipedia, 2016. [Electronic resource]. URL: https://en.wikipedia.org/wiki/Data_compression/ (date of access: 09.12.2016).

2. Голованов В. Алгоритмы сжатия данных без потерь // habrahabr. [Электронный ресурс]. Режим доступа: https://habrahabr.ru/post/231177/ (дата обращения: 26.07.2014).

3. Сжатие данных с потерями // Wikipedia. [Электронный ресурс]. Режим доступа: https://m.wikipedia.org/wiki/Сжатие_данньIх_с_потерями/ (дата обращения: 26.07.2016).

4. Сжатие информации с потерями // author24. [Электронный ресурс]. Режим доступа: https://author24.ru/spravochniki/informatika/kodirovanie_informacii/szhatie_informacii_s_poterya mi/ (дата обращения: 13.01.2017).

i Надоели баннеры? Вы всегда можете отключить рекламу.