Научная статья на тему 'КЛАССИФИКАЦИЯ ФАЙЛОВ И МЕТАДАННЫХ КАК ОБЪЕКТОВ КОМПЬЮТЕРНОЙ ЭКСПЕРТИЗЫ'

КЛАССИФИКАЦИЯ ФАЙЛОВ И МЕТАДАННЫХ КАК ОБЪЕКТОВ КОМПЬЮТЕРНОЙ ЭКСПЕРТИЗЫ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
274
29
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ФАЙЛ / РАСШИРЕНИЕ / КЛАССИФИКАЦИЯ ФАЙЛОВ / МЕТАДАННЫЕ / КЛАССИФИКАЦИЯ МЕТАДАННЫХ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Арутюнов Александр Самcонович, Фаниев Павел Андреевич

Описываются категории файлов и метаданных. Осуществляются анализ и классификация файлов по признаку их расширения, с позиции значимости для следствия получаемой из них информации. Указываются способы определения расширения файла. Приводится классификация метаданных в зависимости от их содержания.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

CLASSIFICATION OF FILES AND METADATA AS OBJECTS OF COMPUTER EXPERTISE

This article describes the categories of files and metadata. The analysis and classification of files on the basis of their extension, from the position of significance for the consequence of the information received from them, is carried out. The classification of metadata depending on their content is given.

Текст научной работы на тему «КЛАССИФИКАЦИЯ ФАЙЛОВ И МЕТАДАННЫХ КАК ОБЪЕКТОВ КОМПЬЮТЕРНОЙ ЭКСПЕРТИЗЫ»

Арутюнов Александр Самоднович Фаниев Павел Андреевич

Классификация файлов и метаданных как объектов компьютерной экспертизы

Описываются категории файлов и метаданных. Осуществляются анализ и классификация файлов по признаку их расширения, с позиции значимости для следствия получаемой из них информации. Указываются способы определения расширения файла. Приводится классификация метаданных в зависимости от их содержания.

Ключевые слова: файл, расширение, классификация файлов, метаданные, классификация метаданных.

Classification of files and metadata as objects of computer expertise

This article describes the categories of files and metadata. The analysis and classification of files on the basis of their extension, from the position of significance for the consequence of the information received from them, is carried out. The classification of metadata depending on their content is given.

Keywords: file, extension, file classification, metadata, metadata classification.

В цифровой среде существует множество файлов, каждый из которых является носителем информации и может стать объектом компьютерной экспертизы. Если рассматривать UNIX-подобные операционные системы, все файлы в них можно разделить на следующие категории:

1) обычные файлы, в которых осуществляется хранение пользовательской информации, например видеозаписей, текстовых документов и т.д.;

2) файлы-каталоги, представляющие собой область на диске для хранения сведений о других файлах; они содержат в себе информацию об именах других файлов, их размере, владельце, дате создания и т.д.;

3) файлы-устройства (специальные файлы), создаваемые операционной системой и являющиеся своеобразным посредником между операционной системой и каким-либо оборудованием;

4) файлы FIFO (First In First Out), являющиеся своего рода каналом между файлами и операционной системой, определяющие порядок и очередность запросов и ответов пользователю либо устройству.

Такая классификация получила распространение в UNIX-подобных операционных системах, поскольку философия архитектуры UNIX сводится к определению, согласно которому «все есть файл». Преимущество использования файлов как для обычной информации, так и для устройств заключается в том, что не нужно реализовать отдельный набор API-интерфейсов для каждого устройства, с ним

могут работать все стандартные утилиты Linux и API-интерфейсы.

Вместе с тем наиболее распространенная операционная система Windows классифицирует файлы в зависимости от типа хранимой информации. Тип информации определяется в зависимости от его расширения. Согласно определению, представленному на сайте национальной библиотеки им. Н.Э. Баумана, «расширение файла (англ. filename extension) -это определенная последовательность букв или цифр, позволяющая операционной системе определить формат файла и необходимое для его запуска приложение» [1]. Расширение, как правило, указывается в имени файла в виде суффикса, например .pdf .doc .zip т.д. Кроме того, оно указывает на программное обеспечение (далее - ПО), необходимое для открытия конкретного файла. Расширения файлов дают информацию о том, какая кодировка файла используется в том или ином случае. Например, файлы с расширениями .jpeg, .gif, .tif имеют разную кодировку и разные функциональные возможности, хотя все они относятся к одной группе расширений графических файлов и могут быть открыты одним и тем же ПО. Например, файл в формате .tif поддерживает возможность просмотра изображения по слоям, если, конечно, ранее слои не были объединены в монолитное изображение. Файлы же в формате .jpeg существуют только в виде однослойного растрового изображения. Зачастую оба этих расширения можно просмотреть, используя одинаковое ПО (например, FastStone Image Viewer, ACDSee и др.). Однако

79

послойно просмотреть изображение, с целью выявления добавленных сторонних элементов возможно только в файле с расширением .tiff. Как правило, при исследовании файлов их расширение уже известно.

Условно все файловые расширения можно разделить на несколько категорий:

базы данных:.dat - DOS Basic, .db - SQLite, .frm - MySQL, .gtable - таблицы Google Drive, .mdb - база данных Microsoft Access, .odb -база данных LibreOffice или OpenOffice и т.д.;

документы: .doc (.docx) - Microsoft Office, .dotx - шаблон Office Open XML, .epub - стандарт для электронных книг, .html (.htm) -язык гипертекста, .md - текстовый документ Markdown, .ott - шаблон OpenDocument и т.д.;

файлы шрифтов: .afm - Adobe Font Metrics, .fond - описание шрифта MacOS, .ttf (.ttc) -шрифты TrueTupe и т.д.;

географическая информационная система (ГИС): .GeoJson - географически расположенные данные в объектной нотации, .GeoTIFF -географически расположенные растровые данные и т.д.;

графика: .jpg, .jpeg - группа экспертной фотографии, .DjVu - формат для отсканированных документов с комбинацией текста, рисунков и т.д., .kra - редактор графики krita, .pict (.pct) - изображение Apple Macintosh PICT, .tiff (.tif) - формат для сохранения изображения без потери качества, .gif - формат графического обмена CompuServe (несмотря на то, что является изображением, в ряде случаев может корректно воспроизводится в видеопроигрывателях) и т.д.;

объектный код, исполняемые файлы, общие и динамические связанные библиотеки: .apk -пакет приложений Android, .dll - библиотека Windows и OS/2, .exe - исполняемый файл DOS и MS-DOS, .jar - архив файлов класса Java, .xpi - архив PKZIP используемый браузерами Mozila для установки ПО, .xex - исполняемый файл для Xbox 360 и т.д.;

менеджеры персональной информации: .msg - диспетчер задач Microsoft Outlook, .pst (.ost) - электронная почта Microsoft Outlook, .sc2 - календарь Microsoft +;

сертификаты и ключи: .ssh - закрытый ключ OpenSSH, .pub - открытый ключ OpenSSH, .ppk - закрытый ключ PuTTY, .nSing - открытый ключ nSing и т.д.;

аудиофайлы: .wav - формат Microsoft Wave (без потери качества звука), .cdda - формат аудио-компакт-диск с цифровым звуком, .wma -Windows Media Audio 9 без потерь качества, .mp3 (.mp1, .mp2) - аудиоформат MPEG c по-

терей качества (цифра в конце имени формата обозначает уровень эффективности сжатия файла относительно степени потерь качества), .aac - расширенное кодирование звука (обычно в контейнере MPEG-4) и т.д.;

электронные таблицы: .xls - рабочий лист Microsoft Excel (97-2003), .xlsm - рабочая книга с поддержкой макросов Microsoft Excel, .ods -электронная таблица OpenDocument, .gsheet -электронная таблица Google Диска и т.д.;

видеофайлы: .flv - флэш-видео, .mkv - формат контейнера Matroska, который позволяет использовать любой видеоформат совместно с субтитрами, подробной метаинформацией и иной информацией, .webm - веб-видео с использованием разметки HTML 5, .3gp - формат видео мобильных телефонов поколения 3G, .m4v - формат видеоконтейнера компании Apple и т.д.;

языки программирования и скрипты: .cs -язык программирования С#, .c - язык программирования C, .cpp - язык программирования C++, .py - язык программирования Python, .js - язык программирования JavaScripts, .php -язык программирования PHP и т.д.

Данная классификация не является исчерпывающей, поскольку существует множество видов расширений и подкатегорий, например группа расширений для виртуальных машин, видеопроизводства и монтажа, расширения игровых движков и т.д. В предложенной классификации указаны категории, исследование которых наиболее целесообразно в рамках проведения экспертизы.

На практике возможны ситуации, когда с целью маскировки содержимого файла изменяют его имя и удаляют суффикс расширения. Пробовать подобрать нужное расширение вручную практически невозможно, поскольку их количество в настоящий момент колоссально. Существует ряд способов решения указанной проблемы.

Первый способ достаточно прост в реализации, если для работы эксперт использует компьютер с предустановленной операционной системой Linux Ubuntu. В ней уже имеется функционал, достаточный для определения большого количества различных расширений, реализуемый путем использования команды file. Для его применения необходимо открыть терминал и ввести команду file «имя исследуемого файла без кавычек». В случае успеха в следующей строке терминала Linux отобразит информацию о расширении файла, а также некоторую информацию о его характеристиках. Например, если файл окажется с расширением

80

.рпд, дополнительно будет выведена информация о его разрешении, используемой цветовой схеме и разверстке файла. Если искомое расширение не было установлено,целесообразно открыть файл в шестнадцатеричной форме с использованием НЕХ-редактора с целью получения информации о заголовке файла (чаще всего указываемой в первых двух байтах). С помощью этих сведений можно определить расширение файла, используя специальные ресурсы, размещенные в сети Интернет. Этот метод был предложен и наиболее полно описан в статье Д.Л. Петрянина, Н.В. Горячева и Н.К. Юркова «К проблеме анализа и определения типа файла» [2], опубликованной в 2015 г. в журнале «Новые информационные технологии в автоматизированных системах».

Расширение файла относится к категории административной метаинформации о файле (далее - метаданные). Кроме него каждый файл дополнительно обладает еще некоторым набором характеризующих его метаданных. Существуют следующие основные типы метаданных:

1) описательные - включают в себя такие графы информации, как автор, аннотация к содержанию, ключевые слова [3];

2) структурные - содержат информацию об организации элементов данных, их структуре и взаимосвязи [4];

3) административные - представляют информацию о происхождении ресурсов, их расширении и правах доступа [5];

4) справочные - содержат информацию о содержании файла;

5) статистические - представляют собой статистические сведения о файле, а также сведения о концепции и практической реализации собираемой статистической метаинформации;

6) юридические - содержат сведения об авторе, авторских правах и публичном лицензировании.

Все метаданные могут быть как сформированы автоматически используемым ПО при сохранении (создании) файла, так и добавлены автором вручную.

Несмотря на обилие представляемой информации, в файлах, как правило, заполняются далеко не все графы описанной выше мета-информации. Наиболее часто заполняемыми графами являются:

1) средства создания данных (как правило, наименование ПО);

2) дата и время создания и изменения;

3) создатель или автор файла;

4) расположение в компьютерной сети, где были созданы данные;

5) расширение файла и иная административная информация.

Помимо этого, существуют метаданные, присущие исключительно конкретному файловому расширению или целой категории расширений. Так, метаданные файлов графических изображений (например .jpeg, .tif, .png) могут включать в себя сведения о разрешении изображения, глубине цвета, выдержке, геолокации места, где был произведен фотоснимок, и т.д. В свою очередь, файлы текстовых документов (например, .txt, .doc) будут содержать метаинформацию о длине документа, количестве строк, количестве знаков, типе содержимого файла, используемом шаблоне и т.д.

Кроме того, существует отдельная категория метаданных, которые не связаны с файлами как с таковыми, а используются в качестве идентификаторов в Интернете и формируют цифровую личность. При работе с различными интернет-ресурсами используемый браузер передает на них определенный набор информации. Наиболее часто такой информацией являются:

1. Аппаратное и программное обеспечение -к ним относятся сведения о самом браузере и его плагинах, ip-адрес, данные об операционной системе, информация о центральном и графическом процессорах, об аккумуляторных батареях (уровень заряда и состояние износа). Кроме того, осуществляется сбор сведений о поддержке устройством сенсорного экрана (что может свидетельствовать о том, использовался ли для соединения с сайтом персональный компьютер или смартфон), размере экрана и т.д.

2. Геолокация - веб-сайт может определять местоположение пользователя (даже в том случае, если ему не был предоставлен доступ к GPS-координатам, так как вместо них он может использовать Google GeoLocation API). Примечателен тот факт, что компания Google ведет сбор информации о перемещении пользователей, используя их смартфон с активированной учетной записью gmail. Перейдя с какого-либо устройства в приложение «Google Карты» (при условии активной учетной записи), можно просмотреть историю своих передвижений.

3. Истории просмотров web-страниц - браузер собирает данные, используя их для предоставления пользователю контекстной рекламы. В случае удаления этой информации она может быть сохранена на удаленном сервисе используемого браузера. Например, компания Google ведет сбор и хранение историй посещений страниц в Интернете с использованием Google Chrome.

81

4. Ориентация устройства в пространстве -практически все современные смартфоны оснащены встроенными гироскопами и компасами. Это необходимо для корректной работы различных фитнес-трекеров, VR/AR приложений и игр. В то же время эти сведения передаются в Интернет для сбора технических статистических сведений.

5. Информация об аутентификации в каких-либо социальных медиа - эта информация в своем изначальном виде также предназначена для предоставления соответствующей контекстной рекламы.

6. Шрифты и языки - сведения, собираемые для корректного взаимодействия с web-ресур-сами.

1. Словарь библиотеки им. Н.Э. Баумана [Электронный ресурс]. URL: https://ru.bmstu. wiki/Расширение_ файла/

2. Петрянин Д.Л., Горячев Н.В., Юрков Н.К. К проблеме анализа и определения типа файла // Новые информационные технологии в автоматизированных системах. 2015. № 18. С. 118-127.

3. Understanding metadata [Электронный ресурс]. URL: https://groups.niso.org/higherlogic/ ws/public/download/17446/Understanding%20 Metadata.pdf

4. William Y. Arms, Christophe Blanchi, Edward A. An Architecture for Information in Digital Libraries [Web resource] // D-Lib Magazine, February, 1997. URL: http://www.dlib.org/dlib/february97/ cnri/02arms1.html

5. Reference metadata [Электронный ресурс] // Глоссарий статистических терминов ОЭСР (Организация экономического сотрудничества и развития). URL: https://stats.oecd. org/glossary/detail.asp?ID=7076

7. Метаданные изображений - при загрузке каких-либо фотографий в Интернет браузер (либо используемое приложение) анализирует метаданные и передает их на сайт. Например, при загрузке фотографий в переписку с пользователем социальной сети «ВКонтакте» при ее просмотре будет отображаться информация о месте съемки.

Значимость проведенной в статье классификации файлов в зависимости от их расширения и целесообразности исследования с целью получения оперативно значимой информации, важность характеристики метаданных файлов, их основных видов обусловлены необходимостью систематизации имеющихся знаний для современной криминалистической науки и практики.

1. Dictionary of the library named after N.E. Bauman [Web resource]. URL: https://ru.bmstu. wiki/File_Extension/

2. Petryanin D.L., Goryachev N.V., Yurkov N.K. On the problem of analysis and determination of the file type // New information technologies in automated systems. 2015. No. 18. P. 118-127.

3. Understanding metadata [Web resource]. URL: https://groups.niso.org/higherlogic/ws/public/ download/17446/Understanding%20Metadata.pdf

4. William Y. Arms, Christophe Blanchi, Edward A. An Architecture for Information in Digital Libraries [Web resource] // D-Lib Magazine, February, 1997. URL: http://www.dlib.org/dlib/february97/ cnri/02arms1.html

5. Reference metadata [Web resource] // Glossary of Statistical Terms OECD (Organization for Economic Cooperation and Development). URL: https://stats. oecd. org/glossary/detail. asp ?I D=7076

СВЕДЕНИЯ ОБ АВТОРАХ

Арутюнов Александр Самсонович, кандидат юридических наук, доцент, начальник кафедры судебно-экспертной деятельности Краснодарского университета МВД России; тел.:+78612583831;

Фаниев Павел Андреевич, эксперт организационно-методического отдела экспертно-криминалистического центра ГУ МВД России по Краснодарскому краю, адъюнкт кафедры судебно-экспертной деятельности Краснодарского университета МВД России; тел.: +78612135457.

INFORMATION ABOUT AUTHORS

A.S. Arutyunov, Candidate of Sciences in Jurisprudence, Associate Professor, Chief of the Department of Forensic Expert Activity, Krasnodar University of the Ministry of the Interior of Russia; ph.: +78612583831;

P.A. Faniev, Expert of the Organizational and Methodological Department of the Forensic Center, Main Directorate of the Ministry of Internal Affairs of Russia for the Krasnodar Territory, Adjunct of the Department of Forensic Expert Activity, Krasnodar University of the Ministry of the Interior of Russia; ph.: +78612135457.

82

i Надоели баннеры? Вы всегда можете отключить рекламу.