Научная статья на тему 'ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ ДЛЯ ВЫЯВЛЕНИЯ ЗАПРЕЩЕННОГО ТЕКСТОВОГО КОНТЕНТА'

ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ ДЛЯ ВЫЯВЛЕНИЯ ЗАПРЕЩЕННОГО ТЕКСТОВОГО КОНТЕНТА Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
149
20
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ЭЛЕКТРОННЫЕ ИНФОРМАЦИОННЫЕ РЕСУРСЫ / ТЕКСТОВЫЕ ФАЙЛЫ / ИНФОРМАЦИОННАЯ БЕЗОПАСНОСТЬ / ГРАФИЧЕСКИЕ ФАЙЛЫ / ЗАПРЕЩЕННЫЙ КОНТЕНТ / ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ / ВЫЧИСЛИТЕЛЬНАЯ ЭФФЕКТИВНОСТЬ / БАЗЫ ДАННЫХ / ВЫЧИСЛИТЕЛЬНЫЕ ЭКСПЕРИМЕНТЫ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Суслов А.В., Ажмухамедов И.М.

Введение законодательного регулирования содержания информационных ресурсов обострило проблему автоматического обнаружения и блокирования, содержащегося в них запрещенного контента. Он может находиться в файлах на внутренних жестких дисках ЭВМ и серверов; на внешних носителях информации (внешние жесткие диски, флэш-накопители, лазерные диски), а также в облачных хранилищах. Авторами было проведено сравнение существующего программного обеспечения для анализа содержимого файлов. При этом были выявлены следующие недостатки: имеющееся программное обеспечение позволяет выявлять наличие заданного контента только в текстовых файлах, но не в файлах с графикой; обладает недостаточными возможностями задания областей сканирования. Поэтому был предложен алгоритм и реализующее его программное обеспечение для выявления запрещенного контента в текстовых и графических файлах с возможностью задания области поиска (директорий и всех содержащихся в ней поддиректорий). Для предлагаемого авторами программного обеспечения и уже существующих аналогов было проведено сравнение результатов поиска на тестовом материале (совокупности файлов общим объемом порядка 20 Гб). Поиск проводился по совокупности заданных словосочетаний, соответствующих типичному запрещенному контенту. Результаты сравнения показывают преимущество предложенного алгоритма и программного обеспечения перед существующими в следующих отношениях: по скорости обработки информации; по возможностям выявления запрещенного контента в графических файлах. При этом доля выявляемых файлов с запрещенным контентом в предлагаемом авторами программном обеспечении существенно выше, чем в большинстве других разработок.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Суслов А.В., Ажмухамедов И.М.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

SOFTWARE FOR SEARCHING FOR PROHIBITED TEXT CONTENT ON MACHINE MEDIA

The implementation of legislative control of the information resources content exacerbated the problem of automatic detection and blocking of the prohibited content contained in them. It can be in files on internal hard disks of computers and servers; on external storage media (external hard drives, flash drives, laser disks), as well as in cloud storage. The authors compared existing software to analyze the content of files. The following shortcomings were revealed: common software identifies the presence of certain content only in text files, but not in files with graphics; the given software provides not sufficient limitations to the range of scan. Therefore, an algorithm and software that implements it to identify prohibited content in text and image files was proposed. For the software offered by the authors and its already existing analogues, a comparison of the search results on the test material (the total number of files sized approximately 20 GB) was made. The search was performed on a set of given word combinations peculiar to a typical forbidden content. The results of comparison show the advantage of the proposed algorithm and software over existing ones in the following relations: in the speed of information processing; in the possibilities of detecting prohibited content in graphic files. In addition, the ratio of detected files with prohibited content is much higher in using the software proposed by the authors.

Текст научной работы на тему «ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ ДЛЯ ВЫЯВЛЕНИЯ ЗАПРЕЩЕННОГО ТЕКСТОВОГО КОНТЕНТА»

УДК 004.422

ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ ДЛЯ ВЫЯВЛЕНИЯ ЗАПРЕЩЕННОГО ТЕКСТОВОГО КОНТЕНТА

Статья поступила в редакцию 30.03.2018, в окончательном варианте — 13.06.2018.

Суслов Александр Владимирович, Астраханский государственный университет, 414056, Российская Федерация, г. Астрахань, ул. Татищева, 20а,

студент, e-mail: alex.-suslov@mail.ru

Ажмухамедов Искандар Маратович, Астраханский государственный университет, 414056, Российская Федерация, г. Астрахань, ул. Татищева, 20а

доктор технических наук, доцент, https://elibrary.ru/author_profile.asp?authorid=499666, e-mail: aim_agtu@mail.ru

Введение законодательного регулирования содержания информационных ресурсов обострило проблему автоматического обнаружения и блокирования, содержащегося в них запрещенного контента. Он может находиться в файлах на внутренних жестких дисках ЭВМ и серверов; на внешних носителях информации (внешние жесткие диски, флэш-накопители, лазерные диски), а также в облачных хранилищах. Авторами было проведено сравнение существующего программного обеспечения для анализа содержимого файлов. При этом были выявлены следующие недостатки: имеющееся программное обеспечение позволяет выявлять наличие заданного контента только в текстовых файлах, но не в файлах с графикой; обладает недостаточными возможностями задания областей сканирования. Поэтому был предложен алгоритм и реализующее его программное обеспечение для выявления запрещенного контента в текстовых и графических файлах с возможностью задания области поиска (директорий и всех содержащихся в ней поддиректорий). Для предлагаемого авторами программного обеспечения и уже существующих аналогов было проведено сравнение результатов поиска на тестовом материале (совокупности файлов общим объемом порядка 20 Гб). Поиск проводился по совокупности заданных словосочетаний, соответствующих типичному запрещенному контенту. Результаты сравнения показывают преимущество предложенного алгоритма и программного обеспечения перед существующими в следующих отношениях: по скорости обработки информации; по возможностям выявления запрещенного контента в графических файлах. При этом доля выявляемых файлов с запрещенным контентом в предлагаемом авторами программном обеспечении существенно выше, чем в большинстве других разработок.

Ключевые слова: электронные информационные ресурсы, текстовые файлы, информационная безопасность, графические файлы, запрещенный контент, поиск контента, методики поиска, программное обеспечение, вычислительная эффективность, базы данных, вычислительные эксперименты

Графическая аннотация (Graphical annotation)

SOFTWARE FOR SEARCHING FOR PROHIBITED TEXT CONTENT ON MACHINE MEDIA

The article was received by editorial board on 30.03.2018, in the final version — 13.06.2018.

Suslov Aleksandr V., Astrakhan State University, 20a Tatishchev St., Astrakhan, 414056, Russian Federation

Student, e-mail: alex.-suslov@mail.ru

Azhmukhamedov Iskandar M., Astrakhan State University, 20a Tatishchev St., Astrakhan, 414056, Russian Federation

Doct. Sci. (Engineering), Associate Professor, https://elibrary.ru/author_profile.asp?authorid=499666, e-mail: aim_agtu@mail.ru

The implementation of legislative control of the information resources content exacerbated the problem of automatic detection and blocking of the prohibited content contained in them. It can be in files on internal hard disks of computers and servers; on external storage media (external hard drives, flash drives, laser disks), as well as in cloud storage. The authors compared existing software to analyze the content of files. The following shortcomings were revealed: common software identifies the presence of certain content only in text files, but not in files with graphics; the given software provides not sufficient limitations to the range of scan. Therefore, an algorithm and software that implements it to identify prohibited content in text and image files was proposed. For the software offered by the authors and its already existing analogues, a comparison of the search results on the test material (the total number of files sized approximately 20 GB) was made. The search was performed on a set of given word combinations peculiar to a typical forbidden content. The results of comparison show the advantage of the proposed algorithm and software over existing ones in the following relations: in the speed of information processing; in the possibilities of detecting prohibited content in graphic files. In addition, the ratio of detected files with prohibited content is much higher in using the software proposed by the authors.

Keywords: electronic information resources, text files, information security, graphic files, prohibited content, search for content, search techniques, software, computational efficiency, databases, computational experiments

Введение. Развитие компьютерных технологий открыло для человечества беспрецедентные возможности автоматизации умственной работы и привело к резкому увеличению объемов информации, с которыми может оперировать пользователь; к созданию большого числа различных информационно-поисковых систем; к появлению и развитию принципиально новых технологий. К сожалению, целью некоторых из них является распространение вредоносных программ, фальсифицированной или искаженной информации, вывод из строя компьютерных систем и пр.

При таких условиях необходимость обеспечения высокого уровня информационной безопасности (ИБ) в рамках использования информационно-телекоммуникационных технологий является одной из приоритетных задач, стоящих как перед коммерческими и бюджетными организациями, так и перед отдельными физическими лицами [9].

Одной из существенных проблем, возникших вследствие развития таких технологий, является неконтролируемое распространение деструктивного контента в информационном пространстве Российской Федерации.

Деструктивная информация может размещаться на сайтах, отправляться через программы обмена сообщениями, распространяться посредством рассылок электронных писем, передаваться на внешних носителях. Однако у нее, как правило, есть некоторый источник в виде файлов, размещенных на энергонезависимом носителе.

Согласно законодательству Российской Федерации некоторые виды информации, направленные на разжигание межнациональной, религиозной, межрасовой розни, содержащие призывы к подрыву авторитета государственной, законно-выбранной власти, также имеющие суицидальную направленность и т.п., запрещены к распространению в РФ [6].

Введение в России законодательного регулирования содержания информационных ресурсов делает проблему автоматического обнаружения и блокирования запрещенного контента актуальной. Такой контент может находиться в файлах на внутренних жестких дисках ЭВМ и на внешних носителях информации (внешние жесткие диски, флэш-накопители, лазерные диски).

В существующих программных средствах для поиска заданной текстовой информации отсутствует возможность анализа текста, представленного в виде изображений (сканированные документы, фотографии, рисунки). Поисковые запросы в существующем ПО необходимо вводить вручную при каждом запуске. Это значительно увеличивает время, необходимое для проведения поиска; усложняет процесс работы при наличии сложной структуры поддиректорий, в которых хранятся файлы.

В имеющихся в настоящее время публикациях проблематика поиска запрещенного контента, содержащегося в файлах, отражена слабо. Поэтому целью данной работы стало создание алгоритма и ПО для поиска запрещенного контента в текстовых и графических файлах с возможностью получения критериев такого поиска из внешней базы данных; сравнительная оценка результативности и вычислительной эффективности предложенного ПО и существующего на тестовых наборах данных.

Алгоритмы поиска информации на машинных носителях. Необходимость обследования машинных носителей с целью установления наличия на них деструктивной и/или запрещенной информа-

ции возникает при расследовании фактов распространения запрещенной информации и подозрений на хранение запрещенной литературы в электронном виде; в рамках проведения оперативно розыскных и/или следственных мероприятий. Структуру хранения данных на машинном носителе можно представить в виде разветвленного графа. Поэтому для сканирования данной структуры целесообразно использовать алгоритмы поиска на графах. Для правильной работы алгоритма поиска необходимо, чтобы ПО проверяло все файлы. Поэтому алгоритм поиска должен являться неинформированным (неинформированный поиск - это поиск, в котором дополнительная информация о состояниях, отличных от того, которое будет частью задачи, не используется [23]).

К алгоритмам неинформированного поиска относятся [22] поиск в глубину; поиск в ширину; двунаправленный поиск.

Поиск в глубину - стратегия поиска решений в пространстве состояний, в которой всегда разворачивается самый глубокий узел на текущей периферии дерева поиска. При поиске в глубину анализируется первый преемник текущего узла, затем первый преемник для него и так далее (рис. 1). Развернутые узлы удаляются с периферии. Поэтому в будущем поиск возобновляется со следующего самого поверхностного узла, который все еще имеет не выявленных наследников [14].

Поиск в ширину - это алгоритм для перемещения и/или поиска структур данных дерева или графа. Он начинается с корня дерева (или некоторого произвольного узла графа, иногда называемого поисковым ключом) и исследует соседние узлы, прежде чем переходит на соседние уровни следующего иерархического уровня [13].

Рисунок 1 - Схема поиска в глубину (слева) и в ширину (справа)

Двунаправленный поиск - это алгоритм поиска на графе, который находит в ориентированном графе кратчайший путь от начальной вершины до конечной цели (рис. 2). Он выполняет два одновременных поиска: один вперед от начального состояния и один назад от цели, останавливаясь, когда они встречаются посередине [12].

Рисунок 2 - Схема двунаправленного поиска

Современные программные средства (dtSearch Desktop [15], Ищейка Проф Deluxe [5], Copernic Desktop Search [8], ISYS Desktop [19], Searchlnform [4], Терьер [24]), предназначенные для поиска информации на машинных носителях, предлагают широкий выбор алгоритмов поиска. Однако большинство таких ПО являются громоздкими и имеют избыточный функционал. Он увеличивает время проведения оперативно розыскных и/или следственных мероприятий, включающих в себя решение задач проверки файлов на наличие запрещенной и деструктивной информации. Кроме того, данные ПО не позволяют анализировать текстовую информацию, содержащуюся в графических файлах.

Поэтому актуальной является задача разработки ПО, осуществляющего поиск заданной информации и обладающего следующими функциональными возможностями: подключение к внешней обновляемой базе данных (БД), содержащей список критериев поиска запрещенного текстового контента; имеющие возможности его выявления в составе графических файлов.

Предлагаемые алгоритм поиска. Разрабатываемое ПО должно обеспечивать следующие функциональные возможности:

• поиск по коллекции значений критериев отбора;

• осуществление поиска с учетом возможных ошибок в словах;

• морфологический поиск с учетом различий в морфологии слов;

• анализ текстового контента, содержащегося в изображениях.

Исходя из этого, был предложен следующий алгоритм работы предлагаемого ПО (рис. 3):

1) пользователь выбирает директорию для анализа;

2) программа проверяет доступ к сети Интернет;

a) в случае наличия доступа, с онлайн ресурса скачивается актуальная версия базы данных с ключевыми словами и выражениями;

b) в случае отсутствия доступа используется выбранная пользователем локальная база данных или последняя синхронизированная копия;

3) пользователь выбирает атрибуты поиска;

4) программа начинает поиск по заданным критериям;

5) выбранная пользователем директория добавляется в очередь проверки как первая;

6) запускается анализ первой директории в очереди;

7) проверяется доступ к выбранной директории;

a) в случае отсутствия доступа, производится запись в журнал ошибок, данная директория удаляется из очереди, происходит возврат к п. 6;

b) если доступ разрешен, все поддиректории добавляются в очередь, а файлы в каталоге подвергаются анализу содержимого. После чего директория удаляется из очереди, происходит возврат к п. 6;

8) после опустошения очереди, программное обеспечение завершает работу.

Так как некоторые каталоги могут иметь большую глубину вложенных подкаталогов, а место возможного расположения запрещенного контента неизвестно, для его обнаружения был использован структурный алгоритм поиска по ширине.

Программное обеспечение было разработано на языке программирования C# в среде Visual Studio. На рисунке 4 представлена структура разработанного программного обеспечения, а на рисунке 5 -диаграмма потоков данных в нотации Йордана.

Созданное ПО создает базу для работы в несколько потоков, выполняющихся параллельно, то есть без предписанного порядка во времени. При выполнении некоторых задач такое разделение позволяет достичь более эффективного использования ресурсов вычислительной машины [20]. Также разработанное ПО имеет возможность поиска групп значений, т.е. возможность параллельно вести поиск по нескольким ключевым словосочетаниям.

Для корректной обработки различных типов файлов в разработанном ПО были использованы следующие сторонние библиотеки/ПО:

• обработчик Microsoft Office Word (включен в среду Visual Studio Enterprise 2017);

• обработчик Microsoft Office PowerPoint (включен в среду Visual Studio Enterprise 2017);

• обработчик Microsoft Office Excel (включен в среду Visual Studio Enterprise 2017);

• обработчик PDF-файлов;

• просмотр и анализ CSV файлов (написан авторами);

• просмотр и анализ архивов [21];

• подбор простых паролей для зашифрованных архивов [26];

• анализ изображений, содержащих текстовую информацию [18].

Кроме того, дополнительно были разработаны и подключены модули, обеспечивающие следующее:

• просмотр и анализ шестнадцатеричного кода файлов;

• преобразователь бинарных изображений в текстовые файлы;

• модуль подключения и обновления внешней базы данных (БД).

Рисунок 3 - Алгоритм работы предлагаемого ПО

Подсистема просмотра вложенных каталогов Модуль оповещения пользователя

1 < \ <

ПО для нахождения запрещенного текстового контента на локальных компьютерах

Модуль подключения к внешней базе данных t \ t к Подсистема подключения библиотек для работы с различными расширениями файлов

Рисунок 4 - Структура программного обеспечения

Рисунок 5 - Диаграмма потоков данных

Внешняя БД создается на основе списка ключевых слов и их сочетаний, заданных администратором БД как запрещенные.

Сформированный список может быть использован для поиска и выявления материалов, в которых потенциально может содержаться контент, запрещенный к распространению. Кроме того, база содержит в себе список слов с вариантами их склонений и опечаток.

Методика использования разработанного ПО. Основной интерфейс разработанного ПО приведен на рисунке 6.

Как было указано ранее, данное ПО работает в режиме многопоточности. Есть два возможных варианта реализации управления потоками: с помощью класса Thread или с помощью класса Task. Основное отличие состоит в том, что Task, выполнив поставленную задачу, самоуничтожится, освободив память, а Thread необходимо отключать вручную. Поэтому в целях упрощения процесса разработки данной программы использовался класса Task.

При проверке системных директорий появляется большая вероятность возникновения ошибок доступа. Поэтому в данный программный продукт был включен модуль обработки ошибок. После записи возникшей ошибки в журнал, программа продолжает выполнение поставленной задачи. Фрагмент журнала приведен на рисунке 7.

Возникающие ошибки записываются в журнал в хронологическом порядке и могут быть просмотрены позже в log-файле.

□I MainWindow — □

Выберите директорию... 0 CSV 0 DOC

C:\Program Files Выбрать 0 DOCX

выберите файл базы.. □ RTF 0 TXT П Изображения

Не выбран... Выбрать □ Прочее

Начать проверку

C:\Program Files C:\Program Files\Avidemux 2.6 • 64 bits C:\Program Files\Bonjour C:\Program Files\Common Files C:\Program Files\Common FllesEAInstaller C:\Program Files\dotnet v

Рисунок 6 - Интерфейс разработанного ПО

errors.log — Блокнот

Файл Правка Формат Вид Справка

\AppCrash_dmclient.exe_8198a65f90f4eaf09feddl6562181e9db27e05_013ab4f8_19da597a".

[31.01.2018 23:58:30] - Отказано в доступе по пути "C:\Usens\All Users\Microsoft\Windows\WER\ReportArchive \AppCrash_Pen_Tablet.exe_3ee2652dc78e3543cbcae4a473bcf867c41f9_9572facl_79e74d7a".

[31.01.2018 23:58:30] - Отказано в доступе по пути "C:\Users\All Users\Microsoft\Windows\WER\ReportArchive \NonCritical_10.0.16299.98_9fc3c6aa5d93c0f398ba3e72402b939elll660_00000000_7379f105".

[31.01.2018 23:58:30] - Отказано в доступе по пути "C:\Users\All Users\Microsoft\Windows\WER\ReportArchive \NonCritical_Update;_d89a8e2c3f5c7fb39db6e597b9al9aaf01aea_00000000_1711e2cd".

[31.01.2018 23:58:30] - Отказано в доступе по пути "C:\Users\Default\AppData\Local\Microsoft\Windows\Temporary Internet Files".

[31.01.2018 23:58:31] - Отказано в доступе по пути "C:\Users\Bce пользователиХМз.сгозо-^ХМз^оыБХЮ \ReportArchive\AppCrash_dmclient.exe_14f67f5cd365fac45ce4ebl82ba42ba4b6281d4_013ab4f8_7f5767f8". [31.01.2018 23:58:31] - Отказано в доступе по пути "C:\Usens\Bce noflb30BaTefln\Micnosoft\Windows\WER \ReportArchive\AppCrash_dmclient.exe_8198a65f90f4eaf09feddl6562181e9db27e05_013ab4f8_19da597a". [31.01.2018 23:58:31] - Отказано в доступе по пути "C:\Users\Bce пoльзoвaтeли\Micnosoft\Windows\WER \ReportArchive\AppCrash_Pen_Tablet.exe_3ee2652dc78e3543cbcae4a473bcf867c41f9_9572facl_79e74d7a". [31.01.2018 23:58:31] - Отказано в доступе по пути "C:\Users\Bce пoльзoвaтeли\Micnosoft\Windows\WER \ReportArchive\NonCritical_10.0.16299.98_9fc3c6aa5d93c0f398ba3e72402b939elll660_00000000_7379f105". [31.01.2018 23:58:31] - Отказано в доступе по пути "C:\Users\Bce пoльзoвaтeли\Microsoft\Windows\WER \ReportArchive\NonCritical_Update;_d89a8e2c3f5c7fb39db6e597b9al9aaf01aea_00000000_1711e2cd". [31.01.2018 23:58:32] - Отказано в доступе по пути "C:\Users\Alex\AppData\Local\Microsoft\Windows\INetCache

Отказано в доступе по пути Отказано в доступе по пути

'С:\Users\Alex\AppData\Roaming\Microsoft\Windows\Start Menu 'С:\Users\Default\AppData\Roaming\Microsoft\Windows\Start

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

\Content.IE5". [31.01.2018 23:58:32] \Программы". [31.01.2018 23:58:33] Мепи\Программы".

[31.01.2018 23:58:33] - Отказано в доступе по пути "C:\Users\Alex\AppData\Local\Packages \Microsoft.MicrosoftOfficeHub_8wekyb3d8bbwe\LocalCache\Local\Application Data". [31.01.2018 23:58:33] - Отказано в доступе по пути "C:\Users\Alex\AppData\Local\Packages \Microsoft.MicrosoftOfficeHub_8wekyb3d8bbwe\LocalCache\Local\ElevatedDiagnostics". [31.01.2018 23:58:33] - Отказано в доступе по пути "C:\Users\Alex\AppData\Local\Packages \Microsoft.MicrosoftOfficeHub_8wekyb3d8bbwe\LocalCache\Local\History". [31.01.2018 23:58:33] - Отказано в доступе по пути "C:\Usens\Alex\AppData\Local\Packages \Microsoft.MicrosoftOfficeHub_8wekyb3d8bbwe\LocalCache\Local\Temporary Internet Files".

Рисунок 7 - Фрагмент журнала ошибок, выдаваемых ПО

Сравнение возможностей разработанного ПО с его функциональными аналогами. Для выявления сильных и слабых сторон разработанного ПО было проведено его сравнение с функциональными аналогами по основным характеристикам. Результаты представлены в таблице 1 и свидетельствуют о том, что разработанное ПО имеет ряд функциональных преимуществ перед существующими продуктами:

• поиск ведется с учетом возможных ошибок (опечаток);

• имеется возможность поиска по совокупности различных атрибутов (время создания, расширение, размер и т.д.);

• кроме текстовых файлов анализируется изображения и PDF-файлы.

Для сравнения быстродействия и результативности созданного ПО и его аналогов они были экспериментально протестированы на ПЭВМ со следующими характеристиками:

• ЦПУ - Intel Core i7-4770k 4GHz;

• ОЗУ - 16 Гб;

• ОС - Windows 10.

Для проведения экспериментов были взяты файлы с различными расширениями, общий размер которых составил 20 Гб. Распределение файлов по типам (расширениям) представлено на рисунке 8.

Таблица 1. Результаты сравнения разработанного ПО с аналогами по функциональности

dtSearch Desktop Ищейка Проф Deluxe Copernic Desktop Search ISYS Desktop SearchInform Терьер Созданное ПО

Индексация + + + + + + +

Русификация - + - + + + +

Морфологический + + + +

поиск

Поиск по звучанию + - - - - - -

Поиск с коррекцией ошибок + - - - - - +

Поиск синонимов + - - - - -

Поиск фраз + - + + + + +

Поиск по атрибутам + + - - - - +

Выбор расширений + - + + + + +

Поддержка поиска

содержимого + + - + + + +

на русском

Поиск коллекции значений + - - + - + +

Анализ изображений и PDF-файлов - - - - - - +

Рисунок 8 - Распределение файлов по типам с различными расширениями

Результаты тестирования свидетельствуют о том, что разработанное ПО имеет ряд преимуществ перед существующими продуктами, а именно:

• более высокая скорость работы (рис. 9);

• меньший размер файла индекса (рис. 10);

• большая точность выявления запрещенного контента (рис. 11).

Полученные результаты свидетельствуют о том, что, хотя «Терьер» является лучшим по количеству успешно найденных текстовых файлов с запрещенным контентом, однако это ПО не позволяет анализировать графические файлы.

Рисунок 9 - Время индексации 20 Гб данных

Рисунок 10 - Сравнение ПО в отношении размера файла индекса

Л ПЛ

Ш

oU n

т fin

-i_ OU Ф =Г çn

о 50 ЛП

С 4U 30

20

1 fi 10

n

dtSearch Ищейка Проф Copernic ISYS Desktop Searchlnform Терьер Созданное ПО Desktop Deluxe Desktop Search

Рисунок 11 - Сравнение ПО в отношении процентов успешно найденных файлов с запрещенным контентом

Заключение. С использованием современных методик разработки было создано программное обеспечение, позволяющее за счет возможности анализировать графические файлы, охватывать больший объем данных. В отличие от существующих аналогов, созданное ПО использует внешнее хранилище правил поиска, что также является его преимуществом. Вышеперечисленные особенности делают разработанную программу конкурентоспособным продуктом в сфере поиска запрещенной информации на ПЭВМ.

Список литературы

1. Ажмухамедов И. М. Оценка состояния защищенности данных организации в условиях возможности реализации угроз информационной безопасности / И. М. Ажмухамедов, О. М. Князева // Прикаспийский журнал: управление и высокие технологии. - 2015. - № 3. - С. 24-39 (http://hi-tech.asu.edu.ru/files/3(31)/24-39.pdf).

2. Брумштейн Ю. М. Информационная безопасность сайтов высших учебных заведений: проблемы и решения / Ю. М. Брумштейн, А. А. Бондарев // Информационная безопасность регионов. - 2014. - № 1. - С. 38-47.

3. Брумштейн Ю. М. Системный анализ вопросов информационной безопасности использования ПЭВМ в домашних условиях / Ю. М. Брумштейн, А. А. Бондарев, А. Б. Кузьмина // Вестник Астраханского государственного технического университета. Серия «Управление, вычислительная техника и информатика. - 2014. - № 4. - С. 40-54.

4. Информационная безопасность предприятия - SearchInform. - Режим доступа: https://searchinform.ru, свободный. - Заглавие с экрана. - Яз. рус. (дата обращения: 23.04.2018).

5. Ищейка Проф Deluxe. - Режим доступа: http://www.isleuthhound.com/ru, свободный. - Заглавие с экрана. -Яз. рус. (дата обращения 23.04.2018).

6. Российская Федерация. Конституция Российской Федерации : официальный текст : [принята всенародным голосованием 12.12.1993 г.] // КонсультантПлюс. - Режим доступа: http://www.consultant.ru/document/cons_doc_ LAW_28399/, свободный. - Заглавие с экрана. - Яз. рус.

7. Обзор программ для поиска документов и данных - тестирование поисковых программ. - Режим доступа: https://searchinform.ru/blog/2015/02/28/obzor-programm-dlya-poiska-dokmentov-i-dannyh-testirovanie-poiskovyh-programm/, свободный. - Заглавие с экрана. - Яз. рус. (дата обращения: 23.04.2018).

8. Программы локального поиска. - Режим доступа: https://searchinform.ru/blog/2012/03/01/programmy-lokalnogo-poiska-statya-o-searchinform-1-7/, свободный. - Заглавие с экрана. - Яз. рус. (дата обращения: 23.04.2018).

9. Суслов А. В. Структура программного обеспечения для нахождения запрещенного текстового контента на локальных компьютерах / А. В. Суслов, Е. М. Сологубова // Проблемы информационной безопасности : материалы VII Всероссийской заочной интернет-конференции 20-21 февраля 2018 г. - Ростов-на-Дону : Азов Принт, 2018. -С. 129-132.

10. Российская Федерация. Уголовный кодекс Российской Федерации. Статья 282 «Возбуждение ненависти либо вражды, а равно унижение человеческого достоинства» от 13.06.1996 № 63-ФЗ (ред. от 19.02.2018) // КонсультантПлюс. -Режим доступа: http://www.consultant.ru/document/cons_doc_LAW_10699/d350878ee36f956a74c2c86830d066eafce20149/, свободный. - Заглавие с экрана. - Яз. рус.

11. Azhmukhamedov I. M. Management of Information Security Risks in a Context of Uncertainty / I. M. Azhmu-khamedov, O. N. Vybornova, Yu. M. Brumshteyn // Automatic Control and Computer Sciences. - 2016. - Vol. 50, no. 8. -P. 657-663.

12. Bidirectional Search. - Режим доступа: http://intelligence. worldofcomputing.net/ai-search/bidirectional-search.html, свободный. - Заглавие с экрана. - Яз. рус. (дата обращения: 23.04.2018).

13. Breadth First Search. - Режим доступа: http://intelligence. worldofcomputing.net/ai-search/breadth-first-search.html, свободный. - Заглавие с экрана. - Яз. рус. (дата обращения: 23.04.2018).

14. Depth First Search. - Режим доступа: http://intelligence.worldofcomputing.net/ai-search/depth-first-search.html, свободный. - Заглавие с экрана. - Яз. рус. (дата обращения: 23.04.2018).

15. DtSearch - Text Retrieval // Full Text Search Engine. - Режим доступа: http://www.dtsearch.com, свободный. - Заглавие с экрана. - Яз. рус. (дата обращения: 23.04.2018).

16. Full Text Search Engines vs. DBMS. - Режим доступа: https://lucidworks.com/2009/09/02/full-text-search-engines-vs-dbms/, свободный. - Заглавие с экрана. - Яз. рус. (дата обращения: 23.04.2018).

17. Indexing Process in Windows Search. - Режим доступа: https://msdn.microsoft.com/en-us/library/windows/ desktop/cc678933(v=vs.85), свободный. - Заглавие с экрана. - Яз. рус. (дата обращения: 23.04.2018).

18. IronOCR. - Режим доступа: https://ironsoftware.com/csharp/ ocr/, свободный. - Заглавие с экрана. -Яз. рус. (дата обращения 23.04.2018).

19. ISYS Search Software. - Режим доступа: http://www.isys-search.com/products/desktop/index.html, свободный. - Заглавие с экрана. - Яз. рус. (дата обращения: 23.04.2018).

20. Kunle Olukotun. Chip Multiprocessor Architecture - Techniques to Improve Throughput and Latency. - Morgan and Claypool Publishers, 2007. - 154 p.

21. Sharp Compress. - Режим доступа: https://github.com/adam-hathcock/sharpcompress, свободный. - Заглавие с экрана. - Яз. рус. (дата обращения: 23.04.2018).

22. Stefan Edelkamp. Heuristic search: theory and applications / Stefan Edelkamp, Stefan Schrodl. - Morgan Kaufmann Publishers, 2012. - 712 с.

23. Stuart Russell. Artificial Intelligence: A Modern Approach / Stuart Russell, Peter Norvig. - 2-е изд. - Москва : Вильямс, 2006. - 1408 с.

24. Terrier IR Platform. - Режим доступа: http://terrier.org, свободный. - Заглавие с экрана. - Яз. рус. (дата обращения: 23.04.2018).

25. Windows Desktop Search - Speed up your searches on your PC with Copernic. - Режим доступа: http://www.copernic.com/en/products/desktop-search, свободный. - Заглавие с экрана. - Яз. рус. (дата обращения: 23.04.2018).

26. ZipPasswordCrack. - Режим доступа: https://github.com/ dibO/ZipPasswordCrack, свободный. - Заглавие с экрана. - Яз. рус. (дата обращения: 23.04.2018).

References

1. Azhmukhamedov I. M., Knyazeva O. M. Otsenka sostoyaniya zashchishchennosti dannykh organizatsii v usloviyakh vozmozhnosti realizatsii ugroz informatsionnoy bezopasnosti [Assessment of the state of the data security of the organization in conditions of the possibility of realizing threats to information security]. Prikaspiyskiy zhurnal: upravleniye i vysokie tekhnologii [The Caspian Journal: Control and High Technologies], 2015, no. 3, pp. 24-39 (http://hi-tech.asu. edu.ru/files/3(31)/24-39.pdf).

2. Brumshteyn Yu. M., Bondarev A. A. Informatsionnaya bezopasnost saytov vysshikh uchebnykh zavedeniy: problem i resheniya [Information security of sites of higher educational institutions: problems and solutions]. Informatsion-naya bezopasnost regionov [Information Security of Regions], 2014, no. 1, pp. 38-47.

3. Brumshteyn Yu. M., Bondarev A. A., Kuzmina A. B. Sistemnyy analiz voprosov informatsionnoy bezopasnosti ispolzovaniya PEVM v domashnikh usloviyakh [System analysis of information security issues using PC in home conditions]. Vestnik Astrakhanskogo gosudarstvennogo tekhnicheskogo universiteta. Seriya «Upravleniye, vychislitelnaya tekhnika i informatika [Bulletin of the Astrakhan State Technical University. Series "Management, computer technology and informa-tatics"], 2014, no. 4, pp. 40-54.

4. Informatsionnaya bezopasnost predpriyatiya - Searchlnform [Information security of the enterprise -Searchlnform]. Available at: https://searchinform.ru (accessed: 23.04.2018).

5. IshcheykaProf Deluxe. Available at: http://www.isleuthhound.com/ru (accessed: 23.04.2018).

6. Russian Federation. The Constitution of the Russian Federation. Adopted by the popular vote on 12.12.1993. KonsultantPlyus [ConsultantPlus]. Available at: http://www.consultant.ru/document/cons_doc_ LAW_28399/.

7. Obzorprogramm dlya poiska dokumentov i dannykh - testirovanie poiskovykh programm [Review of programs for searching documents and data - testing of search programs]. Available at: https://searchinform.ru/blog/2015/02/28/obzor-programm-dlya-poiska-dokmentov-i-dannyh-testirovanie-poiskovyh-programm/ (accessed: 23.04.2018).

8. Programmy lokalnogo poiska [Local search programs]. Available at: https://searchinform.ru/blog/2012/03/01/ programmy-lokalnogo-poiska-statya-o-searchinform-1 -7/ (accessed: 23.04.2018).

9. Suslov A. V., Sologubova Ye. M. Struktura programmnogo obespecheniya dlya nakhozhdeniya zapreshchen-nogo tekstovogo kontenta na lokalnykh kompyuterakh [The structure of software for finding prohibited text content on local computers]. Problemy informatsionnoy bezopasnosti: materialy VII Vserossiyskoy zaochnoy internet-konferentsii 20-21 fevral-ya 2018 g. [Problems of Information Security. Proceedings of the VII All-Russian Correspondence Internet Conference on February 20-21, 2018], Rostov-on-Don, AzovPrint Publ., 2018, pp. 129-132.

10. Russian Federation. The Criminal Code of the Russian Federation. Article 282 "Raising hatred or enmity, as well as humiliation of human dignity" of 13.06.1996 no. 63-FZ (as of February 19, 2013). KonsultantPlyus [ConsultantPlus]. Available at: http://www.consultant.ru/document/cons_doc_LAW_10699/d350878ee36f956a74c2c86830d066eafce20149/.

11. Azhmukhamedov I. M., Vybornova O. N., Brumshteyn Yu. M. Management of Information Security Risks in a Context of Uncertainty. Automatic Control and Computer Sciences, 2016, vol. 50, no. 8, pp. 657-663.

12. Bidirectional Search. Available at: http://intelligence.worldofcomputing.net/ai-search/bidirectional-search.html (accessed: 23.04.2018).

13. Breadth First Search. Available at: http://intelligence.worldofcomputing.net/ai-search/breadth-first-search.html (accessed: 23.04.2018).

14. Depth First Search. Available at: http://intelligence.worldofcomputing.net/ai-search/depth-first-search.html (accessed: 23.04.2018).

15. DtSearch - Text Retrieval. Full Text Search Engine. Available at: http://www.dtsearch.com (accessed: 23.04.2018).

16. Full Text Search Engines vs. DBMS. Available at: https://lucidworks.com/2009/09/02/full-text-search-engines-vs-dbms/ (accessed: 23.04.2018).

17. Indexing Process in Windows Search. Available at: https://msdn.microsoft.com/en-us/library/windows/desktop/ cc678933(v=vs.85) (accessed: 23.04.2018).

18. IronOCR. Available at: https://ironsoftware.com/csharp/ ocr/ (accessed: 23.04.2018).

19. ISYS Search Software. Available at: http://www.isys-search.com/products/desktop/index.html (accessed: 23.04.2018).

20. Kunle Olukotun. Chip Multiprocessor Architecture - Techniques to Improve Throughput and Latency, Morgan and Claypool Publishers, 2007. 154 p.

21. SharpCompress. Available at: https://github.com/adam-hathcock/sharpcompress (accessed: 23.04.2018).

22. Stefan Edelkamp, Stefan Schrodl. Heuristic search: theory and applications, Morgan Kaufmann Publishers, 2012. 712 p.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

23. Stuart Russell, Peter Norvig. Artificial Intelligence: A Modern Ap-proach. 2nd ed. Moscow, Williams, 2006.

1408 с.

24. Terrier IRPlatform. Available at: http://terrier.org (accessed: 23.04.2018).

25. Windows Desktop Search - Speed up your searches on your PC with Copernic. Available at: http://www.copernic.com/en/products/desktop-search (accessed: 23.04.2018).

26. ZipPasswordCrack. Available at: https://github.com/ dib0/ZipPasswordCrack (accessed: 23.04.2018).

i Надоели баннеры? Вы всегда можете отключить рекламу.